語(yǔ)音識(shí)別技術(shù)是什么?有何作用?
隨著物聯(lián)網(wǎng)的發(fā)展,對(duì)家庭電器的控制將會(huì)有更多的發(fā)展,而語(yǔ)音作為一種自然簡(jiǎn)單的方法將是一種有效便捷的控制方式。如果可以把語(yǔ)音控制與安全控制結(jié)合起來(lái),系統(tǒng)就變得更自然直接更人性化了。語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高新技術(shù)。語(yǔ)音識(shí)別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面。語(yǔ)音識(shí)別目前主要應(yīng)用在車聯(lián)網(wǎng)、智能翻譯、智能家居、自動(dòng)駕駛方面。
語(yǔ)言作為人類交流的基本方式,在幾千年的歷史長(zhǎng)河中不斷傳承。近年來(lái),隨著語(yǔ)音識(shí)別技術(shù)的不斷成熟,它在我們的生活中得到了廣泛的應(yīng)用,成為通過(guò)自然語(yǔ)言進(jìn)行人機(jī)交互的重要方式之一。語(yǔ)音識(shí)別技術(shù)如何讓機(jī)器“理解”人類語(yǔ)言?隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,人們對(duì)機(jī)器的依賴已經(jīng)達(dá)到了一個(gè)非常高的水平。語(yǔ)音識(shí)別技術(shù)使人和機(jī)器通過(guò)自然語(yǔ)言進(jìn)行交互成為可能。通過(guò)語(yǔ)音識(shí)別控制房間照明、空調(diào)溫度和電視相關(guān)操作是很常見的。根據(jù)識(shí)別對(duì)象的不同,語(yǔ)音識(shí)別任務(wù)大致可以分為三類,即孤立詞識(shí)別、關(guān)鍵詞識(shí)別(或關(guān)鍵詞檢測(cè))和連續(xù)語(yǔ)音識(shí)別。其中,孤立詞識(shí)別的任務(wù)是識(shí)別先前已知的孤立詞,如“開放”和“封閉”。連續(xù)語(yǔ)音識(shí)別的任務(wù)是識(shí)別任何連續(xù)的語(yǔ)音,如句子或段落。連續(xù)語(yǔ)音流中的關(guān)鍵詞檢測(cè)針對(duì)的是連續(xù)語(yǔ)音,但它并不識(shí)別所有的文本,只檢測(cè)一些已知關(guān)鍵詞出現(xiàn)的位置。
就是說(shuō),如果電腦配置有“語(yǔ)音辨識(shí)”的程序組,那么當(dāng)你的聲音通過(guò)一個(gè)轉(zhuǎn)換裝置輸入電腦內(nèi)部、并以數(shù)位方式儲(chǔ)存后,語(yǔ)音辨識(shí)程序便開始以你輸入的聲音樣本與事先儲(chǔ)存好的聲音樣本進(jìn)行對(duì)比工作。聲音對(duì)比工作完成之后,電腦就會(huì)輸入一個(gè)它認(rèn)為最“象”的聲音樣本序號(hào),就可以知道你剛才念的聲音是什么意義,進(jìn)而執(zhí)行此命令。說(shuō)起來(lái)簡(jiǎn)單,但要真正建立辨識(shí)率高的語(yǔ)音辨識(shí)程序組,卻是非常困難而專業(yè)的,世界各地的學(xué)者們也還在努力研究最好的方式。專家學(xué)者們研究出許多破解這個(gè)問(wèn)題的方法,如傅立葉轉(zhuǎn)換、倒頻譜參數(shù)等,使目前的語(yǔ)音辨識(shí)系統(tǒng)已達(dá)到一個(gè)可接受的程度,并且辨識(shí)度愈來(lái)愈高。
語(yǔ)音識(shí)別技術(shù)的應(yīng)用可以分為兩個(gè)發(fā)展方向:一個(gè)方向是大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng),主要應(yīng)用于計(jì)算機(jī)的聽寫機(jī),以及與電話網(wǎng)或者互聯(lián)網(wǎng)相結(jié)合的語(yǔ)音信息查詢服務(wù)系統(tǒng),這些系統(tǒng)都是在計(jì)算機(jī)平臺(tái)上實(shí)現(xiàn)的;另外一個(gè)重要的發(fā)展方向是小型化、便攜式語(yǔ)音產(chǎn)品的應(yīng)用,如無(wú)線手機(jī)上的撥號(hào)、汽車設(shè)備的語(yǔ)音控制、智能玩具、家電遙控等方面的應(yīng)用,這些應(yīng)用系統(tǒng)大都使用專門的硬件系統(tǒng)實(shí)現(xiàn),特別是近幾年來(lái)迅速發(fā)展的語(yǔ)音信號(hào)處理專用芯片(ApplicaTIon Specific Integrated Circuit,ASIC)和語(yǔ)音識(shí)別片上系統(tǒng)(System on Chip,SOC)的出現(xiàn)。
總體而言,在人工智能時(shí)代下,智能語(yǔ)音技術(shù)的發(fā)展已是大勢(shì)所趨,種種產(chǎn)業(yè)掣肘雖不可避免,但可通過(guò)技術(shù)進(jìn)步、資金支持、政策鼓勵(lì)以及整個(gè)大時(shí)代的發(fā)展去化解。因此,語(yǔ)音技術(shù)的未來(lái)或許不是坦途,但依然光明。語(yǔ)音識(shí)別應(yīng)用廣泛。常見的應(yīng)用系統(tǒng)包括:語(yǔ)音輸入系統(tǒng),比鍵盤輸入更符合人們的日常習(xí)慣,也更自然;語(yǔ)音控制系統(tǒng),即使用語(yǔ)音識(shí)別控制設(shè)備比手動(dòng)控制更快更方便,可應(yīng)用于工業(yè)控制、語(yǔ)音撥號(hào)系統(tǒng)、智能家電、聲控智能玩具等諸多領(lǐng)域。語(yǔ)音識(shí)別技術(shù)的另一方面應(yīng)用便是語(yǔ)音輸入和合成語(yǔ)音輸出。現(xiàn)在,已經(jīng)出現(xiàn)能將口述的文稿輸入計(jì)算機(jī)并按指定格式編排的語(yǔ)音軟件,它比通過(guò)鍵盤輸入在速度上要提高2~4倍。裝有語(yǔ)音軟件的電腦還能通過(guò)語(yǔ)音合成把計(jì)算機(jī)里的文件用各種語(yǔ)言“讀”出來(lái),這將大大推進(jìn)遠(yuǎn)程通信和網(wǎng)絡(luò)電話的發(fā)展。