語(yǔ)音識(shí)別開(kāi)啟智能新時(shí)代
對(duì)著手機(jī)說(shuō)出短信內(nèi)容,手機(jī)就能識(shí)別并譯成文字;向微波爐發(fā)出“加熱3分鐘”的指令,微波爐就能開(kāi)始執(zhí)行任務(wù);哼唱一段旋律就能查找到對(duì)應(yīng)的歌曲;輸入一個(gè)關(guān)鍵詞就能從一堆音頻資料里搜索出最匹配的內(nèi)容……這些人們?cè)?jīng)幻想過(guò),但只出現(xiàn)在科幻電影里的情景,隨著語(yǔ)音識(shí)別時(shí)代的到來(lái),都將一一變?yōu)楝F(xiàn)實(shí)。

近日,本刊記者走訪了清華大學(xué)電子工程系副主任、博士生導(dǎo)師吳及副教授,他向我們?cè)敿?xì)介紹了我國(guó)語(yǔ)音識(shí)別技術(shù)的發(fā)展和應(yīng)用方面的問(wèn)題。
過(guò)山車(chē)似的發(fā)展
“與機(jī)器進(jìn)行語(yǔ)音交流,讓機(jī)器明白你說(shuō)什么,這是人們長(zhǎng)期以來(lái)夢(mèng)寐以求的事情。語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高新技術(shù)。它是一門(mén)交叉學(xué)科,涉及到信號(hào)處理、統(tǒng)計(jì)模式識(shí)別、人工智能、計(jì)算機(jī)科學(xué)、語(yǔ)言學(xué)和認(rèn)知科學(xué)等眾多學(xué)科。”吳及解釋說(shuō)。近年來(lái),我國(guó)語(yǔ)音識(shí)別技術(shù)發(fā)展突飛猛進(jìn),取得了許多顯著進(jìn)步,并開(kāi)始逐漸從實(shí)驗(yàn)室走向市場(chǎng)。未來(lái)語(yǔ)音識(shí)別還將進(jìn)入工業(yè)、家電、通信、汽車(chē)電子、醫(yī)療、家庭服務(wù)以及電子產(chǎn)品等各個(gè)領(lǐng)域,全面融入我們的生活。
目前,語(yǔ)音識(shí)別技術(shù)已經(jīng)取得巨大進(jìn)展,一些語(yǔ)音識(shí)別技術(shù)開(kāi)始得到廣泛應(yīng)用,具有語(yǔ)音識(shí)別功能的產(chǎn)品也不斷出現(xiàn),這些都標(biāo)志著語(yǔ)音識(shí)別技術(shù)距離人類(lèi)的日常生活越來(lái)越近。然而從20世紀(jì)50年代起步的語(yǔ)音識(shí)別技術(shù)研究并不是一帆風(fēng)順,用吳及的話(huà)來(lái)說(shuō),語(yǔ)音識(shí)別的發(fā)展,一直在峰谷之間徘徊?!捌鸪跞藗円庾R(shí)到語(yǔ)音識(shí)別技術(shù)蘊(yùn)含巨大的潛在價(jià)值,對(duì)它給予很高的期望。但真正開(kāi)始研究之后,才發(fā)現(xiàn)難度非常大,于是很多人都放棄了;當(dāng)技術(shù)的進(jìn)步讓人們看到了希望,相關(guān)研究又熱了起來(lái),然而由于技術(shù)的發(fā)展仍然難以滿(mǎn)足實(shí)際應(yīng)用的需求,研究工作再次走入低谷。如此跌宕起伏好幾次,像坐過(guò)山車(chē)一樣。”即便如此,學(xué)術(shù)界一直堅(jiān)持研究,正是因?yàn)樵S多和吳及一樣的學(xué)者的矢志不渝,我國(guó)語(yǔ)音識(shí)別技術(shù)才在繼上世紀(jì)70年代和90年代之后,在最近幾年抓住了時(shí)代的機(jī)遇再次迎來(lái)了發(fā)展高峰。
吳及認(rèn)為,國(guó)家“863”計(jì)劃的長(zhǎng)期支持、計(jì)算機(jī)性能的提高和基礎(chǔ)數(shù)據(jù)長(zhǎng)期積累,推動(dòng)了我國(guó)語(yǔ)音識(shí)別技術(shù)的快速發(fā)展。80年代中期以來(lái),在國(guó)家“863”計(jì)劃的支持和國(guó)內(nèi)各科研機(jī)構(gòu)的艱苦努力下,語(yǔ)音識(shí)別經(jīng)歷了從特定人到非特定人、從小詞表到大詞匯量、從孤立字到連續(xù)語(yǔ)音的發(fā)展歷程。語(yǔ)音識(shí)別的對(duì)象也從實(shí)驗(yàn)室環(huán)境下的朗讀數(shù)據(jù)發(fā)展到現(xiàn)在的復(fù)雜環(huán)境下的真實(shí)口語(yǔ)數(shù)據(jù)。目前我國(guó)語(yǔ)音識(shí)別技術(shù)的研究水平已基本與國(guó)外同步,而漢語(yǔ)語(yǔ)音識(shí)別技術(shù)更是體現(xiàn)了我們自身的特點(diǎn)和優(yōu)勢(shì),達(dá)到國(guó)際先進(jìn)水平。

吳及在東京參加InterSpeech2010國(guó)際學(xué)術(shù)會(huì)議
快捷有效的語(yǔ)音搜索
語(yǔ)音識(shí)別系統(tǒng)除了應(yīng)用于人機(jī)交互(車(chē)載語(yǔ)音控制、人機(jī)對(duì)話(huà)系統(tǒng)等)之外,目前語(yǔ)音搜索和分析技術(shù)也得到很多關(guān)注。
“語(yǔ)音搜索有點(diǎn)類(lèi)似Google、百度等搜索引擎,不一樣的是現(xiàn)有的搜索引擎只能搜索文本形式的關(guān)鍵字,并不能搜索音頻內(nèi)容,但語(yǔ)音搜索技術(shù)能直接對(duì)音頻內(nèi)容進(jìn)行搜索?!眳羌罢f(shuō)。對(duì)于音視頻文件,現(xiàn)有的搜索引擎,包括Google和百度,并不能直接對(duì)內(nèi)容進(jìn)行搜索,只能依賴(lài)人工創(chuàng)建的文字信息,比如包括音、視頻網(wǎng)頁(yè)的環(huán)繞文字,或者相關(guān)的標(biāo)簽(作品名稱(chēng)或者作者名字)進(jìn)行搜索。但這些信息極為粗略,并不能反映音視頻文件中大部分內(nèi)容,也不能保證準(zhǔn)確性。
隨著多媒體時(shí)代的到來(lái),音視頻資料越來(lái)越多,因此能夠面向多媒體數(shù)據(jù),更為智能的基于內(nèi)容的搜索引擎技術(shù)顯得非常必要,其產(chǎn)業(yè)前景也有望超過(guò)當(dāng)前基于關(guān)鍵字的文本搜索技術(shù)。吳及表示,語(yǔ)音搜索技術(shù)是人機(jī)智能交互領(lǐng)域的重要方向,利用智能音頻檢索技術(shù),用戶(hù)就可以根據(jù)音頻內(nèi)容對(duì)多媒體數(shù)據(jù)進(jìn)行搜索和定位,大大提高了處理效率?!罢Z(yǔ)音搜索技術(shù)的出現(xiàn)使得我們管理和利用多媒體數(shù)據(jù)的能力得以提高,甚至它對(duì)國(guó)家的安全監(jiān)控也有幫助,因此備受政府關(guān)注?!?BR> 在語(yǔ)音搜索研究領(lǐng)域,吳及課題組承擔(dān)過(guò)國(guó)家“863”計(jì)劃課題“基于內(nèi)容的高性能語(yǔ)音搜索技術(shù)探索研究”。經(jīng)過(guò)幾年的努力,課題組研發(fā)了面向多媒體數(shù)據(jù)管理和利用的智能音頻檢索技術(shù),實(shí)現(xiàn)了包括離線(xiàn)預(yù)處理和在線(xiàn)檢索的兩階段音頻檢索系統(tǒng)。同時(shí),以智能語(yǔ)音搜索技術(shù)研究為基礎(chǔ),課題組還開(kāi)展了基于內(nèi)容的海量多媒體數(shù)據(jù)的數(shù)據(jù)處理方法的研究,涉及到機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、自然語(yǔ)言處理、統(tǒng)計(jì)分析、并行計(jì)算等前沿課題。
語(yǔ)音搜索技術(shù)究竟有什么好處呢?吳及舉例說(shuō):“如果你想要在一年的新聞聯(lián)播中搜索某段音頻資料,一旦標(biāo)題中沒(méi)有你輸入的關(guān)鍵字,一般的搜索引擎就檢索不出來(lái);但是語(yǔ)音搜索技術(shù)能夠?qū)⒄Z(yǔ)音轉(zhuǎn)化為文字,即使新聞標(biāo)題里不含你輸入的關(guān)鍵詞,只要播音員說(shuō)到了這個(gè)關(guān)鍵詞,系統(tǒng)同樣也能找到你想要的音頻。同時(shí),我們還可以進(jìn)一步利用語(yǔ)音分析和理解技術(shù)提取新聞節(jié)目的摘要并建立重要事件的發(fā)展脈絡(luò)。語(yǔ)音搜索技術(shù)和語(yǔ)音分析技術(shù)使人們對(duì)音視頻數(shù)據(jù)的理解上升到了一個(gè)全新層面,在計(jì)算機(jī)超強(qiáng)計(jì)算能力的輔助下,人們能夠更加快速、有效地掌握和理解數(shù)據(jù)中包含的內(nèi)容,大大節(jié)省了查找時(shí)間,提高了用戶(hù)對(duì)音視頻數(shù)據(jù)的管理和利用能力?!?/FONT>
創(chuàng)新助力新領(lǐng)域研究
一套擁有諸多優(yōu)點(diǎn)的語(yǔ)音識(shí)別系統(tǒng)具體包含哪些技術(shù)呢?吳及說(shuō):“首先是音頻預(yù)處理技術(shù),初始的音頻數(shù)據(jù)中除了人說(shuō)話(huà)的聲音外,可能會(huì)錄入其他干擾聲音,因此我們需要對(duì)音頻進(jìn)行處理,將有用的聲音和噪聲區(qū)別開(kāi)。這樣的預(yù)處理也叫做語(yǔ)音端點(diǎn)檢測(cè)或者場(chǎng)景分割,這對(duì)識(shí)別系統(tǒng)來(lái)說(shuō)是很關(guān)鍵的一步;此外還有特征提取,建立語(yǔ)音模型并進(jìn)行參數(shù)學(xué)習(xí),以及在給定的網(wǎng)絡(luò)空間中進(jìn)行高效率的搜索識(shí)別等。目前在這些基礎(chǔ)技術(shù)上,國(guó)內(nèi)與國(guó)外的發(fā)展水平基本持平。”
當(dāng)前語(yǔ)音識(shí)別技術(shù)面臨的一個(gè)重要難題是多語(yǔ)言混合識(shí)別。據(jù)吳及介紹,現(xiàn)在的實(shí)際漢語(yǔ)里有很多外來(lái)語(yǔ),它們的發(fā)音習(xí)慣和漢語(yǔ)普通話(huà)不一樣,需要在識(shí)別系統(tǒng)中采取專(zhuān)門(mén)的策略,目前想要徹底解決這個(gè)問(wèn)題還有很大難度。在實(shí)際生活中,語(yǔ)言中不斷產(chǎn)生新詞,比如“給力”、“雷人”等,如果語(yǔ)音識(shí)別模型里沒(méi)有收集到這些新詞,也會(huì)對(duì)識(shí)別產(chǎn)生一定影響。另外,復(fù)雜環(huán)境下的真實(shí)口語(yǔ)數(shù)據(jù)中會(huì)受到噪聲的干擾,會(huì)包含各種口語(yǔ)現(xiàn)象,這些對(duì)于識(shí)別性能的提高都是很大的挑戰(zhàn)?!斑@些存在的問(wèn)題有些需要從技術(shù)上進(jìn)行完善,而有些需要在知識(shí)積累上進(jìn)行補(bǔ)充,比如新詞的問(wèn)題,需要我們不斷更新詞典和語(yǔ)言模型,跟上語(yǔ)言的發(fā)展步伐?!?BR> 至于語(yǔ)音識(shí)別技術(shù)未來(lái)的發(fā)展方向,吳及表示基本不會(huì)脫離人機(jī)交互和海量數(shù)據(jù)處理的軌道。他說(shuō):“接下來(lái)我們會(huì)用語(yǔ)音識(shí)別、語(yǔ)音搜索和語(yǔ)音分析等智能語(yǔ)音技術(shù)構(gòu)建一些新的應(yīng)用,這是現(xiàn)在比較前沿的方向。這個(gè)過(guò)程需要解決許多以前從沒(méi)遇到過(guò)的問(wèn)題,所以離不開(kāi)自主創(chuàng)新。脫離創(chuàng)新,新領(lǐng)域的研究工作不可能順利進(jìn)行,這是科學(xué)研究最基本的特點(diǎn)。”
吳及,清華大學(xué)電子工程系副主任、副教授、博士生導(dǎo)師;主要從事數(shù)據(jù)結(jié)構(gòu)與算法方面的教學(xué)工作,以及語(yǔ)音識(shí)別、信號(hào)處理、人機(jī)交互、模式識(shí)別和機(jī)器學(xué)習(xí)方面的研究工作;2001年~2003年負(fù)責(zé)“863“項(xiàng)目“智能化中文語(yǔ)音信息處理平臺(tái)”,2006年~2008年負(fù)責(zé)“863”項(xiàng)目“基于內(nèi)容的高性能語(yǔ)音搜索技術(shù)探索研究”;目前擔(dān)任清華—訊飛語(yǔ)音技術(shù)聯(lián)合實(shí)驗(yàn)室主任、全國(guó)人機(jī)語(yǔ)音通信學(xué)術(shù)會(huì)議常設(shè)機(jī)構(gòu)委員;是多個(gè)國(guó)內(nèi)外學(xué)術(shù)期刊和會(huì)議的審稿人,在國(guó)內(nèi)外期刊、會(huì)議上發(fā)表論文50余篇。
手機(jī)體驗(yàn)

微信公眾號(hào)

微信小程序

手機(jī)版
-
微分享
