語(yǔ)音技術(shù)在此騰飛
不詳 ?佚名 ? 2008年09月01日 ? ?特別報(bào)道

近日,在剛剛結(jié)束的“2008 NIST Speaker Recognition Evaluation”——國(guó)際說(shuō)話(huà)人識(shí)別評(píng)測(cè)大賽上,安徽科大訊飛語(yǔ)音實(shí)驗(yàn)室送評(píng)的識(shí)別系統(tǒng)獲得綜合指標(biāo)第一名的優(yōu)異成績(jī)。這是繼科大訊飛2006、2007年蟬聯(lián)國(guó)際英文合成大賽(Blizzard Challenge 2006/2007)第一名后,在語(yǔ)音研究國(guó)際大賽上獲得的又一殊榮。借此時(shí)機(jī),記者采訪(fǎng)了安徽科大訊飛信息科技股份有限公司副總裁吳曉如。
記者:請(qǐng)您簡(jiǎn)單介紹一下說(shuō)話(huà)人識(shí)別技術(shù)和此次國(guó)際說(shuō)話(huà)人識(shí)別測(cè)評(píng)大賽的獲獎(jiǎng)情況。
吳曉如:說(shuō)話(huà)人識(shí)別技術(shù),又稱(chēng)話(huà)者識(shí)別或聲紋識(shí)別,是語(yǔ)音識(shí)別技術(shù)的重要方向和應(yīng)用領(lǐng)域。該技術(shù)通過(guò)語(yǔ)音信號(hào)提取代表說(shuō)話(huà)人身份的相關(guān)特征,從而識(shí)別出說(shuō)話(huà)人的身份。
此次說(shuō)話(huà)人識(shí)別測(cè)評(píng)大賽是由NIST(美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院)舉辦的,作為國(guó)際上規(guī)模與影響力最大的說(shuō)話(huà)人測(cè)評(píng)大賽,是國(guó)際一流的科研單位和企業(yè)角逐說(shuō)話(huà)人識(shí)別技術(shù)桂冠的競(jìng)技平臺(tái)。本次是訊飛第一次參賽,此前,我們?cè)谡Z(yǔ)音識(shí)別研究上一直在默默耕耘,經(jīng)過(guò)多年腳踏實(shí)地地堅(jiān)持與努力,我們積累了深厚的語(yǔ)音識(shí)別研究基礎(chǔ)并組建了高水平研發(fā)團(tuán)隊(duì)。這次在時(shí)間緊、對(duì)手強(qiáng)的競(jìng)爭(zhēng)壓力下首次參賽就一舉奪魁,大大激勵(lì)了中國(guó)語(yǔ)音識(shí)別研究隊(duì)伍的士氣。
記者:聽(tīng)說(shuō)本次大賽是對(duì)產(chǎn)品的幾個(gè)指標(biāo)作了分別的評(píng)測(cè),而訊飛的識(shí)別系統(tǒng)獲得的是綜合指標(biāo)第一名的成績(jī),請(qǐng)分別介紹一下此次大賽的測(cè)評(píng)指標(biāo)和訊飛的成績(jī)。
吳曉如:本次大賽有三項(xiàng)測(cè)試指標(biāo),包括識(shí)別等錯(cuò)誤率(EER)、最小檢測(cè)代價(jià)(minDCF)和檢測(cè)代價(jià)(DCF),訊飛語(yǔ)音實(shí)驗(yàn)室報(bào)送的USTC-iFly系統(tǒng)獲得了識(shí)別等錯(cuò)誤率、最小檢測(cè)代價(jià)兩項(xiàng)第一名、檢測(cè)代價(jià)第三名的優(yōu)異成績(jī)。其中識(shí)別等錯(cuò)誤率,是識(shí)別說(shuō)話(huà)人識(shí)別效果優(yōu)劣最重要的一個(gè)指標(biāo)。舉個(gè)例子來(lái)講,在一千個(gè)語(yǔ)音樣本中,有十個(gè)樣本是被檢測(cè)對(duì)象,對(duì)這一千個(gè)樣本進(jìn)行檢測(cè),如果檢測(cè)結(jié)果中檢測(cè)出來(lái)的對(duì)象有缺漏,稱(chēng)“漏檢”;如果檢測(cè)出的對(duì)象是非被檢測(cè)對(duì)象,稱(chēng)“虛檢”。在一個(gè)結(jié)果都沒(méi)有檢測(cè)出來(lái)的時(shí)候,“虛檢”為最小值零,但“漏檢”值達(dá)到了最大,所以在一般情況下,需要虛檢和漏檢處在一個(gè)平衡點(diǎn)上,最好的結(jié)果就是檢測(cè)出的十個(gè)對(duì)象均為被檢測(cè)對(duì)象,這個(gè)指標(biāo)就是識(shí)別等錯(cuò)誤率,指檢測(cè)出來(lái)的結(jié)果漏檢和虛檢都是最小的。
另外,在這次比賽中,我們與新加坡信息研究所(IIR)等合作報(bào)送的I4U系統(tǒng)獲得了識(shí)別等錯(cuò)誤率、最小檢測(cè)代價(jià)兩項(xiàng)第二名,檢測(cè)代價(jià)第一名的優(yōu)異成績(jī)。
記者:請(qǐng)分別介紹一下訊飛的語(yǔ)音合成和語(yǔ)音識(shí)別技術(shù)情況。
吳曉如:語(yǔ)音技術(shù),通俗說(shuō),就是讓計(jì)算機(jī)等智能機(jī)器具備“會(huì)說(shuō)能聽(tīng)”能力的技術(shù),使人與機(jī)器之間溝通變得像人與人溝通一樣簡(jiǎn)單,它主要包括語(yǔ)音合成和語(yǔ)音識(shí)別兩項(xiàng)關(guān)鍵技術(shù)。
語(yǔ)音合成,就是讓你的電腦“會(huì)說(shuō)話(huà)”,解決的主要問(wèn)題是如何將文本狀態(tài)的文字信息轉(zhuǎn)化為可聽(tīng)的聲音信息。這樣,有些只能用眼睛看的文字信息,現(xiàn)在也可以用耳朵來(lái)聽(tīng)。
我們主要采用的技術(shù)是可訓(xùn)練和波形拼接相結(jié)合的語(yǔ)音合成方法。所謂波形拼接就是采用大語(yǔ)料庫(kù)技術(shù)進(jìn)行語(yǔ)音合成、實(shí)現(xiàn)高自然度高表現(xiàn)力合成語(yǔ)音,即從錄制的大規(guī)模自然語(yǔ)流數(shù)據(jù)庫(kù)中按照合適的聲學(xué)、語(yǔ)音學(xué)算法提取合適的單元合成出連續(xù)的語(yǔ)流。但這種完全基于語(yǔ)料庫(kù)的波形拼接需要錄大量的語(yǔ)音資料,所錄的庫(kù)容量的要求比較大。所以我們將波形拼接和可訓(xùn)練相結(jié)合,采用可訓(xùn)練的辦法,預(yù)測(cè)一個(gè)人的聲道、韻律的特征,然后根據(jù)預(yù)測(cè)的特征參數(shù),挑選合適的樣本拼接成數(shù)據(jù),使合成的語(yǔ)音數(shù)據(jù)更自然且清晰流利。
另外,在存儲(chǔ)空間不足的情況下,還可以單獨(dú)使用可訓(xùn)練的方法,把訓(xùn)練出來(lái)的參數(shù)直接放到合成器里面,通過(guò)合成器直接產(chǎn)生語(yǔ)音。
語(yǔ)音識(shí)別,就是讓機(jī)器能聽(tīng)懂人類(lèi)口述的自然語(yǔ)言,相當(dāng)于給機(jī)器裝上一個(gè)人工的“耳朵”。聽(tīng)懂有兩層含意,第一層是將這種口述語(yǔ)言逐詞逐字逐句地轉(zhuǎn)換為相應(yīng)的文字,例如對(duì)口授文章作聽(tīng)寫(xiě);第二層則是對(duì)口述語(yǔ)言中所包含的要求或詢(xún)問(wèn)作出正確的響應(yīng)。
在語(yǔ)音識(shí)別方法中,目前占主導(dǎo)地位的是基于統(tǒng)計(jì)的方法。在聲學(xué)模型方面,以Markov鏈為基礎(chǔ)的語(yǔ)音序列建模方法HMM(隱式Markov鏈)比較有效地解決了語(yǔ)音信號(hào)短時(shí)穩(wěn)定、長(zhǎng)時(shí)時(shí)變的特性,并且能根據(jù)一些基本建模單元構(gòu)造成連續(xù)語(yǔ)音的句子模型,達(dá)到了比較高的建模精度和建模靈活性。在語(yǔ)言層面上,通過(guò)統(tǒng)計(jì)真實(shí)大規(guī)模語(yǔ)料的詞之間同現(xiàn)概率即N元統(tǒng)計(jì)模型來(lái)區(qū)分識(shí)別帶來(lái)的模糊音和同音詞。另外,人工神經(jīng)網(wǎng)絡(luò)方法、基于文法規(guī)則的語(yǔ)言處理機(jī)制等也在語(yǔ)音識(shí)別中得到了應(yīng)用。
記者:最近,訊飛推出了一款電話(huà)語(yǔ)音識(shí)別產(chǎn)品InterReco,據(jù)了解這是訊飛推出的第一款電話(huà)語(yǔ)音識(shí)別產(chǎn)品。為什么會(huì)在這個(gè)時(shí)候推出這個(gè)產(chǎn)品呢,它有什么意義?
吳曉如:訊飛今年發(fā)布了第一款電話(huà)語(yǔ)音識(shí)別產(chǎn)品InterReco,這標(biāo)志著科大訊飛將通過(guò)優(yōu)秀的語(yǔ)音識(shí)別核心技術(shù)、可靠的電話(huà)語(yǔ)音識(shí)別產(chǎn)品、專(zhuān)業(yè)的技術(shù)支持服務(wù),加大拓展語(yǔ)音識(shí)別在電信級(jí)環(huán)境中應(yīng)用的廣度和深度。我們將幫助各行業(yè)合作伙伴在呼叫中心、電信增值服務(wù)、語(yǔ)音搜索等方面打造具有高增值效應(yīng)的自助語(yǔ)音服務(wù),為社會(huì)信息服務(wù)帶來(lái)更大的便捷性,加速推動(dòng)中國(guó)語(yǔ)音技術(shù)產(chǎn)業(yè)的發(fā)展。
針對(duì)語(yǔ)音識(shí)別應(yīng)用中面臨的方言口音、背景噪聲等問(wèn)題,InterReco基于實(shí)際業(yè)務(wù)系統(tǒng)收集了涵蓋不同方言和不同類(lèi)型背景噪聲的海量語(yǔ)音數(shù)據(jù),通過(guò)目前最新的區(qū)分性訓(xùn)練方法進(jìn)行語(yǔ)音建模,使語(yǔ)音識(shí)別系統(tǒng)在復(fù)雜應(yīng)用環(huán)境下?lián)碛辛己玫男Ч憩F(xiàn)。它采用分布式架構(gòu),延續(xù)了訊飛語(yǔ)音平臺(tái)久經(jīng)錘煉的高穩(wěn)定特性,能夠滿(mǎn)足電信級(jí)應(yīng)用的高可靠性要求。
為解決電話(huà)語(yǔ)音識(shí)別產(chǎn)品在應(yīng)用系統(tǒng)中集成難度大,面向具體業(yè)務(wù)優(yōu)化難度大的問(wèn)題,InterReco產(chǎn)品提供了高效的開(kāi)發(fā)接口、友好的開(kāi)發(fā)環(huán)境、強(qiáng)大易用的語(yǔ)法開(kāi)發(fā)工具和詳盡的幫助文檔及示例,將加速合作伙伴進(jìn)行集成和應(yīng)用開(kāi)發(fā)的過(guò)程。同時(shí),科大訊飛的專(zhuān)業(yè)服務(wù)團(tuán)隊(duì)將為合作伙伴提供高效的技術(shù)支持和應(yīng)用優(yōu)化服務(wù),使InterReco的領(lǐng)先特性在應(yīng)用系統(tǒng)得到充分體現(xiàn)。
InterReco的推出和語(yǔ)音合成形成了“能聽(tīng)會(huì)說(shuō)”的完整解決方案,將大幅推動(dòng)語(yǔ)音識(shí)別和整個(gè)語(yǔ)音產(chǎn)業(yè)的發(fā)展。
記者:目前訊飛發(fā)布的產(chǎn)品都有哪些類(lèi)型?
吳曉如:圍繞語(yǔ)音核心技術(shù),科大訊飛的主要產(chǎn)品包括語(yǔ)音支撐軟件和語(yǔ)音應(yīng)用軟件兩類(lèi)。
1、語(yǔ)音支撐軟件
科大訊飛語(yǔ)音支撐軟件主要分為電信級(jí)語(yǔ)音平臺(tái)和嵌入式語(yǔ)音軟件兩大類(lèi)。電信級(jí)語(yǔ)音平臺(tái)主要用于呼叫中心、電信增值業(yè)務(wù)、互聯(lián)網(wǎng)服務(wù)等行業(yè)市場(chǎng);嵌入式語(yǔ)音軟件主要用于手機(jī)、汽車(chē)導(dǎo)航、學(xué)習(xí)機(jī)等終端產(chǎn)品市場(chǎng)。電信級(jí)語(yǔ)音平臺(tái)和嵌入式語(yǔ)音軟件從技術(shù)上又可細(xì)分為語(yǔ)音合成和語(yǔ)音識(shí)別兩個(gè)主要方面。
我們從2001年開(kāi)始在中國(guó)市場(chǎng)率先推出電信級(jí)語(yǔ)音合成平臺(tái),經(jīng)華為和中興等合作伙伴大規(guī)模電信級(jí)測(cè)試后推向市場(chǎng),首先在電信呼叫中心中得到應(yīng)用。2004年開(kāi)始在中國(guó)市場(chǎng)率先推出嵌入式語(yǔ)音合成軟件,首先用于車(chē)載電話(huà)領(lǐng)域,經(jīng)過(guò)兩年多的市場(chǎng)開(kāi)拓與技術(shù)積累,嵌入式語(yǔ)音合成軟件的效果和應(yīng)用價(jià)值已經(jīng)得到產(chǎn)業(yè)界的廣泛認(rèn)可,從2006下半年開(kāi)始進(jìn)入高速成長(zhǎng)期。
在中文語(yǔ)音識(shí)別技術(shù)市場(chǎng),訊飛從2003年底開(kāi)始向電信級(jí)開(kāi)發(fā)伙伴提供“合成+識(shí)別”整體解決方案。目前,中文語(yǔ)音識(shí)別已在語(yǔ)音電話(huà)本、電信114號(hào)碼百事通、移動(dòng)和聯(lián)通手機(jī)音樂(lè)搜索等業(yè)務(wù)中得到了成功應(yīng)用。2007年初科大訊飛完全自主知識(shí)產(chǎn)權(quán)的嵌入式語(yǔ)音識(shí)別產(chǎn)品已經(jīng)開(kāi)始面市。
2、語(yǔ)音應(yīng)用軟件
科大訊飛在向開(kāi)發(fā)商提供核心技術(shù)的同時(shí),隨著對(duì)行業(yè)應(yīng)用的了解,也針對(duì)典型應(yīng)用領(lǐng)域推出以語(yǔ)音為特色的行業(yè)應(yīng)用解決方案(即語(yǔ)音應(yīng)用軟件)。例如,面向政府、教育、旅游、社區(qū)、企業(yè)等各個(gè)領(lǐng)域的信息管理與多渠道信息發(fā)布平臺(tái)、語(yǔ)音服務(wù)熱線(xiàn)等。
目前,科大訊飛重點(diǎn)發(fā)展的行業(yè)應(yīng)用軟件主要有:“彩鈴/炫鈴語(yǔ)音搜索電信增值業(yè)務(wù)系統(tǒng)”和“普通話(huà)口語(yǔ)評(píng)測(cè)系統(tǒng)”。此外,為加快面向大型企業(yè)/政府的行業(yè)應(yīng)用開(kāi)發(fā)速度,科大訊飛推出了融合智能語(yǔ)音和語(yǔ)言技術(shù),具有協(xié)作、通訊和互聯(lián)等關(guān)鍵支撐服務(wù)的快速開(kāi)發(fā)和模塊復(fù)用支撐平臺(tái)。
記者:訊飛語(yǔ)音科技在技術(shù)上目前已經(jīng)處于國(guó)際領(lǐng)先的地位,產(chǎn)品的市場(chǎng)發(fā)展應(yīng)該也是非常不錯(cuò)的,那一直以來(lái)訊飛在技術(shù)研發(fā)上是按照一個(gè)什么樣的思路去做的呢?
吳曉如:我們的技術(shù)發(fā)展原則可以用一個(gè)詞來(lái)概括,那就是:“頂天立地”。所謂“頂天”,就是要把技術(shù)做到最好;“立地”就是作為企業(yè)我們要把技術(shù)應(yīng)用到實(shí)際中去。
首先在技術(shù)上我們一定要有持續(xù)的潛力,在相當(dāng)長(zhǎng)的一段時(shí)間做到國(guó)際領(lǐng)先。在這種原則的指導(dǎo)下,很早開(kāi)始我們就強(qiáng)調(diào)研究資源的整合,同清華大學(xué)、中國(guó)科技大學(xué)等成立了聯(lián)合實(shí)驗(yàn)室,與國(guó)內(nèi)語(yǔ)音研究領(lǐng)域最具優(yōu)勢(shì)的研究機(jī)構(gòu)合作,共同把關(guān)鍵技術(shù)做到最好,最后再由訊飛把這些關(guān)鍵技術(shù)整合起來(lái)形成系統(tǒng)。同時(shí),作為一個(gè)企業(yè),我們需要把技術(shù)成果反映到產(chǎn)品上,以應(yīng)用為導(dǎo)向進(jìn)行技術(shù)研究,通過(guò)充分的市場(chǎng)調(diào)研確定最適合的研究方向,通過(guò)和合作伙伴的資源整合,把技術(shù)成果更好的推向應(yīng)用。我們一直希望能通過(guò)自己的努力摸索出一條產(chǎn)、學(xué)、研形成互動(dòng)的模式,從現(xiàn)在來(lái)看,這種模式運(yùn)轉(zhuǎn)得是很不錯(cuò)的,訊飛和合作伙伴一直以來(lái)都有很好的相互配合的關(guān)系。
記者:訊飛下一步的發(fā)展方向是什么?
吳曉如:科大訊飛作為中國(guó)實(shí)力最強(qiáng)、最具品牌影響力的專(zhuān)業(yè)語(yǔ)音技術(shù)提供商,一直致力于推動(dòng)中文語(yǔ)音產(chǎn)業(yè)的發(fā)展,目前在國(guó)內(nèi)語(yǔ)音交互市場(chǎng)的占有率超過(guò)70%,在各行各業(yè)擁有眾多的成功應(yīng)用案例。今后,我們?nèi)詫⒗^續(xù)致力于核心技術(shù)的研發(fā),然后在應(yīng)用層面上拓展語(yǔ)音技術(shù)研究的廣度和寬度,更深層次地挖掘語(yǔ)音識(shí)別產(chǎn)業(yè)的潛力。我們希望服務(wù)器級(jí)的產(chǎn)品能讓大家在信息查詢(xún)、信息獲取上更加方便,在已經(jīng)推出的電話(huà)語(yǔ)音命令式識(shí)別產(chǎn)品的基礎(chǔ)上,進(jìn)行連續(xù)語(yǔ)流識(shí)別產(chǎn)品的開(kāi)發(fā)。另外語(yǔ)音檢索也是我們努力的一個(gè)方向,通過(guò)技術(shù)研發(fā),改變現(xiàn)在互聯(lián)網(wǎng)中的語(yǔ)音數(shù)據(jù)必須附有文字標(biāo)簽的現(xiàn)狀,直接通過(guò)語(yǔ)音檢索獲取語(yǔ)音數(shù)據(jù),減少漢字輸入的麻煩,從而帶來(lái)更多的方便,努力使我們的語(yǔ)音技術(shù)給用戶(hù)帶來(lái)更大的便捷性。相信通過(guò)科大訊飛和合作伙伴的努力,中文語(yǔ)音技術(shù)產(chǎn)業(yè)將加速發(fā)展,語(yǔ)音識(shí)別技術(shù)將為大眾獲取信息服務(wù)提供更大的便捷,帶來(lái)更完美的體驗(yàn)。
手機(jī)體驗(yàn)

微信公眾號(hào)

微信小程序

手機(jī)版
-
微分享
