首頁(yè)>>>技術(shù)>>>語(yǔ)音應(yīng)用>>>語(yǔ)音識(shí)別(ASR)  語(yǔ)音識(shí)別產(chǎn)品

語(yǔ)音識(shí)別醞釀第二次浪潮

彭禎藝 2003/09/15

  得意音通是一家提供語(yǔ)音技術(shù)的公司。打進(jìn)該公司的電話總機(jī),在通常的“請(qǐng)撥分機(jī)號(hào)”以及“人工服務(wù)撥0”的語(yǔ)音提示外,加上了一條“請(qǐng)說(shuō)您找哪位”。其實(shí),像這樣的用戶直接跟機(jī)器對(duì)話的系統(tǒng)在美國(guó)已非常普遍。在遍布美國(guó)大街小巷的公用電話亭里,只要有AT&T語(yǔ)音識(shí)別系統(tǒng)標(biāo)識(shí)的,用戶只需對(duì)著電話說(shuō)“Connect Operator Please”,系統(tǒng)所具有的關(guān)鍵詞檢測(cè)技術(shù)就可以從句子中查找到Operator,直接把電話接通到接線員,系統(tǒng)的識(shí)別率超過(guò)99%。

  相比用按鍵方式進(jìn)入一級(jí)級(jí)菜單的傳統(tǒng)的呼叫中心,這樣的服務(wù)顯然更方便。尤其是在不適用于鍵盤和鼠標(biāo)輸入的移動(dòng)計(jì)算環(huán)境,語(yǔ)音輸入具有更大的發(fā)展?jié)摿Α>退闶窃谵k公室,語(yǔ)音識(shí)別技術(shù)也可以幫助一部分不愿意或不能使用鍵盤、鼠標(biāo)的用戶減少大量的手腕和手指的重復(fù)勞動(dòng)。然而,這樣的技術(shù)對(duì)大部分人來(lái)說(shuō)仍然很新鮮,想想有幾個(gè)人使用了手機(jī)里內(nèi)置多年的語(yǔ)音撥號(hào)功能?
  
  技術(shù)的落差

  語(yǔ)音識(shí)別的研究工作可以追溯到20世紀(jì)50年代AT&T貝爾實(shí)驗(yàn)室的Audry系統(tǒng),它是第一個(gè)可以識(shí)別十個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)。實(shí)驗(yàn)室語(yǔ)音識(shí)別研究的巨大突破產(chǎn)生于20世紀(jì)80年代末:一些小詞匯量的識(shí)別系統(tǒng)具備了較高的識(shí)別率。同時(shí),人們終于在實(shí)驗(yàn)室突破了大詞匯量、連續(xù)語(yǔ)音和非特定人這三大障礙,第一次把這三個(gè)特性都集成在一個(gè)系統(tǒng)中。語(yǔ)音識(shí)別技術(shù)獲得突破的主要原因在于半導(dǎo)體技術(shù)、軟件技術(shù)和存儲(chǔ)技術(shù)突飛猛進(jìn)的發(fā)展。

  語(yǔ)音技術(shù)掀起的第一次浪潮始于20世紀(jì)90年代前期,許多著名的大公司如IBM、蘋果、AT&T和NTT都對(duì)語(yǔ)音識(shí)別系統(tǒng)的實(shí)用化研究投以巨資。語(yǔ)音識(shí)別技術(shù)有一個(gè)很好的評(píng)估機(jī)制,那就是識(shí)別的準(zhǔn)確率,而這項(xiàng)指標(biāo)在20世紀(jì)90年代中后期實(shí)驗(yàn)室研究中得到了不斷的提高。在1997年有人提出,“語(yǔ)音時(shí)代”已經(jīng)來(lái)臨,商家也都對(duì)此充滿了信心:希望語(yǔ)音識(shí)別能力能跟人一樣。語(yǔ)音識(shí)別技術(shù)變得如此受歡迎,讓人不得不相信,語(yǔ)音技術(shù)將無(wú)處不在。

  然而,事實(shí)并非如此。在實(shí)際應(yīng)用中,在實(shí)驗(yàn)室中“成功”的語(yǔ)音識(shí)別系統(tǒng)在魯棒性(Robustness)、靈活性和自適應(yīng)能力上還遠(yuǎn)遠(yuǎn)不能滿足實(shí)際的需要,技術(shù)上也顯得力不從心。得意音通公司副總裁鄧永強(qiáng)說(shuō):“過(guò)高的市場(chǎng)期望面對(duì)實(shí)際的技術(shù)水平和應(yīng)用現(xiàn)狀,難免產(chǎn)生泡沫!

  技術(shù)的不成熟,加之市場(chǎng)的接受情況,語(yǔ)音識(shí)別市場(chǎng)確實(shí)無(wú)法用上“火爆”這個(gè)形容詞,甚至無(wú)法在市場(chǎng)上找到幾個(gè)語(yǔ)音識(shí)別方面的成熟應(yīng)用,因此,眾人紛紛打起了“半成品技術(shù)”的主意,“以現(xiàn)有的技術(shù)水平來(lái)創(chuàng)造出應(yīng)用”。以中國(guó)市場(chǎng)為例,廠商并沒(méi)有去追求最完美的應(yīng)用—“聽(tīng)寫機(jī)”一類的非特定人、連續(xù)語(yǔ)音、大詞匯量的語(yǔ)音識(shí)別,而是把當(dāng)前已經(jīng)成熟的那部分技術(shù)應(yīng)用到實(shí)際的產(chǎn)品中。例如以中小詞表為主的命令式語(yǔ)音識(shí)別,包括呼叫中心、語(yǔ)音撥號(hào),移動(dòng)設(shè)備中的嵌入式命令控制等,并且對(duì)于普通話能達(dá)到相當(dāng)高的識(shí)別率。
  
  語(yǔ)音識(shí)別的“新三難”

  語(yǔ)音識(shí)別系統(tǒng)的分類有三種依據(jù):詞匯量大小,對(duì)說(shuō)話人說(shuō)話方式的要求(分為孤立詞語(yǔ)音識(shí)別和連續(xù)語(yǔ)音識(shí)別)和對(duì)說(shuō)話人的依賴程度(分為特定人和非特定人語(yǔ)音識(shí)別系統(tǒng))。語(yǔ)音識(shí)別技術(shù)的發(fā)展歷史就是從簡(jiǎn)單到復(fù)雜,逐一攻克“老三樣”指標(biāo)的過(guò)程。

  最簡(jiǎn)單的小詞匯量、孤立詞、特定人語(yǔ)音識(shí)別技術(shù)在20世紀(jì)70年代就已經(jīng)非常成熟。盡管有一定的難度,目前在實(shí)驗(yàn)室環(huán)境下“老三難”均能達(dá)到最高標(biāo)準(zhǔn),也就是聽(tīng)寫機(jī)。微軟稱嵌入到Office軟件中的聽(tīng)寫系統(tǒng)能在標(biāo)準(zhǔn)北京口音輸入的情況下,首次識(shí)別率達(dá)到93%,調(diào)試之后達(dá)到96%,并且新的技術(shù)正在使識(shí)別率不斷上升。

  技術(shù)的價(jià)值在于它服務(wù)于應(yīng)用。雖然在實(shí)驗(yàn)室擁有如此高的識(shí)別率,在語(yǔ)音識(shí)別技術(shù)從各個(gè)不同的突破口進(jìn)行應(yīng)用和產(chǎn)業(yè)化的過(guò)程中,“新三難”凸現(xiàn)出來(lái),成為研究重點(diǎn)。

  首先,方言或口音會(huì)降低語(yǔ)音識(shí)別率,而對(duì)于擁有八大方言區(qū)的中文來(lái)說(shuō),應(yīng)用的難度會(huì)更大。清華大學(xué)計(jì)算機(jī)系語(yǔ)音技術(shù)中心副教授,同時(shí)也是北京得意音通技術(shù)有限公司董事長(zhǎng)兼總裁的鄭方博士就正在跟蹤解決這一問(wèn)題。今年,在美國(guó)約翰霍普金斯大學(xué)召開(kāi)的每年一度的語(yǔ)音技術(shù)研討會(huì)上,鄭方博士提了一個(gè)關(guān)于方言和口音問(wèn)題的提案,題目定為“Dialectal Chinese(帶方言的普通話)”。題目本身的重要性使它在全球十幾家提案中勝出,并成為最終被選定的三四家之一。鄭方博士說(shuō),“Mandarin Influenced by Native Dialect(受母語(yǔ)口音影響的普通話)”將有可能成為一個(gè)需要四五年時(shí)間完成的大項(xiàng)目。

  “新三難”問(wèn)題之二是背景噪音。人多的公共場(chǎng)所巨大的噪音對(duì)語(yǔ)音識(shí)別影響自不用說(shuō),就算在實(shí)驗(yàn)室環(huán)境下,敲擊鍵盤、挪動(dòng)麥克風(fēng)都會(huì)成為背景噪音。它將破壞原始語(yǔ)音的頻譜,或者把原始語(yǔ)音部分或全部掩蓋掉,造成識(shí)別率下降。實(shí)際應(yīng)用中,噪音是無(wú)法避免的。研究將要解決的問(wèn)題就是如何把原始語(yǔ)音從背景噪音中分離出來(lái),這將會(huì)使識(shí)別系統(tǒng)具有很強(qiáng)的適應(yīng)性。

  第三個(gè)就是“口語(yǔ)”的問(wèn)題。它既涉及到自然語(yǔ)言理解,又與聲學(xué)有關(guān)。語(yǔ)音識(shí)別技術(shù)的最終目的是要讓用戶在“人機(jī)對(duì)話”的時(shí)候,能夠像進(jìn)行“人人對(duì)話”一樣自然。而一旦用戶以跟人交談的方式來(lái)進(jìn)行語(yǔ)音輸入時(shí),口語(yǔ)的語(yǔ)法不規(guī)范和語(yǔ)序不正常的特點(diǎn)會(huì)給語(yǔ)義的分析和理解帶來(lái)困難。另外,當(dāng)人們?cè)诳谡Z(yǔ)交流時(shí),即便是人的大腦分析認(rèn)為是非常標(biāo)準(zhǔn)的發(fā)音,在語(yǔ)音識(shí)別的時(shí)候上卻變到了聲學(xué)的角度,隨意發(fā)音帶來(lái)的問(wèn)題是很大的。

  “新三難”是在語(yǔ)音識(shí)別技術(shù)的應(yīng)用中對(duì)識(shí)別率影響最大的三個(gè)因素。除此以外,由于語(yǔ)音在識(shí)別前需要傳輸,識(shí)別系統(tǒng)還需要適應(yīng)不同類型的傳輸信道。語(yǔ)音識(shí)別技術(shù)本身還有很大的發(fā)展空間。

  第二次浪潮還有多遠(yuǎn)?

  多年的研究使國(guó)內(nèi)中文語(yǔ)音識(shí)別的核心技術(shù)與國(guó)際的差別不大,并且從去年開(kāi)始,中文語(yǔ)音識(shí)別技術(shù)的應(yīng)用開(kāi)始大量涌現(xiàn),產(chǎn)業(yè)化進(jìn)程從此拉開(kāi)序幕。鄧永強(qiáng)把語(yǔ)音識(shí)別產(chǎn)業(yè)的現(xiàn)狀比作1995年時(shí)期的互聯(lián)網(wǎng),“樹(shù)在長(zhǎng)大,有綠葉了,還在等開(kāi)花結(jié)果”。他認(rèn)為,中文語(yǔ)音識(shí)別產(chǎn)業(yè)經(jīng)過(guò)了1998、1999年的轉(zhuǎn)折點(diǎn)—從0變成了1,將會(huì)在明年出現(xiàn)新的轉(zhuǎn)折點(diǎn),形成新的發(fā)展高峰。那么,中文能否給語(yǔ)音識(shí)別帶來(lái)第二次浪潮?

  又一次浪潮的出現(xiàn),必須建立在成型的市場(chǎng)之上。今年3月,HarrisInteractive公司受美國(guó)的專業(yè)語(yǔ)音技術(shù)公司Nuance委托對(duì)美國(guó)普通公民進(jìn)行了語(yǔ)音技術(shù)滿意度的調(diào)查。調(diào)查結(jié)果是:語(yǔ)音技術(shù)已被廣泛的接受和使用;用戶對(duì)他們?cè)?jīng)使用的語(yǔ)音技術(shù)有著高度評(píng)價(jià);語(yǔ)音比起其它的交互方式有更多的優(yōu)勢(shì)?梢(jiàn),語(yǔ)音技術(shù)在美國(guó)的普通公民中有著相當(dāng)高的接受程度。在這樣的基礎(chǔ)之上,美國(guó)語(yǔ)音識(shí)別市場(chǎng)逐漸做大,已經(jīng)形成了競(jìng)爭(zhēng)的格局。

  而國(guó)內(nèi)在技術(shù)的應(yīng)用上起步較晚,導(dǎo)致了現(xiàn)在國(guó)內(nèi)用戶感到新鮮的語(yǔ)音產(chǎn)品在國(guó)外已有了好幾年的應(yīng)用。早在1997年就進(jìn)入中國(guó)語(yǔ)音識(shí)別市場(chǎng)的IBM,已經(jīng)花費(fèi)大量資金培育市場(chǎng),讓大家知道了什么是語(yǔ)音技術(shù);蛟S正是因?yàn)槿绱,在市?chǎng)推廣方面較為薄弱的國(guó)內(nèi)廠商并不排斥具有強(qiáng)大實(shí)力的國(guó)際大公司。北京中科模識(shí)科技有限公司總裁徐波博士認(rèn)為,“目前與IBM和微軟這樣的巨頭之間并不是競(jìng)爭(zhēng)的局面。如果他們?cè)诩夹g(shù)上取得突破并形成產(chǎn)品,或者把語(yǔ)音識(shí)別嵌入到他們自己的強(qiáng)勢(shì)產(chǎn)品中去,也不一定是壞事。這樣,將會(huì)有更多的人接受語(yǔ)音識(shí)別技術(shù),市場(chǎng)規(guī)模會(huì)更大!

  鄭方博士表示,“關(guān)鍵的問(wèn)題是如何把現(xiàn)有的技術(shù)應(yīng)用到實(shí)際中去;如何從市場(chǎng)上獲得更多的反饋以提升技術(shù),再把新的技術(shù)切入到產(chǎn)品中,不斷的尋找新的結(jié)合點(diǎn)!毖芯吭鯓痈a(chǎn)業(yè)結(jié)合是一個(gè)永恒的話題。語(yǔ)音識(shí)別形成產(chǎn)業(yè)并向前發(fā)展不可否認(rèn),而能否在明年迎來(lái)新的高峰就要看國(guó)內(nèi)廠商如何的應(yīng)用技術(shù)了。業(yè)內(nèi)人士都認(rèn)為,國(guó)內(nèi)的廠商要互相取長(zhǎng)補(bǔ)短,一起“拱”出中國(guó)的語(yǔ)音識(shí)別市場(chǎng),單單靠一家公司是辦不到的。
  
  高峰之后

  如果這一次語(yǔ)音識(shí)別的發(fā)展高峰形成了,它的主要特點(diǎn)將是語(yǔ)音識(shí)別技術(shù)在不同應(yīng)用領(lǐng)域的突破,并逐漸大面積普及。高峰之后的持續(xù)發(fā)展是各個(gè)廠商都必須考慮的問(wèn)題。20世紀(jì)90年代末語(yǔ)音技術(shù)在到達(dá)一定的發(fā)展程度后出現(xiàn)回落的根本原因,就是當(dāng)時(shí)的技術(shù)水平?jīng)]有與人們對(duì)語(yǔ)音識(shí)別的期望匹配。如今,一方面能夠應(yīng)用在某些領(lǐng)域的技術(shù)已經(jīng)成熟,例如以中國(guó)科學(xué)院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室為依托的中科模識(shí),其漢語(yǔ)連續(xù)語(yǔ)音、非特定人聽(tīng)寫機(jī)系統(tǒng)的普通話系統(tǒng)的錯(cuò)誤率可以控制在10%以內(nèi),代表了世界領(lǐng)先水平。擁有核心技術(shù),成為國(guó)內(nèi)企業(yè)穩(wěn)步發(fā)展的底氣來(lái)源。

  另一方面,國(guó)內(nèi)的廠商更加重視把現(xiàn)有水平的技術(shù)應(yīng)用到實(shí)際產(chǎn)品中,而不是等待技術(shù)的各個(gè)方面都完美了才投放市場(chǎng)。例如得意音通利用姓名撥號(hào)的自動(dòng)總機(jī),就是基于小詞匯量的語(yǔ)音識(shí)別。雖然處理的對(duì)象是連續(xù)語(yǔ)音,但并不追求對(duì)整句的識(shí)別和理解,而是采用“關(guān)鍵詞檢出”技術(shù),在輸入的連續(xù)語(yǔ)音中捕捉感興趣的部分對(duì)其進(jìn)行匹配,從而達(dá)到識(shí)別的目的。不論這一方式是否師從于國(guó)外公司,技術(shù)研發(fā)與應(yīng)用階段性的交替進(jìn)行,避免了市場(chǎng)對(duì)技術(shù)的過(guò)高期待,也就壓制了泡沫的產(chǎn)生。

  一向具有前瞻性的重量級(jí)IT公司在迎合中國(guó)這次語(yǔ)音識(shí)別市場(chǎng)發(fā)展機(jī)會(huì)之時(shí),又一次流露出了對(duì)市場(chǎng)發(fā)展高峰之后充分準(zhǔn)備,也讓人們看到了在可能出現(xiàn)的“第二次浪潮”后的遠(yuǎn)景。20世紀(jì)50年代就開(kāi)始語(yǔ)音識(shí)別技術(shù)研究的IBM 不斷推出新的ViaVoice版本,把語(yǔ)音技術(shù)應(yīng)用到PDA、智能汽車上。它也提供語(yǔ)音開(kāi)發(fā)工具SDK,希望締造一個(gè)全方位的語(yǔ)音平臺(tái)。然而,不論中國(guó)語(yǔ)音識(shí)別第二次浪潮會(huì)怎樣來(lái)臨,語(yǔ)音識(shí)別產(chǎn)品本身會(huì)給IBM帶來(lái)利益是毫無(wú)疑問(wèn)的。在最近的“IBM亞太區(qū)電子商務(wù)解決方案亞洲巡展中國(guó)站”北京研討會(huì)上,IBM還現(xiàn)場(chǎng)演示了如何利用語(yǔ)音識(shí)別來(lái)控制家電設(shè)備。

  微軟也已經(jīng)把語(yǔ)音識(shí)別技術(shù)集成到了多個(gè)領(lǐng)軍產(chǎn)品中,包括Office和Windows XP,其最新的語(yǔ)音識(shí)別服務(wù)器軟件Speech Server準(zhǔn)備在2004年上半年發(fā)布。該軟件允許用戶使用語(yǔ)音命令對(duì)電腦進(jìn)行操作,企業(yè)也可以利用它建立一種類似于自動(dòng)電話系統(tǒng)的服務(wù)。對(duì)于語(yǔ)音識(shí)別技術(shù),微軟把希望寄托于1998年成立的微軟亞洲研究院,大力投入到語(yǔ)音開(kāi)發(fā)工具的研究和全力支持SALT規(guī)范(語(yǔ)音應(yīng)用語(yǔ)言標(biāo)記標(biāo)準(zhǔn),可能與之前的語(yǔ)音可擴(kuò)展標(biāo)記語(yǔ)言VoiceXML形成對(duì)立狀態(tài))上。

  微軟當(dāng)然看到了中國(guó)語(yǔ)音識(shí)別市場(chǎng)快速發(fā)展,但它的眼光更遠(yuǎn)的放在了這一次技術(shù)應(yīng)用的高峰之后。微軟亞洲研究院語(yǔ)音組主任研究員張益肇博士說(shuō),“語(yǔ)音技術(shù)將會(huì)無(wú)處不在,隨處都會(huì)有語(yǔ)音平臺(tái)的用武之地,此項(xiàng)技術(shù)是微軟亞洲研究院的重心之一。微軟在醞釀?wù)Z音技術(shù)更長(zhǎng)遠(yuǎn)的應(yīng)用,五年、十五年,或許更長(zhǎng)時(shí)間—技術(shù)成熟度是決定因素!蔽④浹壑,真正的高峰在于語(yǔ)音識(shí)別技術(shù)使用戶以最自然方式操作電腦—這就是比爾·蓋茨提出的Natural Computing。

互聯(lián)網(wǎng)周刊



相關(guān)鏈接:
《華爾街日?qǐng)?bào)》:讓語(yǔ)音識(shí)別軟件解放你的手 2003-09-07
綜述:得意音通到底是什么企業(yè) 2003-08-27
語(yǔ)音應(yīng)用客戶滿意度調(diào)研 2003-07-29
Nuance Voice Platform - NVP 2.0語(yǔ)音平臺(tái) 2003-07-22
德國(guó)“帶耳朵芯片”走進(jìn)生活 2003-07-14

分類信息:     文摘   技術(shù)_語(yǔ)音識(shí)別_文摘