語(yǔ)音識(shí)別將把鼠標(biāo)鍵盤(pán)打入冷宮?
四大技術(shù)難點(diǎn)阻礙語(yǔ)音識(shí)別技術(shù)平民化

劉喜喜 2008/03/17

  當(dāng)“語(yǔ)音識(shí)別(ASR)五年內(nèi)將取代鍵盤(pán)”被比爾·蓋茨在多個(gè)場(chǎng)合再三強(qiáng)調(diào),語(yǔ)音識(shí)別勢(shì)必成為業(yè)界關(guān)注的焦點(diǎn)。但語(yǔ)音識(shí)別何時(shí)才能走近消費(fèi)者?科學(xué)家正在攻克什么難關(guān)?語(yǔ)音識(shí)別真會(huì)取代鼠標(biāo)和鍵盤(pán)嗎?

  從孤立詞到大詞匯量連續(xù)語(yǔ)音的識(shí)別(LVCSR),再到語(yǔ)音庫(kù)檢索,語(yǔ)音識(shí)別技術(shù)一直在向前發(fā)展,只是語(yǔ)音識(shí)別似乎離我們還有些遙遠(yuǎn)!敖窈5年內(nèi),互聯(lián)網(wǎng)搜索將更多地通過(guò)語(yǔ)音來(lái)完成!2月23日,比爾·蓋茨在美國(guó)卡內(nèi)基-梅隆大學(xué)發(fā)表演講說(shuō)道, 這已數(shù)不清是他第幾次在公開(kāi)場(chǎng)合提及語(yǔ)音識(shí)別了。

  語(yǔ)音識(shí)別將會(huì)取代鼠標(biāo)和鍵盤(pán)嗎?面對(duì)記者拋出的問(wèn)題,幾乎所有被訪問(wèn)者都有一個(gè)共識(shí):語(yǔ)音識(shí)別將會(huì)給用戶提供多一種的輸入方式,但現(xiàn)階段不可能完全替代鼠標(biāo)和鍵盤(pán)。不過(guò)談及語(yǔ)音識(shí)別進(jìn)展為何比較慢時(shí),各路專家卻是見(jiàn)仁見(jiàn)智:標(biāo)準(zhǔn)的差別、噪聲的困擾、嵌入式芯片計(jì)算量的脫節(jié)、產(chǎn)品化的難題一一被擺到臺(tái)面上來(lái)。

標(biāo)準(zhǔn)輸入的難題

  不要小看鼠標(biāo)和鍵盤(pán),雖貌似技術(shù)含量低,但它所具備的統(tǒng)一的輸入標(biāo)準(zhǔn)和精準(zhǔn)的視覺(jué)反饋這兩點(diǎn),正是語(yǔ)音識(shí)別技術(shù)目前的短板。

  當(dāng)南方人把“牛奶”念成“留來(lái)”的時(shí)候,究竟是機(jī)器識(shí)別錯(cuò)了,還是人錯(cuò)了?微軟中國(guó)研發(fā)集團(tuán)下屬微軟亞洲研究院語(yǔ)音識(shí)別組組長(zhǎng)宋言哥平提出這樣一個(gè)問(wèn)題。不要小看這個(gè)問(wèn)題,語(yǔ)言輸入不標(biāo)準(zhǔn)從而導(dǎo)致識(shí)別錯(cuò)誤率高過(guò)鍵盤(pán),是語(yǔ)音識(shí)別無(wú)法取代鼠標(biāo)鍵盤(pán)的首要原因。

  事實(shí)上,不僅是南北口音差異,每個(gè)人都有獨(dú)有的發(fā)音習(xí)慣。因此在Vista中,每個(gè)用戶在用語(yǔ)音控制電腦前,都需要以自己的語(yǔ)音,對(duì)電腦進(jìn)行適應(yīng)訓(xùn)練,使其習(xí)慣自己的發(fā)音,識(shí)別出正確的指令。在2006年的一次公開(kāi)示范中,Vista語(yǔ)音識(shí)別系統(tǒng)認(rèn)“Mom”為“Aunt”,并100%誤讀了演示員工的意思,使業(yè)界嘩然。對(duì)這個(gè)“認(rèn)母為姨”的錯(cuò)誤,宋言哥平做出這樣的解釋:“演示組里每個(gè)員工都有自己的適應(yīng)模型,正是演示人員張三慌忙中誤使用了李四的身份和模型,才導(dǎo)致了這樣的錯(cuò)誤!边@從一個(gè)側(cè)面也可以反映出語(yǔ)音輸入不易規(guī)范的弊病。

  除去口音參差不齊,安徽科大訊飛研究院副院長(zhǎng)胡郁認(rèn)為,輸入設(shè)備沒(méi)有統(tǒng)一標(biāo)準(zhǔn)也導(dǎo)致了語(yǔ)音輸入的不標(biāo)準(zhǔn):“在語(yǔ)音識(shí)別狀態(tài)下,麥克風(fēng)錄音不是給人聽(tīng),而是給機(jī)器聽(tīng)。而現(xiàn)在很多嵌入式設(shè)備上的麥克風(fēng)的錄音質(zhì)量是以人可以聽(tīng)懂為依據(jù)的。但在什么標(biāo)準(zhǔn)范圍內(nèi),機(jī)器才能聽(tīng)清聽(tīng)懂,目前還沒(méi)有統(tǒng)一標(biāo)準(zhǔn)!贝送,面對(duì)“取C盤(pán)的某個(gè)文件”這樣一個(gè)指令,鼠標(biāo)需要層層點(diǎn)擊,但語(yǔ)音識(shí)別只需要一句話,當(dāng)然方便。但當(dāng)遇到“點(diǎn)擊這張圖片上的某一點(diǎn)”這樣的命令時(shí)呢?電腦將很難聽(tīng)懂和判斷這句話的精準(zhǔn)目的,而鼠標(biāo)卻可輕易辦到。

噪聲的困擾

  語(yǔ)音輸入很難規(guī)范,從某種程度上說(shuō)是人為因素造成的,但噪聲卻是一種不可抗力。宋言哥平與胡郁均表示,噪聲環(huán)境的處理是目前語(yǔ)音識(shí)別領(lǐng)域公認(rèn)的技術(shù)難題!斑@很好理解,機(jī)器無(wú)法像人那樣分辨出人聲和噪聲。”宋言哥平解釋道,“同時(shí),不同場(chǎng)景有不同噪聲,訓(xùn)練的情況也不能匹配真實(shí)環(huán)境,這使語(yǔ)音識(shí)別在噪聲中比在安靜的環(huán)境下難得多。”

  目前,主流的技術(shù)思考方向是,研究出盡可能好的算法,使誤差降到最低:在前端,在已混入噪聲的語(yǔ)音中,提取一個(gè)抗噪性高的語(yǔ)音特征;在語(yǔ)音訓(xùn)練的時(shí)候,利用“最小識(shí)別錯(cuò)誤訓(xùn)練方法”,結(jié)合噪聲處理算法訓(xùn)練出一個(gè)語(yǔ)音模型,使識(shí)別系統(tǒng)在噪聲環(huán)境里的魯棒性比較高;在語(yǔ)音解碼的過(guò)程中進(jìn)行多重選擇,憑借放入解碼機(jī)制的信息,判斷第一順位的答案是否正確,如不正確可以看看第二、三順位的方法。這些方法都可為提高語(yǔ)音識(shí)別在噪聲環(huán)境中使用的精準(zhǔn)性而服務(wù)。

  完全消除噪聲的干擾從理論上說(shuō)是可能的——只要算法足夠復(fù)雜和龐大。但是運(yùn)算量的龐大勢(shì)必造成兩個(gè)問(wèn)題:芯片存儲(chǔ)量有限和“萬(wàn)靈模板”問(wèn)題。

要不要等待芯片

  之前,有科學(xué)家提出“2010年將是語(yǔ)音識(shí)別市場(chǎng)爆發(fā)之年”。其實(shí),這是建立在算法成熟的基礎(chǔ)上來(lái)預(yù)測(cè)的。北京拓源信息咨詢有限公司的總經(jīng)理鄭院生一直關(guān)注語(yǔ)音識(shí)別以及其他人工智能技術(shù)的應(yīng)用問(wèn)題,他認(rèn)為:“從算法和計(jì)算過(guò)程的角度看,語(yǔ)音識(shí)別其實(shí)是一個(gè)人工智能的問(wèn)題,如果芯片的運(yùn)算速度足夠快,很多語(yǔ)音識(shí)別的技術(shù)難題就可以迎刃而解!

  但在現(xiàn)實(shí)中,語(yǔ)音識(shí)別在產(chǎn)品轉(zhuǎn)換中遇到了問(wèn)題,大多運(yùn)用語(yǔ)音識(shí)別技術(shù)的設(shè)備都是嵌入式設(shè)備,比如手機(jī)、導(dǎo)航儀、學(xué)習(xí)機(jī)等!靶酒\(yùn)算量、存儲(chǔ)量和消費(fèi)比的問(wèn)題沒(méi)有得到解決。假使嵌入式芯片能像臺(tái)式機(jī)的芯片一樣厲害(目前只和1997年的臺(tái)式機(jī)一樣),那就解決大問(wèn)題了!焙舾嬖V記者,“手機(jī)用戶目前只能語(yǔ)音查號(hào)碼,這是因?yàn)槭謾C(jī)芯片不夠強(qiáng)大。汽車電腦也達(dá)不到臺(tái)式機(jī)的水平!

  “摩爾定律仍舊有效,芯片基礎(chǔ)架構(gòu)和運(yùn)算能力的代際演進(jìn),將為語(yǔ)音識(shí)別技術(shù)的不斷成熟提供越來(lái)越可靠的物理平臺(tái)!编嵲荷鷮(duì)語(yǔ)音識(shí)別的未來(lái)保持很大的樂(lè)觀!白鳛榧夹g(shù)研究者,我們要么就是提前研究,要么就是坐等芯片運(yùn)算量上來(lái)了再研究!彼窝愿缙秸J(rèn)為,技術(shù)一定是跑在市場(chǎng)前頭的。

“松緊帶”怪圈

  科學(xué)家大多是完美主義者,都想設(shè)計(jì)一個(gè)像松緊帶一樣的萬(wàn)靈模板的通用產(chǎn)品,粗腰細(xì)腰都能穿!暗聦(shí)上,按照說(shuō)話人量身打造的東西才是最好的,可這樣做工本又太高了。”宋言哥平認(rèn)為,做好語(yǔ)音識(shí)別通用產(chǎn)品,針對(duì)不同場(chǎng)景做細(xì)微調(diào)整之間的權(quán)衡很重要。

  此前IBM推出的Via Voice憑借當(dāng)時(shí)堪稱完美的技術(shù)轟動(dòng)一時(shí),但用戶卻并不買(mǎi)賬,很多軟件被束之高閣!拔艺J(rèn)為包括Vista在內(nèi)的語(yǔ)音識(shí)別產(chǎn)品,在人機(jī)界面的人性化設(shè)計(jì)上仍不夠完美自然,這大大降低了用戶的接受度!彼窝愿缙奖硎尽:玫娜藱C(jī)界面可在用戶說(shuō)錯(cuò)而渾然不知時(shí),使計(jì)算機(jī)不被干擾,識(shí)別如常。

  胡郁則認(rèn)為,目標(biāo)定位不正確(直接采用口述的方式輸入需要不斷思考文本內(nèi)容)是Via voice叫好不叫座的主要原因。而從國(guó)內(nèi)外成功的語(yǔ)音識(shí)別產(chǎn)品來(lái)看,符合用戶需求確實(shí)非常重要。在國(guó)內(nèi),語(yǔ)音點(diǎn)歌(有些運(yùn)營(yíng)商稱之為聲動(dòng)炫鈴)十分受歡迎,其實(shí)就是孤立詞搜索的一種應(yīng)用。微軟去年年初的時(shí)候,用8億美元收購(gòu)了一家做電話語(yǔ)音尋址的公司TellMe,從一定程度上說(shuō)明微軟認(rèn)為語(yǔ)音識(shí)別技術(shù)在PC操作之外更有發(fā)展前景,比如在手機(jī)、client-server 的呼叫中心、電話、汽車、智能家電上。

  此外,人機(jī)交互界面只是語(yǔ)音識(shí)別的一個(gè)用途,另一個(gè)用途則是多媒體的業(yè)務(wù)管理。比如blinkx網(wǎng)站,它把每段視頻中對(duì)應(yīng)的語(yǔ)音部分都靠語(yǔ)音識(shí)別技術(shù)轉(zhuǎn)換成文字(雖然不一定完全正確),這樣就可以通過(guò)輸入文字來(lái)協(xié)助搜索視頻內(nèi)容。美國(guó)最大的語(yǔ)音技術(shù)提供廠商N(yùn)uance就擁有一個(gè)賺錢(qián)的成功業(yè)務(wù)——幫助美國(guó)醫(yī)生寫(xiě)醫(yī)囑。這完全依靠大詞匯量連續(xù)語(yǔ)音識(shí)別技術(shù)(LVCSR)來(lái)識(shí)別醫(yī)生的口頭醫(yī)囑。

  如此看來(lái),只要找到一個(gè)好的切入點(diǎn),國(guó)內(nèi)企業(yè)也可以做得很好。胡郁甚至隨即開(kāi)始構(gòu)想如何為記者圈服務(wù)了:采訪累計(jì)下來(lái)的歷史錄音,可以借鑒前面Nuance公司的想法轉(zhuǎn)寫(xiě)出來(lái),從而幫助記者更有效地整理和利用錄音數(shù)據(jù),而這只需要很少的費(fèi)用。

  我想,當(dāng)很多人愿意為此掏腰包時(shí),語(yǔ)音識(shí)別離平民的世界也將不再遙遠(yuǎn)。

計(jì)算機(jī)世界網(wǎng)(www.ccw.com.cn)



相關(guān)鏈接:
語(yǔ)音識(shí)別技術(shù)挑戰(zhàn)IVR 2008-01-22
科大訊飛總裁劉慶峰:語(yǔ)音市場(chǎng)進(jìn)入爆發(fā)期 2008-01-04
語(yǔ)音IM在帶寬方面無(wú)需擔(dān)憂 2007-12-24
互聯(lián)網(wǎng)周刊:當(dāng)語(yǔ)音識(shí)別技術(shù)遇到網(wǎng)絡(luò)視頻 2007-10-30
語(yǔ)音分析 讓你知道客戶在笑還是在哭 2007-09-06

分類信息: