擒獲未來：下一代的語音識別技術_語音識別_CTI論壇

首頁>>>技術>>>語音應用>>>語音識別(ASR)　　語音識別產(chǎn)品

擒獲未來：下一代的語音識別技術

何生 2004/02/17

　　機器人和人進行交談，對科幻電影愛好者來說可能是再自然不過的事情了；相反，如果他們不能交談，倒會讓人覺得是咄咄怪事�？蓪τ谡嬲芯咳藱C自然交流的全世界科學家來說，為了實現(xiàn)這一看似簡單的的夢想所要解決的難題可能遠遠超過讓人登上火星。他們已經(jīng)努力了30多年，或多或少，縮短了人們和這一夢想的距離。是否需要再等另一個30年呢？

　　“也許不需要那么長，”美國喬治亞理工學院的電子計算機工程系教授Fred Juang說，“下一代的語音識別機可能在五到十年內(nèi)成為現(xiàn)實。”Juang教授是語音識別研究領域的專家，他曾參與自動電話接線語音識別技術的開發(fā)�，F(xiàn)在這一技術已經(jīng)廣泛的用于各行業(yè)。

　　他在正在西雅圖召開的美國科學促進協(xié)會(AAAS)的年會上說，為了制造出能夠真正和人自然交流的機器來，需要對現(xiàn)在的語音識別技術所依賴的理論進行根本的改造。

　　現(xiàn)在的語音識別技術基本上是由機器對人的語音進行信號處理，然后將其與預先設計的文字數(shù)據(jù)庫進行比對，將與收到的語音信號最相匹配的文字挑選出來，然后按照預先設定的一些語法規(guī)則排列，從而實現(xiàn)從語音到文字的轉(zhuǎn)變。如果得到的文本和人原來表達的意思相同或相近，那么，我們就可以說，機器完成了語音識別。完成這一過程的主要數(shù)學基礎就是一種叫做隱含馬爾可夫模型的算法。

　　研究者們發(fā)現(xiàn)，基于這種算法的語音識別技術對于一些簡單的人機對話能夠達到不錯的效果，但對于達到自如的相互交談來說還遠遠不夠。通常來說，對于設定的場景，設定主題的對話，語音識別機會有比較好的表現(xiàn)效果。例如，定票服務，電話接駁，聽寫等等。實際上，語音識別技術在這些方面的應用已經(jīng)日漸廣泛。特別是隨著移動通信的發(fā)展，諸如語音撥號，語音郵件已經(jīng)開始或者將要開始進入應用領域。但是，困擾語音識別多年的根本性問題仍然沒有得到解決。華盛頓大學的瑪麗·奧斯騰多夫說道。一個重要的方面是，目前的人機交流仍然出于一種非自然的，非談話的狀態(tài)�！拔覀儠䲡r刻注意到，我們是在和機器，而不是和人在說話，”她說。簡而言之，你無法期待它完全像人一樣反應。一旦你想要和它聊天一樣說話，它就無法應對了。

　　人講話中經(jīng)常出現(xiàn)的停頓，重復，發(fā)音不清，“嗯”，“啊”，等等，對機器來說無異于一場惡夢。再考慮到方言，口音的影響，語音識別機的出錯率往往讓任何一個使用者喪失信心。

　　另一方面的挑戰(zhàn)是，人講話往往并非在非常安靜的環(huán)境，外界環(huán)境的噪聲，其他人的插話，等等，會極大影響語音識別的準確性。正是由于這種環(huán)境對聲音的扭曲和人類交談的隨意性的特點，使得語音識別準確率的提高困難重重。

　　科學家們嘗試了各種辦法，包括設計各種新算法，改進受話麥克風的設計，以及開發(fā)具有學習和糾錯能力的識別機，等等。試驗已經(jīng)證明，通過改進受話麥克風的設計，可以比較明顯的“過濾”噪音，提高識別的質(zhì)量。但這還遠遠不夠。而開發(fā)具有學習和糾錯能力的識別機還處于起步階段。而另外一種，更加前沿的探索則是，使語音識別機具有人類的“常識”。通過賦予機器人類語言的語義學知識，語法知識，模擬人識別語音的過程，從而企望達到更好的識別率和更自然的交流。

　　Juang所說的下一代語音識別機正是這一前沿探索之一。

　　他說，當人們在交談時，往往對某些指稱的內(nèi)容已經(jīng)有了共識。例如，如果一群電子工程師在交談時，他們可能會使用“它”來指代剛剛談到的歐姆定律。但對機器來說，卻完全不知道它指稱為何，更不用說理解其真正含義了。“如果每一次討論時都需要對其進行指定的話，交流就會變得極其笨拙了�！彼f。“能夠理解上下文中的指稱對自然語言交流來說是關鍵的。如果機器能作到這點，就能夠和人自然的交流了�！彼O想一套框架，由一些所謂的“信息探測器”組成，旨在收集，分析話音中的“意思”，而非簡單的字詞。這種識別機將能夠自己學習，能夠像人一樣，在沒聽懂時說：“我沒聽懂”。要求進一步說明。

　　而要實現(xiàn)這一設想，Juang認為需要研究新的，超越隱含馬爾可夫模型的算法。而實際上，包括他在內(nèi)的世界各國的不少研究者正在這方面努力�！拔覀冋幵诎l(fā)展新模式的起步階段，可以說，我們已經(jīng)有了所需框架的百分之六十了。其它的一些問題并不是不可解決，”Juang說。

　　也許。

　　但剩下的百分四十的部分也許不像看起來的那么簡單。語音技術發(fā)展的經(jīng)驗似乎表明，每當研究者前進一步，離最終的目標似乎就“似近實遠”。我們對基本問題——例如人的語音識別過程——的了解越深入，讓我們感到困惑無力的地方似乎也越多。Juang和許多的同行是樂觀派，不過可能也有同樣數(shù)量的其它研究者沒有這么樂觀.“也許，在我們真正了解人自身識別語言的全部秘密之前，我們只能接受不那么像人的機器語音識別�！蔽④浹芯吭旱陌⑷_說.

新浪科技(tech.sina.com.cn)

相關鏈接:

VoPromote語音平臺詮釋VoiceXML精髓 2004-01-17

淺談ASR和TTS技術在CTI中的應用 2004-01-02

語音識別前景如何？ 2003-12-06

語音技術成為主流 2003-11-27

電話語音識別系統(tǒng)流程設計 2003-11-20

分類信息: 文摘技術_語音識別_文摘