首頁>>>技術(shù)>>>語音應(yīng)用>>>語音識別(ASR)  語音識別產(chǎn)品

 

語音上網(wǎng)掀起第三次上網(wǎng)浪潮

彭芳、李瀛寰



  你會說話嗎?會說話就能上網(wǎng)。這種簡單的語音上網(wǎng)方式, 據(jù)說是繼PC、WAP手機(jī)上網(wǎng)之后的第三次上網(wǎng)浪潮。

  也許有一天,繁忙的人們可以離開PC、離開筆記本,只是隨手撥通電話,就可以知道當(dāng)天發(fā)生的國際大事,就可以了解同步的股票行情,還可以知道他鄉(xiāng)的天氣是否合適旅游……通過電話來上網(wǎng),以“說話”來代替鍵盤輸入,以“語音控制”來代替鍵盤控制,實(shí)現(xiàn)語音上網(wǎng)一直是人類的夢想。而今天,隨著語音技術(shù)的發(fā)展,特別是語音識別技術(shù)的突破,語音上網(wǎng)已經(jīng)離我們越來越近了。


  ■ 語音成為第三種上網(wǎng)方式


  在PC成為傳統(tǒng)的上網(wǎng)方式后,手機(jī)或者其他手持終端上網(wǎng)正鋪天蓋地地吸引著人們的注意力,成為目前最熱門的話題。在人們還來不及細(xì)細(xì)消化理解手機(jī)上網(wǎng)時,技術(shù)的發(fā)展又迫不及待地將語音上網(wǎng)推到人們面前。據(jù)了解,在美國語音上網(wǎng)已經(jīng)成為繼PC上網(wǎng)、WAP上網(wǎng)之后的第三次浪潮。

  在PC時代,人們需要掌握一些基本的電腦知識、并且具備相關(guān)的有線接口才可登錄互聯(lián)網(wǎng);在WAP時代,通過隨身攜帶的手機(jī),人們可以隨時隨地接入互聯(lián)網(wǎng),在便利性方面大大提高;在語音上網(wǎng)時代,在提供便利性之外,更大的突破應(yīng)該是將互聯(lián)網(wǎng)的門檻降低到“零”。你會說話嗎?會說話就能上網(wǎng),你不再需要掌握一些基本的輸入方式,你不再需要熟悉小小的鍵盤。張嘴說話,就是你給系統(tǒng)給互聯(lián)網(wǎng)下達(dá)的指令。從PC到WAP到Voice,每一次浪潮都把互聯(lián)網(wǎng)的門檻降低了一大截。

  語音上網(wǎng)是傳統(tǒng)電話與互聯(lián)網(wǎng)相結(jié)合的產(chǎn)物,它應(yīng)用語音識別技術(shù),只要用戶按下電話號碼,系統(tǒng)就可識別相關(guān)的命令,從而給用戶提供網(wǎng)站上的信息,包括股票行情、交通狀況與流量、天氣情況、電影餐廳訂票等服務(wù)。它通過在PSTN與互聯(lián)網(wǎng)之間放置中文語音網(wǎng)網(wǎng)關(guān),來實(shí)現(xiàn)語音識別和語音合成等,最終對用戶實(shí)現(xiàn)語音上網(wǎng)。

  以“說話”來控制的電話自動信息系統(tǒng)是銀行、電信、證券、運(yùn)輸?shù)刃袠I(yè)提高服務(wù)質(zhì)量、增強(qiáng)競爭能力、節(jié)省時間的有力武器。語音識別技術(shù)在美國已有很長歷史,但應(yīng)用方面基本上是以英文為主,語音互聯(lián)網(wǎng)在國外已經(jīng)開始應(yīng)用。近年來,隨著CTI技術(shù)的發(fā)展,我國香港、臺灣及內(nèi)地等許多CTI領(lǐng)域里的開發(fā)商開始致力于中文的語音識別。隨著中文語音識別技術(shù)發(fā)展,語音互聯(lián)網(wǎng)的概念開始在亞洲逐步成形,并正在逐成為現(xiàn)實(shí)。在語音互聯(lián)網(wǎng)中,用戶可以通過電話實(shí)現(xiàn)計算機(jī)上網(wǎng)的功能。在亞洲,由于Internet的普及程度較低,而無線通信發(fā)展卻非?,用語音作為界面來獲取信息將極具前途。

  語音互聯(lián)網(wǎng)和目前我們所使用的文字互聯(lián)網(wǎng)一樣,也涉及網(wǎng)站、上網(wǎng)終端、線路等諸多內(nèi)容。但不同的是,語音互聯(lián)網(wǎng)的終端就是電話,線路就是我們天天用的電話網(wǎng),這也是語音互聯(lián)網(wǎng)概念一推出就激起千層浪的原因,實(shí)現(xiàn)起來似乎太容易了。


  ■ 語音門戶浮出水面


  伴隨著語音上網(wǎng)概念的出現(xiàn),作為提供信息服務(wù)的語音門戶也浮出水面。在目前國內(nèi)的一些語音上網(wǎng)應(yīng)用中,掌門網(wǎng)與新太合作,主要提供語音電子郵件,用戶可以通過電話來收取并且接聽自己的電子郵件,同時也可通過說話來發(fā)送電子郵件。而在另一個由亞洲語音提供的語音上網(wǎng)服務(wù)實(shí)驗(yàn)中,北京的用戶可以在注冊后通過撥號享受語音郵件、個人信息定制、股票行情、生活速遞、旅游熱線等服務(wù)。那如何來定位語音上網(wǎng)用戶的信息服務(wù)呢?它與手機(jī)等手持終端上網(wǎng)的定位是否相差不大呢?

  亞洲在線的總裁廖杰遠(yuǎn)先生認(rèn)為,在這兩者之間還是有一些差別的。對于語音上網(wǎng)來說,信息服務(wù)更加強(qiáng)調(diào)與用戶的息息相關(guān)性;旧峡梢苑譃槿悜(yīng)用:首先,電子郵件是最重要的一項(xiàng)應(yīng)用。這樣,人們在外時,可以拋卻無線信道的種種不足之處,僅僅通過PSTN網(wǎng)來進(jìn)行收發(fā)電子郵件。其次,人們可通過語音上網(wǎng)來獲取一些實(shí)用信息,如交通路況、股票行情等。最后,語音上網(wǎng)的第三大用途是獲取個人信息,如地址簿、日程安排等。

  語音門戶應(yīng)該說也是一個很有吸引力的市場,一些新成立的公司躍躍欲試,而一些老牌的ICP為了保持自己的傳統(tǒng)優(yōu)勢,自然也不會將這塊肥肉讓給他人,他們可以在做傳統(tǒng)文字網(wǎng)站的同時,開設(shè)語音門戶來吸引更多的人用電話上網(wǎng),促進(jìn)電子商務(wù)的發(fā)展。已有ICP開始瞄準(zhǔn)語音門戶,像北京郊區(qū)電信局下屬的暢捷網(wǎng)苑就非?春秒娫捝暇W(wǎng)。那語音門戶會不會比它的前輩們幸運(yùn)一點(diǎn),可以賺到錢呢?這還是個未知數(shù),但業(yè)內(nèi)人士依然將目光放在了廣告身上。也許會由于電話這種溝通方式的不同,語音門戶在創(chuàng)收方面會有所作為。


  ■ 語音上網(wǎng)難在語音識別


  在前不久召開的Dialogic亞太區(qū)高峰會議上,最引人注目的就是Dialogic 總裁Howard Bubb先生演示的語音門戶。Bubb先生用電話撥通一個號碼,講出其用戶名及密碼后,就登錄上了一個語音門戶站。在這里,他查詢了新聞、股市信息,并“閱讀”了自己的電子郵件。由于有了計算機(jī)系統(tǒng)和電腦語音卡的幫助,文字形式的郵件就可以被轉(zhuǎn)換為語音信息讀給他聽。最讓人感興趣的是,語音門戶中的語音提示音已經(jīng)不是簡單的“按1”、“按2”了,而是交互式的對話形式的電腦提示音。

  談到語音門戶的發(fā)展前景,Bubb先生指出,語音門戶仍是很新的應(yīng)用,未來一兩年才有更大的發(fā)展,原因在于目前的語音識別技術(shù)還未成熟,真正有效的語音識別技術(shù)二三年后才會發(fā)展起來。而且語音識別的過程非常復(fù)雜,1臺800M容量的計算機(jī)才能完成1個語音的識別,同時還要考慮不同說話者的不同口音;陔娫捚焚|(zhì)及線路的原因,一般電話上的語音都有不同程度的變化,語音識別系統(tǒng)能夠容納多大差異的語音是語音識別中的關(guān)鍵。

  在拿到亞洲在線的上網(wǎng)卡后,記者興沖沖地?fù)芡四莻神往已久的電話號碼,在聽到經(jīng)合成發(fā)出的提示音后,清清嗓子發(fā)出了自己的第一道命令,還好算順利過關(guān)。然好景不長,在一個關(guān)鍵的“收取郵件”命令上卡殼了,無論怎么強(qiáng)調(diào),系統(tǒng)似乎就是識別不出來。記者第一次的語音上網(wǎng)嘗試只好收場。其實(shí),語音識別正是目前語音上網(wǎng)存在的技術(shù)上的最大的困難。

  目前,Intel已經(jīng)開始投資發(fā)展語音識別技術(shù),Intel在中國建立的研究中心的一個重要項(xiàng)目就是語音識別。來自我國臺灣地區(qū)的言豐科技所開發(fā)的Voice Touch交談式語音識別電話系統(tǒng)已經(jīng)可以識別英語、普通話和廣東話三種語言,而同時國外公司如IBM、L&H,國內(nèi)公司如捷通等也都在開展相關(guān)的研究。

  據(jù)掌門網(wǎng)北京辦事處郄建軍介紹,目前掌門網(wǎng)推出的語音平臺離真正的識別語音還有一段距離。用戶撥打其特服號碼95003、95002之前,會被告知盡量采用簡短的語句來“點(diǎn)擊”,如“新聞”、“查郵件”、“讀郵件”等等,這樣語音系統(tǒng)才會識別出來。而目前用語音“寫郵件”恐怕還有困難。


  ■ 語音控制挑戰(zhàn)傳統(tǒng)鍵盤輸入


  雖然電話是消費(fèi)者最習(xí)慣不過的溝通方式,但如果真的要用它來上網(wǎng)卻似乎不是那么回事。尤其在技術(shù)還不是特別成熟的今天,要在大庭廣眾之下,對著電話話筒一遍又一遍地簡單地重復(fù)幾個“命令”,這對一般用戶來說還真是一個很大的考驗(yàn)和挑戰(zhàn)。

  Duack.com是一家專門提供交通報告給消費(fèi)者的語音入門網(wǎng)站,就發(fā)現(xiàn)人們不怎么習(xí)慣用電話來查詢交通信息。而相比之下,股票等金融信息則更容易吸引人們的注意力,因?yàn)楹笳呤怯脩羝毡殛P(guān)心的話題。在歐洲所作的一項(xiàng)調(diào)查結(jié)果表明,許多使用手機(jī)的用戶習(xí)慣使用按鍵,而不喜愛用語音指令。據(jù)Jupiter市場調(diào)查公司的統(tǒng)計,按鍵的確比語音控制來得實(shí)用,其分析師Seamus McAteer說,“我不相信用戶會坐著聽取他們的電子郵件!蹦侨绾蝸砀淖冇脩粲面I盤輸入的習(xí)慣,的確是當(dāng)前要考慮的問題。

  但也有人持有不同看法,他們認(rèn)為語音上網(wǎng)更是作為計算機(jī)上網(wǎng)、手機(jī)上網(wǎng)方式的一種補(bǔ)充,而不是競爭關(guān)系。在用戶沒法使用手機(jī)或計算機(jī)時,就可以用電話來進(jìn)行語音上網(wǎng)。

  語音互聯(lián)網(wǎng)作為計算機(jī)上網(wǎng)的有效的補(bǔ)充手段,是一個新興的領(lǐng)域,也是一個非常讓人看好的領(lǐng)域。

摘自《中國計算機(jī)報》2000.07.06



相關(guān)鏈接:
雙節(jié)流行3G視頻新業(yè)務(wù)——化身(AVATAR) 2009-09-17
Ditech語音轉(zhuǎn)換文本技術(shù)將打造新型移動服務(wù) 2009-09-14
科大訊飛嵌入式語音新產(chǎn)品發(fā)布會在深圳舉行 2009-09-07
英國科學(xué)家成功開發(fā)識別多種語言唇讀技術(shù) 2009-09-07
Convergys定制式語音鑒權(quán)方案獲市場領(lǐng)袖獎 2009-09-02

分類信息:  語音合成TTS_與_語音識別ASR     技術(shù)_語音合成_新聞   技術(shù)_語音識別_新聞
百色市| 榕江县| 封丘县| 登封市| 中阳县| 黄骅市| 彝良县| 大冶市| 白山市| 白玉县| 日喀则市| 泰和县| 盖州市| 华坪县| 临夏县| 读书| 吴川市| 五峰| 太湖县| 杨浦区| 左贡县| 朔州市| 无极县| 资源县| 阳原县| 阿合奇县| 边坝县| 平湖市| 扬中市| 深水埗区| 海城市| 满洲里市| 玛纳斯县| 西藏| 越西县| 多伦县| 长沙市| 锡林浩特市| 谷城县| 卢湾区| 乐山市|