語(yǔ)音應(yīng)用開(kāi)財(cái)源
盧曉信、段云峰 2001/06/25
語(yǔ)音技術(shù),雖然在國(guó)外出現(xiàn)得很早,但在國(guó)內(nèi)開(kāi)始步入實(shí)用領(lǐng)域,還是最近的事情。這一方面是因?yàn)橛布幚砟芰Φ奶岣,另一方面也是因(yàn)闈h語(yǔ)處理在技術(shù)上已經(jīng)有所突破。國(guó)外有資料顯示,語(yǔ)音技術(shù)在未來(lái)的幾年里,將以31%的年增長(zhǎng)率進(jìn)行發(fā)展。
語(yǔ)音技術(shù)主要是指基于語(yǔ)音進(jìn)行處理的技術(shù),主要包括:語(yǔ)音識(shí)別ASR、語(yǔ)音合成TTS等等。
語(yǔ)音技術(shù)進(jìn)入商用
語(yǔ)音技術(shù)開(kāi)辟了一個(gè)如此巨大的應(yīng)用市場(chǎng),那么目前的語(yǔ)音技術(shù)發(fā)展到何種程度了呢?
技術(shù)成熟進(jìn)入商用
在技術(shù)方面,英語(yǔ)的語(yǔ)音技術(shù)比漢語(yǔ)的語(yǔ)音技術(shù)的商用程度更廣,實(shí)用程度更好。國(guó)內(nèi)在漢語(yǔ)的語(yǔ)音技術(shù)方面,語(yǔ)音合成技術(shù)比較成熟,已經(jīng)達(dá)到了商用的標(biāo)準(zhǔn)。而在語(yǔ)音識(shí)別方面,雖然已經(jīng)有一些產(chǎn)品開(kāi)始投入商用,但還有很多的技術(shù)問(wèn)題要解決。
廠家眾多
由于語(yǔ)音技術(shù)不僅要涉及到軟件算法,而且也要涉及到硬件的實(shí)現(xiàn)技術(shù)問(wèn)題,因此,目前的語(yǔ)音技術(shù)廠家,也分為幾類(lèi)。
有的是從傳統(tǒng)的CTI語(yǔ)音板卡廠商的角度,在產(chǎn)品中增加語(yǔ)音處理功能,國(guó)內(nèi)像深圳東進(jìn)技術(shù)、飛環(huán),國(guó)外NMS、Intel通信產(chǎn)品事業(yè)部的Dialogic板卡;有的完全是語(yǔ)音技術(shù)的科研機(jī)構(gòu),根據(jù)自己的研究成果,進(jìn)行產(chǎn)品化,例如中國(guó)科技大學(xué)的訊飛公司、清華大學(xué)的人機(jī)交互與媒體集成研究所等。在語(yǔ)音識(shí)別方面,國(guó)外的IBM、飛利浦、Nuance等公司,均有相關(guān)的產(chǎn)品;國(guó)內(nèi)的有香港的InfoTalk、捷通等。
在語(yǔ)音合成方面,能夠提供產(chǎn)品的公司就十分多了,有的產(chǎn)品是用軟件來(lái)實(shí)現(xiàn),有的專(zhuān)門(mén)設(shè)計(jì)了硬件芯片。
促進(jìn)網(wǎng)絡(luò)的融合
語(yǔ)音技術(shù)的發(fā)展,帶動(dòng)了網(wǎng)絡(luò)的融合過(guò)程。目前,世界上的兩大通信網(wǎng)絡(luò)是電信網(wǎng)和計(jì)算機(jī)網(wǎng),電信網(wǎng)絡(luò)是以語(yǔ)音信號(hào)為處理對(duì)象,計(jì)算機(jī)網(wǎng)絡(luò)則是以數(shù)據(jù)對(duì)象為其處理內(nèi)容。而語(yǔ)音技術(shù)為兩個(gè)網(wǎng)絡(luò)的結(jié)合,奠定了技術(shù)基礎(chǔ)。
在為用戶(hù)服務(wù)的過(guò)程中,兩種網(wǎng)絡(luò)分別扮演不同的角色。
語(yǔ)音接入通過(guò)PSTN
目前,人們進(jìn)行信息交流的主要方式,還是通過(guò)電話網(wǎng)。用戶(hù)可以通過(guò)撥打一個(gè)電話號(hào)碼,接入到信息訪問(wèn)中心。
語(yǔ)音處理依靠計(jì)算機(jī)網(wǎng)絡(luò)
計(jì)算機(jī)網(wǎng)絡(luò)最大的優(yōu)點(diǎn)是處理信息的能力十分強(qiáng)大。因此,采用語(yǔ)音技術(shù),計(jì)算機(jī)就可以讀懂用戶(hù)想要哪方面的信息,并自動(dòng)尋找該信息,然后,通過(guò)語(yǔ)音技術(shù)將信息以語(yǔ)音的形式回放給用戶(hù)。
這就形成了一個(gè)理想的網(wǎng)絡(luò)信息訪問(wèn)模式,電話網(wǎng)絡(luò)負(fù)責(zé)語(yǔ)音接入,計(jì)算機(jī)網(wǎng)絡(luò)負(fù)責(zé)信息的處理。
開(kāi)辟新應(yīng)用
語(yǔ)音技術(shù)的應(yīng)用十分廣泛。
金融方面
采用了語(yǔ)音技術(shù)后,通過(guò)電話,不用人工的干預(yù),就可以進(jìn)行賬戶(hù)余額查詢(xún),完成賬戶(hù)間的轉(zhuǎn)賬等工作。不僅提高了工作的效率,也改善了服務(wù)的形象。
證券方面
用戶(hù)通過(guò)電話可以查詢(xún)當(dāng)前的股市情況,不用再按電話上的按鍵,而是直接說(shuō)出自己關(guān)心的股票的名稱(chēng),例如“深發(fā)展”,然后計(jì)算機(jī)就通過(guò)語(yǔ)音合成技術(shù),將結(jié)果播報(bào)出來(lái)。這樣,用戶(hù)就不用記那些股票號(hào)碼了。
電信方面
采用語(yǔ)音技術(shù),在電信業(yè)務(wù)中將產(chǎn)生很多的應(yīng)用。例如在“114”電話黃頁(yè)中,目前還要有大量的人工服務(wù),而如果采用語(yǔ)音技術(shù),就可以不用人工服務(wù),讓計(jì)算機(jī)自動(dòng)接聽(tīng)用戶(hù)的需要,然后回放查詢(xún)的電話號(hào)碼。
旅游方面
用戶(hù)可以通過(guò)電話,自動(dòng)查詢(xún)那些感興趣的景點(diǎn)的語(yǔ)音介紹材料,相當(dāng)于請(qǐng)了一個(gè)電話導(dǎo)游。而且出現(xiàn)問(wèn)題時(shí),也可以通過(guò)電話,進(jìn)行各種求助。
尋呼方面
尋呼目前還是通過(guò)尋呼小姐記下用戶(hù)要尋呼的目標(biāo)號(hào)碼,然后將內(nèi)容輸入到尋呼系統(tǒng)進(jìn)行發(fā)射。采用語(yǔ)音技術(shù)后,可以讓計(jì)算機(jī)自動(dòng)地進(jìn)行整個(gè)操作過(guò)程。
娛樂(lè)方面
語(yǔ)音技術(shù)在娛樂(lè)方面,也可以激發(fā)出許多的新應(yīng)用。例如,在通過(guò)電話進(jìn)行電視MTV點(diǎn)播時(shí),可以避免重復(fù)地按電話上的按鍵,而是直接說(shuō)出哪個(gè)歌手的哪首歌,電視臺(tái)就接受語(yǔ)音輸入,而播放相應(yīng)的曲目。
面臨問(wèn)題
可以看到,將來(lái)成熟的語(yǔ)音技術(shù)將會(huì)帶來(lái)巨大的影響,但目前的語(yǔ)音技術(shù)還存在著一些問(wèn)題,而且,單靠語(yǔ)音技術(shù)也是不夠的,要和其他領(lǐng)域的知識(shí)進(jìn)行結(jié)合,才能產(chǎn)生豐富的應(yīng)用。
語(yǔ)音識(shí)別技術(shù)方面
目前,在漢語(yǔ)方面,語(yǔ)音合成的技術(shù)已經(jīng)達(dá)到了實(shí)用階段,但在語(yǔ)音識(shí)別方面,還有很多問(wèn)題要解決。
用戶(hù)的獨(dú)立性問(wèn)題:就是如何識(shí)別不同嗓音和口音的用戶(hù),而無(wú)需通過(guò)軟件訓(xùn)練來(lái)實(shí)現(xiàn)。
自然語(yǔ)音理解能力:能夠直接了解用戶(hù)的需要,就像人一樣,可以通過(guò)幾個(gè)簡(jiǎn)單縮語(yǔ),就可以明白對(duì)方的想法。
插入處理能力:插入能力允許用戶(hù)在系統(tǒng)提示時(shí)中斷系統(tǒng),但系統(tǒng)仍然能夠知道用戶(hù)的請(qǐng)求。
聲紋識(shí)別問(wèn)題:每個(gè)人的聲音都有一定的特點(diǎn),是否也能夠像識(shí)別指紋一樣,識(shí)別聲紋呢?這樣許多鑒權(quán)應(yīng)用將十分簡(jiǎn)單。
業(yè)務(wù)策略方面
業(yè)務(wù)的應(yīng)用情況,也取決于業(yè)務(wù)的管理水平,業(yè)務(wù)的營(yíng)銷(xiāo)能力、服務(wù)水平、售后能力等因素,也同樣制約著最終業(yè)務(wù)的應(yīng)用情況。
摘自《中國(guó)計(jì)算機(jī)報(bào)》
L&H瓦解 語(yǔ)音技術(shù)走向移動(dòng) 2001-06-22 |
語(yǔ)音合成技術(shù)與電信應(yīng)用 2001-06-06 |
捷通語(yǔ)音技術(shù)又獲突破 2001-06-06 |
統(tǒng)一消息平臺(tái)中的語(yǔ)音技術(shù) 2001-06-04 |
文本-可視語(yǔ)音轉(zhuǎn)換及其應(yīng)用 2001-06-04 |