首頁>>廠商>>語音識別與合成>> 北京無限商機

無限商機VoiceXML語音瀏覽器技術說明書

梁燁 2001/11/12

一 基于XML的數(shù)據(jù)瀏覽技術

Internet 的生命是瀏覽,基于HTML腳本描述語言的Web 的瀏覽機制的應用是Internet 廣泛普及的基礎。

而一種新的腳本描述語言:XML 的出現(xiàn),為數(shù)據(jù)瀏覽技術帶來了一種全新的概念。XML 標記語言,將以往的HTML 之類的標記語言所關注于數(shù)據(jù)表達形式的概念轉移到對數(shù)據(jù)含義和內(nèi)容的關注上來。HTML 標記語言中,計算機程序可以知道這些數(shù)據(jù)應該以什么樣的方式在屏幕上表現(xiàn)出來,但我們卻很難讓計算機程序知道,這些數(shù)據(jù)是什么含義。而在XML 中,其標記的是數(shù)據(jù)的含義和內(nèi)容,我們可以輕松的讓程序來識別和處理這些數(shù)據(jù),并以各種各樣適當?shù)男问奖憩F(xiàn)出來。

基于XML 的數(shù)據(jù)瀏覽技術可以說是網(wǎng)絡時代的又一次數(shù)據(jù)革命,正如美國微軟公司首席執(zhí)行官史蒂夫.鮑爾默所說:“XML語言將革新人機界面”。

鮑爾默稱,XML語言是一種“更坦白的網(wǎng)絡語言”,它使得數(shù)據(jù)在網(wǎng)絡上的獲取和交流更加靈活便利,并可以通過包括電腦、電視和移動電話等更多的終端設備得到反映。鮑爾默說,“5年內(nèi)我希望能像和秘書講話一樣地和電腦交流!

二 VoiceXML :語音瀏覽

VoiceXML ,是由 IBM 、Lucent、Motorola 、AT&T 四家國際巨型公司于2000年提出的一種應用于語音瀏覽的標記語言,它建立于XML 標記語言規(guī)范的基礎之上,是語音瀏覽技術的核心。而因為其同樣是一種XML描述語言,其與數(shù)據(jù)庫、HTML、WML以及其它文檔處理和發(fā)布系統(tǒng)的資料交換幾乎沒有障礙。

通過VoiceXML ,可以像建立HTML 的Web 應用一樣輕松的建立語音應用系統(tǒng),而這樣的語音應用系統(tǒng)可以為基于VoiceXML 的語音瀏覽器所廣泛支持。語音瀏覽器通過解析VoiceXML ,與語音識別和語音合成等方式進行人機交互,從而實現(xiàn)說話就可以上網(wǎng)的夢想。而語音瀏覽器不僅僅可以建立于電話服務器端,其同樣可以建立于PC 平臺、電視、PDA 等等其他終端上。

通過VoiceXML ,可以很容易地建立新的語音應用和服務,如語音門戶、語音Call Center ,語音信息服務、語音電子商務等等。而這些應用或服務可以很容易地和原有的數(shù)據(jù)系統(tǒng)結合起來,甚至可以輕易地從原有的各類應用中延展出來。而VoiceXML 的語音應用,可以以XML的數(shù)據(jù)表達形式,與其它的應用系統(tǒng)、數(shù)據(jù)系統(tǒng)輕易交流。

三 北京無限商機公司的VoiceXML 語音瀏覽器

我們的VoiceXML語音瀏覽器,為解決眾多需求而設計。其設計層次如下:

在我們的實現(xiàn)中,我們分別設計了控制層、安全層、事務層、會話層、和應用層。并開放了除控制層之外的所有層的開放接口。

1.VoiceXML 語音瀏覽器的組成部分

一個完整的VoiceXML 語音瀏覽器,由以下幾個部分組成:

(1).VoiceXML 解析器

VoiceXML 解析器是整個語音瀏覽器的核心部分。其在語音瀏覽器中擔負控制中心和司令者的腳色。VoiceXML 解析器通過網(wǎng)絡協(xié)議,如Http 等協(xié)議,獲取VoiceXML 腳本語言所描述的應用文檔(document),解析該應用文檔,解釋其中各個標志(Tag ),產(chǎn)生相應的控制命令,控制其它部件進行相應的動作,并獲取結果,根據(jù)結果決定應用的執(zhí)行方向和順序流。

(2).語音識別引擎

語音識別引擎是VoiceXML語音瀏覽器的生命力所在,語音識別使計算機能理解用戶的語音命令,產(chǎn)生相應的文字結果,送回VoiceXML解析器做處理。

在VoiceXML 語音瀏覽器中,語音識別引擎為命令式的識別引擎,其根據(jù)有限的語法(grammar)來識別用戶的語音信號,產(chǎn)生對應語法定義的識別結果。所以,語法便成為了VoiceXML語音瀏覽器中的重要概念。在VoiceXML語音瀏覽器中,語法決定了用戶能說什么,如何說,好的語法能帶給用戶良好的交互感覺,也能從邏輯上提高語音識別引擎的識別率,使整個語音應用的瀏覽流暢而輕松。

VoiceXML 語音瀏覽器中,語音識別引擎不僅需要處理對用戶語音信號的識別,同時也需要處理對用戶按鍵的識別,按鍵和語音以同樣的機制被處理和傳遞。

(3).語音合成引擎

語音合成引擎,其處理VoiceXML 解析器將文字轉換為語音信號,并通過語音通道播放給用戶的命令。VoiceXML 語音合成引擎可以將文字轉換成語音文件,也可以轉換成語音數(shù)據(jù)流,或者直接將已事先錄制好的語音文件直接播放或以流的方式播放給語音通道。

語音合成引擎的文字轉化為聲音的品質,決定了用戶對系統(tǒng)的直接感覺,流暢自然的合成聲音,將使用戶感覺良好。如何提高語音合成引擎的合成品質,已成為影響語音應用效果的重要因素。

(4).語音通道

語音通道是在VoiceXML語音瀏覽器中傳輸用戶的語音(speech)數(shù)據(jù)信號和合成引擎所產(chǎn)生的聲音數(shù)據(jù)信號的傳遞通道,其連接物理上的語音采集和播放設備,語音識別引擎的語音輸入端、語音合成引擎的語音輸出端。

在基于電信平臺的語音應用系統(tǒng)中,語音通道的物理設備主要是語音卡、語音信道或者是以數(shù)字編碼形式所存在的虛擬通道,如IP 的語音編碼數(shù)據(jù)包等。而在PC 平臺上,聲卡則成為主要的語音通道。

對不同的平臺的語音通道物理設備的支持,決定了VoiceXML語音瀏覽器可實際應用的平臺。

2.VoiceXML語音瀏覽器各部分的協(xié)作

VoiceXML語音瀏覽器的協(xié)作核心是VoiceXML解析器,其通過建立應用(Application)和會話(Session),獲取包含控制命令的文檔(Document),根據(jù)文檔中的標志(Tag)建立對話(Dialog),從而解釋各個對話,控制語音識別、語音合成引擎以及語音通道的觸發(fā)、開啟和關閉、掛起等,實現(xiàn)與用戶的會話式的交互,并根據(jù)對用戶反應的識別結果進行導向判斷,進行文檔之間的轉移和應用之間的轉移。

3.我們的VoiceXML 語音瀏覽器的開放機制

在我們的VoiceXML語音瀏覽器中,我們采用了IBM公司為電信應用而設計的語音識別引擎,L&H公司和中國科技大學訊飛公司的語音合成引擎,以及建立于NMS公司的AG系列語音板卡之上的電信級語音通道。

在我們的VoiceXML語音瀏覽器中,我們對識別引擎和合成引擎進行了開放性的接口設計,實現(xiàn)了與引擎無關的設計。根據(jù)我們的接口,其它開發(fā)商可以開發(fā)為其它識別或合成引擎的封裝模塊,從而在我們的VoiceXML語音瀏覽器中使用其它的識別或合成引擎。

而我們?yōu)閂oiceXML語音瀏覽器設計了與語音通道無關的接口設計,其它開發(fā)商可以根據(jù)接口封裝語音通道的模塊,實現(xiàn)基于其它語音板卡、IP甚至PC機、PDA 等的語音通道,使VoiceXML語音瀏覽器可以建立于其它的物理平臺之上。

我們的VoiceXML語音瀏覽器中,所有開發(fā)接口以CORBA 規(guī)范設計,其它開發(fā)商可以用各種編程語言如C、C++、Java 等在不同的平臺和操作系統(tǒng)上實現(xiàn),從而實現(xiàn)了對各種操作系統(tǒng)平臺的支持。并且,利用CORBA 的強大的分布式機制,整個VoiceXML語音瀏覽器可以建立于跨越各種物理平臺、操作系統(tǒng)之上的分布式網(wǎng)絡中。

4.如何在VoiceXML 語音瀏覽器上開發(fā)語音應用?

在voiceXML 語音瀏覽器上開發(fā)語音應用,如同開發(fā)Web應用一樣輕松簡單。只需要有對XML的知識,就可以開發(fā)VoiceXML 應用;赩oiceXML 的語音應用系統(tǒng)可以很好的和其它已有的Web 應用系統(tǒng)或數(shù)據(jù)應用系統(tǒng)良好的結合。

開發(fā)VoiceXML 語音應用:

在VoiceXML語音瀏覽器基礎的應用開發(fā),改變了傳統(tǒng)的CTI系統(tǒng)的開發(fā)概念,在這里,開發(fā)人員無須關心復雜的流程和模塊,無須為數(shù)據(jù)接口編寫程序模塊,無須重新建立已有系統(tǒng)的邏輯實現(xiàn),也無須一次次重復某個模塊的開發(fā)。建立VoiceXML語音應用系統(tǒng),就和建立Web 應用一樣簡單

四 基于VoiceXML 機制的語音應用

1.基于VoiceXML 機制的語音應用的特點

基于voiceXML機制的語音應用有以下幾個特點:

2.自由自在的流程

VoiceXML語音應用系統(tǒng)中強調(diào)對話和導向,而不在有固定的流程結構限制。如同用IE 瀏覽網(wǎng)頁一樣,我們無法定義清晰的用戶可能點擊和瀏覽的順序,而是以網(wǎng)頁為單位,以鏈接為導向。VoiceXML 亦是以同樣的機制來完成整個應用的瀏覽。

在VoiceXML 語音應用中,用戶可以選擇所有激活的鏈接處,象瀏覽Web 網(wǎng)頁一樣任意跳轉到其它頁中去。根據(jù)用戶的語音命令和對事件的捕獲,可以跳轉到其他應用、其它文檔、甚至其它對話中去。

而利用Java Script 、ASP、Perl等描述語言,VoiceXML應用可以動態(tài)的根據(jù)用戶的選擇、預制模板和其它數(shù)據(jù)環(huán)境動態(tài)地產(chǎn)生新的應用或文檔以及語法定義,實現(xiàn)流程的動態(tài)生成,使VoiceXML 語音應用不再受預先制定好的流程規(guī)范的限制。

3.無所限制的內(nèi)容

XML 的機制決定了VoiceXML 腳本語言不僅可以描述數(shù)據(jù)的式樣,其同樣描述數(shù)據(jù)的內(nèi)容和含義。而只要有共同規(guī)范的DTD 定義,VoiceXML 腳本可以輕松的與其它XML腳本交換數(shù)據(jù),理解其它XML腳本應用中的數(shù)據(jù)含義。這就是說,其它的基于XML腳本的Web 應用、數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)文檔都可以輕松的和VoiceXML腳本結合起來。VoiceXML 應用可以輕松的解釋它們的數(shù)據(jù)內(nèi)容,并通過適當?shù)谋憩F(xiàn)式樣體現(xiàn)出來。

利用Java Script 、ASP 、Perl 等描述語言所建立的程序,可以訪問其它各種各樣的數(shù)據(jù)來源,不僅可以產(chǎn)生動態(tài)的瀏覽流程,同樣可以產(chǎn)生動態(tài)的內(nèi)容。正如在Web 應用中ASP 所產(chǎn)生的動態(tài)網(wǎng)頁一樣,我們產(chǎn)生的動態(tài)VoiceXML語音網(wǎng)頁具有同樣的瀏覽自由度和內(nèi)容自由度。

正如基于VoiceXML 的語音郵件應用所表現(xiàn)的那樣,通過主頁的導向,根據(jù)不同用戶的用戶ID ,利用Java Script 或ASP等進行對郵件服務器的訪問,根據(jù)郵件數(shù)據(jù)、郵件格式和郵件內(nèi)容會產(chǎn)生不同的VoiceXML 郵件網(wǎng)頁。不同的用戶所訪問到的郵件網(wǎng)頁的結構和內(nèi)容都是不同的。

4.個性定制的體現(xiàn)

不同于傳統(tǒng)CTI系統(tǒng)對每個用戶的服務都一模一樣的方式,VoiceXML應用可以根據(jù)用戶自己的喜好定制自己需要的內(nèi)容。根據(jù)已有用戶的信息數(shù)據(jù),如用戶的特征,用戶選擇的項目等,利用模板機制,可以生成完全個性化的應用流程和內(nèi)容。

在VoiceXML 語音應用系統(tǒng)中,用戶不僅可以定制他們各自喜好的服務項目,甚至可以定制他們期望的內(nèi)容、格式和風格,完全體現(xiàn)自己的個性化。

在基于VoiceXML 的語音門戶應用中,用戶也可以自己開發(fā)編寫自己的語音網(wǎng)頁,自由體現(xiàn)自我,建立自己的個人語音網(wǎng)站,展示自我個性。

五 應用示例

1.VoiceXML 語音郵件

VoiceXML 語音郵件應用,使用戶可以通過電話等聲音設備收發(fā)電子郵件。在基于VoiceXML的語音郵件應用中,用戶可以自由的選擇性收聽郵件、只聽標題或內(nèi)容、順序瀏覽、隨時刪除。利用通訊本功能,用戶通過說出姓名即可發(fā)送語音形式的郵件,讓對方聽到自己的聲音信息。

2.VoiceXML股票查詢

基于VoiceXML 的股票查詢應用系統(tǒng),用戶無須記住股票代碼,只需說出股票名稱即可。用戶可以選擇性定制自己所關心的幾支股票,只查詢這幾支股票的信息。通過更為復雜的模板定制,用戶還可以定制他們關心的股票價格、成交量等細節(jié)內(nèi)容,以喜好的風格來聽取,用戶也可以定制提醒、報警等功能,及時處理。

3.VoiceXML 天氣查詢

基于VoiceXML 的天氣查詢系統(tǒng),選擇用戶所關心的幾個城市,隨時查詢天氣情況,以便安排出行、旅游。

4.VoiceXML 語音游戲

試試和電腦玩玩猜拳游戲吧,聽聽電腦贏時的得意和輸時的抱怨,看看你能不能幾句話說得電腦低頭服輸?

北京無限商機供稿 CTI論壇編輯



相關鏈接:
融合通訊還有多遠? 2003-04-15
我國語音互聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展和統(tǒng)一標準規(guī)范VAP探討 2002-03-04
北京無限商機 2002-03-04
北郵UBO共建實驗室致力語音數(shù)據(jù)兩網(wǎng)融合 2002-01-23
企業(yè)服務新形象——UBO Tel-win智能總機 2001-12-20