語音系統(tǒng)開發(fā)的新平臺:VoiceXML瀏覽器
張欣 2001/10/19
VoiceXML將語音交互引入了數據瀏覽的世界,使電話等以語音為主要形式的設備成為新型的網絡終端,其自然、簡單,具備了更為廣泛的普及性和友好性。本文對無限商機公司的VoiceXML語音瀏覽器的介紹,將幫助讀者進一步了解它的功能和用途。
無限商機公司的VoiceXML語音瀏覽器是為解決用戶的多種需求而設計的,在實現過程中,分別設計了控制層、安全層、事務層、會話層和應用層,并開放了除控制層之外的所有層的接口。
1.VoiceXML語音瀏覽器的組成部分
一個完整的VoiceXML語音瀏覽器,由VoiceXML 解析器、語音識別引擎、語音合成引擎、語音通道等幾個部分組成。
(1)VoiceXML 解析器
VoiceXML解析器是整個語音瀏覽器的核心部分,在語音瀏覽器中擔負控制中心的角色。VoiceXML解析器通過網絡協(xié)議,如HTTP協(xié)議等,獲取VoiceXML 腳本語言所描述的應用文檔;解析該應用文檔,解釋其中各個標志,生成相應的控制命令,控制其他部件進行相應的動作,并獲取結果;根據結果決定應用的執(zhí)行方向和順序流。
(2)語音識別引擎
語音識別引擎是VoiceXML語音瀏覽器的生命力所在,它使計算機能理解用戶的語音命令,將產生的相應的文字結果送回VoiceXML解析器進行處理。
在VoiceXML語音瀏覽器中,語音識別引擎為命令式的識別引擎,其根據有限的語法來識別用戶的語音信號,產生對應語法定義的識別結果。所以,語法便成為了VoiceXML語音瀏覽器中的重要概念。在VoiceXML語音瀏覽器中,語法決定了用戶能說什么、如何說。好的語法能帶給用戶良好的交互感覺,也能從邏輯上提高語音識別引擎的識別率,使整個語音應用的瀏覽流暢而輕松。
在VoiceXML語音瀏覽器中,語音識別引擎不僅需要處理對用戶語音信號的識別,同時也需要處理對用戶按鍵的識別,按鍵和語音以同樣的機制被處理和傳遞。
(3)語音合成引擎
VoiceXML語音合成引擎可以將文字轉換成語音文件,也可以轉換成語音數據流,或者直接將事先錄制好的語音文件直接播放或以流的方式播放給語音通道。
語音合成引擎將文字轉化為聲音的品質,決定了用戶對系統(tǒng)的直接感覺。因此,如何提高語音合成引擎的合成品質,已成為影響語音應用效果的重要因素。
(4)語音通道
語音通道是在VoiceXML語音瀏覽器中傳輸用戶語音數據信號和由合成引擎所產生的聲音數據信號的傳遞通道,它在物理上連接語音采集和播放設備、語音識別引擎的語音輸入端和語音合成引擎的語音輸出端。
在基于電信平臺的語音應用系統(tǒng)中,語音通道的物理設備主要是語音卡、語音信道或是以數字編碼形式存在的虛擬通道,如IP的語音編碼數據包等;而在PC平臺上,聲卡則成為主要的語音通道。
對不同平臺的語音通道物理設備的支持,決定了VoiceXML語音瀏覽器是一個可實際應用的平臺。
2.VoiceXML語音瀏覽器各部分的協(xié)作
VoiceXML語音瀏覽器的協(xié)作核心是VoiceXML解析器,其通過建立應用和會話,獲取包含控制命令的文檔,根據文檔中的標志建立對話,從而解釋各個對話,控制語音識別、語音合成引擎以及語音通道的觸發(fā)、開啟關閉和掛起等,實現與用戶的會話式的交互,并根據對用戶反饋的識別結果進行導向判斷,進行文檔之間的轉移和應用之間的轉移。
3.VoiceXML語音瀏覽器的開放機制
在無限商機公司的VoiceXML語音瀏覽器中,對識別引擎和合成引擎進行了開放性的接口設計,實現了與引擎無關的設計。根據此接口,開發(fā)商可以開發(fā)用于其他識別或合成引擎的封裝模塊,從而在無限商機的VoiceXML語音瀏覽器中使用其他的識別或合成引擎。其可建立于電話服務器、PC 、嵌入式設備中,支持國內外語音卡,支持IP等語音信道。
無限商機公司VoiceXML語音瀏覽器中,所有開發(fā)接口是以CORBA規(guī)范設計的,開發(fā)商可以用各種編程語言,如C、C++、Java等,在不同的平臺和操作系統(tǒng)上實現,從而實現對各種操作系統(tǒng)平臺的支持。并且,利用CORBA強大的分布式機制,整個VoiceXML語音瀏覽器可以建立于跨越各種物理平臺、操作系統(tǒng)之上的分布式網絡中。
4.在VoiceXML語音瀏覽器上開發(fā)語音應用
在VoiceXML語音瀏覽器上開發(fā)語音應用,如同開發(fā)Web應用一樣輕松簡單,只需要有XML的知識,就可以開發(fā)VoiceXML應用;赩oiceXML的語音應用系統(tǒng),可以很好地與其他已有的Web 應用系統(tǒng)或數據應用系統(tǒng)實現良好結合。
在VoiceXML語音瀏覽器基礎上的應用開發(fā),改變了傳統(tǒng)的CTI系統(tǒng)的開發(fā)概念。開發(fā)人員不必關心復雜的流程和模塊,不必為數據接口編寫程序模塊,不必重新建立已有系統(tǒng)的邏輯實現,也不必一次次地重復某個模塊的開發(fā)。
計算機世界網 2001/10/19
融合通訊還有多遠? 2003-04-15 |
我國語音互聯網產業(yè)的發(fā)展和統(tǒng)一標準規(guī)范VAP探討 2002-03-04 |
北京無限商機 2002-03-04 |
北郵UBO共建實驗室致力語音數據兩網融合 2002-01-23 |
企業(yè)服務新形象——UBO Tel-win智能總機 2001-12-20 |