首頁(yè)>>廠商>>語(yǔ)音識(shí)別與合成>>捷通華聲

開(kāi)放式語(yǔ)音架構(gòu)與新一代呼叫中心應(yīng)用
--具有前瞻性的捷通華聲"奧運(yùn)之聲"TTS引擎解析

2004/04/23

呼叫中心的發(fā)展趨勢(shì)

  隨著改革開(kāi)放的腳步不斷加快,中國(guó)在政治、經(jīng)濟(jì)、文化等各個(gè)領(lǐng)域的國(guó)際化程度也在迅速提高,特別是近幾年來(lái),隨著中國(guó)加入WTO、成功申辦北京奧運(yùn)會(huì)、成功申辦上海世博會(huì)、博鰲論壇的成功舉辦,人們可以清楚的看到,中國(guó)已經(jīng)成為世界上最重要的國(guó)際交流中心之一。在中國(guó)走向世界的進(jìn)程中,各行各業(yè)都在不斷進(jìn)行著自我完善,來(lái)適應(yīng)這一變化的需要,CTI行業(yè)也不例外。

  在CTI領(lǐng)域里,人們首先感受到的是越來(lái)越多的國(guó)際知名企業(yè)、優(yōu)秀產(chǎn)品、先進(jìn)技術(shù)相繼進(jìn)入中國(guó)CTI市場(chǎng),即為中國(guó)的CTI技術(shù)發(fā)展提供了強(qiáng)大的動(dòng)力,也給國(guó)內(nèi)的企業(yè)帶來(lái)了巨大的壓力。各廠商在不斷提升自我競(jìng)爭(zhēng)能力的同時(shí),也在積極尋找CTI新的應(yīng)用點(diǎn),進(jìn)而使整個(gè)CTI產(chǎn)業(yè)無(wú)論是在技術(shù)上還是在應(yīng)用上都在朝著國(guó)際化方向飛速發(fā)展。

  捷通華聲公司作為語(yǔ)音技術(shù)核心供應(yīng)商,敏銳的捕捉到了這一市場(chǎng)變化,并早在2年多以前便開(kāi)始著手準(zhǔn)備,因而走了語(yǔ)音產(chǎn)業(yè)國(guó)際化發(fā)展的前列。

  捷通華聲公司由北京捷通軟件公司投資、我國(guó)著名語(yǔ)音專(zhuān)家呂士楠教授主持創(chuàng)建于2000年10月,并于2001年7月發(fā)布了具有里程碑意義的新一代語(yǔ)音合成產(chǎn)品--jTTS2.0,從此語(yǔ)音合成技術(shù)進(jìn)入了大規(guī)模商用時(shí)代。就在各競(jìng)爭(zhēng)對(duì)手爭(zhēng)相模仿的時(shí)候,捷通華聲已經(jīng)清楚的認(rèn)識(shí)到:語(yǔ)音技術(shù)的發(fā)展必須走國(guó)際化道路。一方面,我們的技術(shù)必須走出國(guó)門(mén),與國(guó)際同類(lèi)產(chǎn)品同場(chǎng)競(jìng)技,取得國(guó)際上的一致認(rèn)可;另一方面,我們必須積極吸取國(guó)外先進(jìn)的經(jīng)驗(yàn),使自己的技術(shù)能夠得到不斷的提升。在隨后的1年多中,捷通華聲按照這一方針"內(nèi)外兼修",無(wú)論是在技術(shù)上還是在市場(chǎng)上都獲得了巨大的成功,并已成為國(guó)際知名語(yǔ)音技術(shù)供應(yīng)商之一。

  2003年初,北京科技奧運(yùn)十大重點(diǎn)項(xiàng)目陸續(xù)啟動(dòng),捷通華聲憑借雄厚的技術(shù)實(shí)力和良好的企業(yè)信譽(yù),一舉中標(biāo)《面向奧運(yùn)的多語(yǔ)言語(yǔ)音合成產(chǎn)品研制》項(xiàng)目,為捷通華聲進(jìn)一步發(fā)展多語(yǔ)言語(yǔ)音合成產(chǎn)品提供了良好的契機(jī)。

  "科技奧運(yùn)"項(xiàng)目的需求與目前中國(guó)的呼叫中心市場(chǎng)需求有著很高的一致性,那就是要求開(kāi)放式的架構(gòu)和國(guó)際化服務(wù)手段、服務(wù)質(zhì)量。呼叫中心已經(jīng)不再是只為中國(guó)人服務(wù),而是要充分考慮到各種國(guó)際政治、文化、商業(yè)活動(dòng)的實(shí)際需求,為世界各國(guó)友人提供服務(wù)的必要手段。針對(duì)這一需求,捷通華聲用了近一年的時(shí)間潛心研究,并于2004年初發(fā)布了最新的語(yǔ)音合成產(chǎn)品"奧運(yùn)之聲"(OlyVoice)--捷通華聲語(yǔ)音合成奧運(yùn)版v4.0。該產(chǎn)品著重設(shè)計(jì)了開(kāi)放式的系統(tǒng)架構(gòu)和多語(yǔ)種語(yǔ)音合成需求。

奧運(yùn)之聲--捷通華聲開(kāi)放式語(yǔ)音合成架構(gòu)

  捷通華聲語(yǔ)音合成奧運(yùn)版v4.0(簡(jiǎn)稱(chēng):jTTS奧運(yùn)版)是以一種開(kāi)發(fā)式的架構(gòu)進(jìn)行設(shè)計(jì)的(如下圖所示),其核心是一套統(tǒng)一的對(duì)外編程接口(API-Application Programming Interface),即jTTS API 4.0,以及統(tǒng)一的多語(yǔ)種引擎管理模塊,即jTTS_ML.DLL。多語(yǔ)種的引擎(例如中文引擎jTTS_CH.DLL,英文引擎jTTS_EN.DLL等)在多語(yǔ)種引擎管理模塊的調(diào)度下進(jìn)行實(shí)際的合成工作,而目前尚未提供的其他語(yǔ)種的引擎也可以方便地加入到這個(gè)體系結(jié)構(gòu)中來(lái)。


統(tǒng)一的應(yīng)用程序接口

jTTS_ML.DLL是主要模塊,在這個(gè)模塊中完成多數(shù)統(tǒng)一的工作。包括:

·各個(gè)語(yǔ)種引擎和音庫(kù)的管理、加載、卸載、選擇。
·與外部設(shè)備相關(guān)而與具體引擎無(wú)關(guān)的工作,例如打開(kāi)文件,聲卡或文件輸出等。
·各個(gè)語(yǔ)種幾乎相同的工作,例如SSML TAG的處理等。
  jTTS_ML.DLL基本保持和jTTS_MA.DLL函數(shù)接口的一致性,但進(jìn)行了一定的改動(dòng)。這些改動(dòng)主要是吸取了在前幾個(gè)版本中的開(kāi)發(fā)經(jīng)驗(yàn)和用戶(hù)的意見(jiàn)反饋,因此現(xiàn)有的API更為簡(jiǎn)潔方便、功能卻更為強(qiáng)大。

充分的兼容性設(shè)計(jì)
  新版本的jTTS_MA.DLL是為了保持向下兼容,它完全繼承原有的jTTS API 3.0的所有函數(shù),不增加也不刪減任何函數(shù)。因此,它也僅能完成以前版本的功能(但可以利用最新的中文引擎,提高聲音質(zhì)量),提供它的目的僅僅在于用戶(hù)能夠不改動(dòng)原有程序繼續(xù)運(yùn)行,但如果希望使用新的功能,必須使用jTTS_ML.DLL,利用新的API進(jìn)行開(kāi)發(fā)。

支持多種調(diào)用方式
  jTTS4.ocx是在jTTS_ML.DLL之上的一個(gè)ActiveX控件,主要作用是以COM接口的方式提供了TTS的功能,方便Web頁(yè)面開(kāi)發(fā)或者VB等編程語(yǔ)言的開(kāi)發(fā)。由于COM接口支持的開(kāi)發(fā)工具非常廣泛、語(yǔ)言類(lèi)型多種多樣,因此用戶(hù)可以通過(guò)使用jTTS4.ocx組件來(lái)開(kāi)發(fā)TTS應(yīng)用程序,以達(dá)到適應(yīng)多種開(kāi)發(fā)環(huán)境、簡(jiǎn)化開(kāi)發(fā)過(guò)程的目的。使用此控件可以實(shí)現(xiàn)向文件或聲卡輸出,所有的設(shè)置、回調(diào)等功能也和jTTS_ML.DLL所提供的功能基本類(lèi)似,但是它沒(méi)有底層合成(即Session)的概念,也不能直接獲得語(yǔ)音數(shù)據(jù)流。

  語(yǔ)音合成服務(wù)器jTTSService.EXE提供了對(duì)基于網(wǎng)絡(luò)的TTS服務(wù)的支持,讓用戶(hù)可以采用網(wǎng)絡(luò)合成方案或集群網(wǎng)絡(luò)合成方案進(jìn)行合成。此語(yǔ)音合成服務(wù)器軟件作為Windows系統(tǒng)上的一個(gè)服務(wù)(Service)或Linux系統(tǒng)上的一個(gè)守護(hù)程序(daemon)實(shí)現(xiàn),監(jiān)聽(tīng)網(wǎng)絡(luò)端口號(hào),如果有連接,則通過(guò)jTTS Service Protocol 4.0版本為客戶(hù)端提供語(yǔ)音合成的服務(wù)。

良好的可擴(kuò)展性
  系統(tǒng)采用外掛DLL的方式來(lái)提高擴(kuò)展性。外掛DLL包括兩種:一種是文本抽取DLL,另一種是語(yǔ)音格式轉(zhuǎn)換DLL。在閱讀文件時(shí)(通過(guò)jTTS_Play或jTTS_PlayToFile),可以通過(guò)外掛的DLL來(lái)進(jìn)行文本的抽取,然后利用TTS的功能進(jìn)行合成,例如閱讀DOC文件或者Email。而得到語(yǔ)音數(shù)據(jù)后,可以利用外掛的語(yǔ)音格式轉(zhuǎn)換DLL來(lái)得到系統(tǒng)本身不支持的語(yǔ)音格式。

新增多種實(shí)用功能
·支持多語(yǔ)種,支持多領(lǐng)域的設(shè)置
·支持音色的查找、訪問(wèn)、加載等
·支持SSML (語(yǔ)音合成標(biāo)記語(yǔ)言, Speech Synthesis Markup language)
·可以直接播放文本文件,也支持外掛抽取文本的DLL以支持其它格式。
·支持GB(包括GB2312, GBK, GB18030)、Big5、Shift-JIS、ISO-8859-1、Unicode、Unicode Big Endian、UTF8等各種字符集,自動(dòng)識(shí)別具有BOM標(biāo)記的Unicode文本。
·支持同步、異步合成一個(gè)Session,通過(guò)被動(dòng)的回調(diào)函數(shù)方式給用戶(hù)傳遞數(shù)據(jù)。在原有版本的主動(dòng)獲取語(yǔ)音數(shù)據(jù)的基礎(chǔ)上又提供了一個(gè)選擇。
·可以外掛語(yǔ)音格式轉(zhuǎn)換程序。

  所有這些,都是捷通華聲在語(yǔ)音合成架構(gòu)上具有前瞻性的設(shè)計(jì),通過(guò)這樣的系統(tǒng)結(jié)構(gòu),用戶(hù)可以靈活的為新一代呼叫中心、UMS系統(tǒng)添加豐富的語(yǔ)音合成資源,使整個(gè)系統(tǒng)最大限度的發(fā)揮其功效,為最終用戶(hù)提供方便實(shí)用的服務(wù)體系。

  除了在系統(tǒng)結(jié)構(gòu)上的重大改進(jìn)外,捷通華聲在語(yǔ)音合成核心上也進(jìn)行了深入的研究,并取得了重大突破。與以往的版本相比,新的中文合成核心主要進(jìn)行了下列改進(jìn):

新的英文引擎支持
中文引擎放棄了原來(lái)使用的第三方的英文引擎,采用了自行開(kāi)發(fā)的英文引擎,達(dá)到了清晰流利、中英文同一音色的效果。

新的預(yù)處理
·采用了基于分詞和詞性標(biāo)注一體化的前端分析算法以及基于統(tǒng)計(jì)的韻律詞分析算法,提供了更好的韻律分析結(jié)果,閱讀更為自然流暢。
·全面改進(jìn)了多音字處理算法,多音字的誤讀率大為下降。
·改進(jìn)了數(shù)字符號(hào)讀法的分析算法,數(shù)字符號(hào)的讀法的閱讀準(zhǔn)確率更高。同時(shí)支持?jǐn)?shù)字、符號(hào)讀法的外部規(guī)則使用,提供給用戶(hù)自行定義數(shù)字符號(hào)讀法的方法。

多領(lǐng)域支持
  中文引擎提供了多個(gè)領(lǐng)域的優(yōu)化資源包。例如,在天氣預(yù)報(bào)領(lǐng)域提供了利用模板拼接技術(shù)的特定領(lǐng)域音庫(kù),在金融證券、旅游餐飲、體育賽事等領(lǐng)域提供了特定領(lǐng)域詞庫(kù)、預(yù)選音音庫(kù)等。通過(guò)這些針對(duì)不同專(zhuān)業(yè)領(lǐng)域的優(yōu)化資源包,可以大大提高特定領(lǐng)域文本的合成效果。同時(shí),多領(lǐng)域支持也采用了一種模塊化的方式,用戶(hù)可以自行地安裝不同領(lǐng)域的資源包。

對(duì)SSML的支持
  SSML(Speech Synthesis Markup Language)語(yǔ)音合成標(biāo)記語(yǔ)言定義了一套豐富的,基于XML的標(biāo)記語(yǔ)言以支持在Web語(yǔ)音瀏覽器或者其它應(yīng)用程序中生成合成語(yǔ)音。這一標(biāo)記語(yǔ)言的的主要作用在于提供給合成內(nèi)容的作者一個(gè)標(biāo)準(zhǔn)的方法來(lái)控制語(yǔ)音的各個(gè)方面,例如發(fā)音、音量、語(yǔ)速、基頻等。SSML目前是W3C的草案,具體內(nèi)容參見(jiàn) http://www.w3.org/TR/speech-synthesis/。

  從jTTS 4.0開(kāi)始,捷通華聲語(yǔ)音合成系統(tǒng)定義了S3ML (SinoVoice Speech Synthesis Markup Language)-捷通華聲語(yǔ)音標(biāo)記語(yǔ)言。S3ML符合基本的SSML規(guī)范,但更為詳細(xì)地定義了SSML沒(méi)有精確定義的部分(例如的具體語(yǔ)法),同時(shí)也支持一些針對(duì)中文語(yǔ)音合成的擴(kuò)展。

  新版本將繼續(xù)支持原jTTS 3.0版本支持的文本標(biāo)注方法(成為jTTS Tag),但jTTS Tag將不再發(fā)展。如有需要,新的應(yīng)用程序應(yīng)該使用S3ML對(duì)文本進(jìn)行標(biāo)注,以控制語(yǔ)音合成效果的功能,并獲得靈活的可擴(kuò)展性。

  面向科技奧運(yùn),面向新一代呼叫中心應(yīng)用,捷通華聲做好了充分的準(zhǔn)備,奧運(yùn)之聲(OlyVoice)將與CTI行業(yè)的眾多合作伙伴一起,引領(lǐng)用戶(hù)進(jìn)入一個(gè)全新的、開(kāi)放式的CTI時(shí)代,整個(gè)CTI行業(yè)將在國(guó)際化、標(biāo)準(zhǔn)化、產(chǎn)業(yè)化方向上邁上一個(gè)新的臺(tái)階。

捷通華聲公司供稿 CTI論壇編輯



相關(guān)鏈接:
捷通華聲發(fā)布jASR5.5 ASR價(jià)格面前將無(wú)怯步 2008-04-16
捷通華聲TTS成功登陸中國(guó)郵政儲(chǔ)蓄銀行 2008-04-03
捷通華聲 jTTS 5.5 全面支持 MRCPv2標(biāo)準(zhǔn) 2008-03-31
捷通華聲移動(dòng)導(dǎo)航HCI解決方案廣受青睞 2008-03-26
身邊的“智能”生活 2007-12-28

分類(lèi)信息:     文摘   技術(shù)_語(yǔ)音合成_文摘