科大訊飛發(fā)布InterPhonic 4.0銀行專業(yè)版合成系統(tǒng)
--新特性搶先預(yù)覽
2005/12/08
隨著金融業(yè)呼叫中心的發(fā)展,越來越多的銀行在電話銀行業(yè)務(wù)的拓展和推廣中推陳出新,從而也引發(fā)了語音技術(shù)在銀行業(yè)中的應(yīng)用熱潮?拼笥嶏w作為語音技術(shù)的開發(fā)商和語音應(yīng)用推廣的拓荒者,早在2000年以前就開始在銀行業(yè)中推動語音的應(yīng)用。在通用領(lǐng)域中,科大訊飛的語音技術(shù)一直處于國際領(lǐng)先地位,無論從合成效果的自然度、產(chǎn)品化以及實(shí)際應(yīng)用中都比同類產(chǎn)品有著明顯的優(yōu)勢。2005年4月份科大訊飛發(fā)布了其最新的多語種語音合成平臺InterPhonic 4.0在業(yè)界又一次引起了人們對語音應(yīng)用效果的關(guān)注,成為在電信、金融等領(lǐng)域高端應(yīng)用中的主流產(chǎn)品。InterPhonic 4.0為提升應(yīng)用效果而設(shè)計的靈活的定制架構(gòu),加上訊飛在金融領(lǐng)域多年的應(yīng)用積累,時隔半年,基于InterPhonic 4.0的銀行專業(yè)版正式對外發(fā)布。
InterPhonic 4.0銀行專業(yè)版除了具備通用版的所有特性之外,主要針對金融行業(yè)特別是電話銀行應(yīng)用當(dāng)中的詞匯量、多音字處理、特殊符號處理、數(shù)字/數(shù)值、定制音庫、預(yù)錄音等環(huán)節(jié)進(jìn)行了功能改進(jìn)和應(yīng)用效果的提升,具有以下幾種專門為金融行業(yè)量身定做的產(chǎn)品特性:
- 銀行專業(yè)版詞典
金融領(lǐng)域的詞匯量隨著近年來銀行業(yè)的發(fā)展在不斷擴(kuò)大和更新,新業(yè)務(wù)、新名詞的出現(xiàn)層出不窮。科大訊飛在與銀行業(yè)合作伙伴的合作中廣泛收集電話銀行實(shí)用語料,并采用獨(dú)有的語料分析和搜索技術(shù)對主詞典進(jìn)行添加和修正,使得銀行專業(yè)版中的詞典更適用于金融領(lǐng)域,提高了對金融領(lǐng)域新名詞的識別率,使分詞斷句更加準(zhǔn)確。
- 多音字規(guī)則庫
多音字是漢語中的普遍現(xiàn)象,多音字的正確與否直接影響到語音合成的應(yīng)用效果。通用領(lǐng)域內(nèi)的多音字判斷與專業(yè)領(lǐng)域并不是很一致甚至?xí)袥_突。一些僅在金融領(lǐng)域才出現(xiàn)的多音字現(xiàn)象被提煉成多音字規(guī)則,這些規(guī)則僅適用于在專業(yè)領(lǐng)域的語言環(huán)境中。在多音字規(guī)則的歸納方面需要大量語料的積累和系統(tǒng)的語法分析工具?拼笥嶏w公司和中國社會科學(xué)院語言研究所建立聯(lián)合實(shí)驗(yàn)室,致力于漢語言的分析和研究,并且在語料收集和數(shù)據(jù)制作方面具有深厚的積淀。銀行專業(yè)版的多音字規(guī)則庫也是在此基礎(chǔ)上得到了更完善的補(bǔ)充,多音字自動識別的正確率可達(dá)到98%以上。
- 銀行專業(yè)版音庫
定制音庫可以更好的覆蓋金融領(lǐng)域的語言環(huán)境,使得合成出的語句更加流暢自然。采用在主音庫上補(bǔ)充定制音庫的手段提升合成效果是目前采用大語料庫技術(shù)的合成系統(tǒng)改善語音合成效果的一個最直接有效的方法。但是受到語料收集和分析能力以及數(shù)據(jù)制作能力的限制,能夠緊跟應(yīng)用發(fā)展而定制出與當(dāng)前應(yīng)用環(huán)境更為接近的音庫的規(guī)模、質(zhì)量和更新周期都必須有一個專業(yè)技術(shù)隊(duì)伍來保障。科大訊飛在推出Interphonic 4.0的同時即開始了基于Interphonic 4.0的銀行專業(yè)版定制音庫的制作。目前,Interphonic 4.0 銀行專業(yè)版已經(jīng)提供了普通話女聲小燕的定制音庫,隨著應(yīng)用需求的不斷增加,也將會陸續(xù)提供普通話男聲定制音庫和粵語定制音庫。
- 特殊符號規(guī)則庫
在Interphonic4.0的特殊符號集中常用符號的處理已經(jīng)比較完備了,但是仍有一些特殊符號的使用會根據(jù)應(yīng)用環(huán)境的特殊性而與通常環(huán)境中的判斷規(guī)則和讀法不一樣。Interphonic 4.0銀行專業(yè)版收集了金融領(lǐng)域常用符號及其出現(xiàn)的語言環(huán)境進(jìn)行分析,對特殊符號規(guī)則庫進(jìn)行了調(diào)整,從而提高了在金融領(lǐng)域內(nèi)的特殊符號識別正確率。同時,Interphonic 4.0的定制架構(gòu)允許對特殊符號的讀法和停頓時間進(jìn)行用戶自定義的設(shè)置,在銀行專業(yè)版中已經(jīng)根據(jù)行業(yè)特征對這些參數(shù)進(jìn)行了調(diào)整,用戶一般不需要重新設(shè)置特殊符號的默認(rèn)讀法和停頓時間。
- 數(shù)字?jǐn)?shù)值
Interphonic4.0的數(shù)字?jǐn)?shù)值為了適應(yīng)電話銀行中用戶的使用習(xí)慣,進(jìn)行了效果調(diào)整,使數(shù)字?jǐn)?shù)值的發(fā)音更加飽滿。使用TTS合成的數(shù)字?jǐn)?shù)值首先在清晰度和自然度方面就比原始的錄音拼接要高。此外,電話銀行業(yè)務(wù)中對于數(shù)字?jǐn)?shù)值的可懂度和準(zhǔn)確度要求更高,銀行專業(yè)版在數(shù)字?jǐn)?shù)值方面做了更多的改進(jìn),在提高系統(tǒng)默認(rèn)設(shè)置的數(shù)字?jǐn)?shù)值可懂度的同時還開放了更多用戶可以自主設(shè)置的參數(shù)。銀行專業(yè)版中數(shù)字?jǐn)?shù)值的報讀風(fēng)格定位于語速較慢、發(fā)音飽滿、富有節(jié)奏感,從而提高了數(shù)字?jǐn)?shù)值的可懂度。除了具備Interphonic4.0中的整體語速調(diào)節(jié)功能外,銀行專業(yè)版也支持對于數(shù)字?jǐn)?shù)值單獨(dú)進(jìn)行語速調(diào)節(jié)和節(jié)奏設(shè)置,這樣不同用戶都可以根據(jù)自己的需要進(jìn)行設(shè)置便于用戶對于較長的賬號等數(shù)字?jǐn)?shù)值進(jìn)行核對和記錄。
- 預(yù)錄音
在電話銀行業(yè)務(wù)中很多提示音是固定不變的,在和語音合成系統(tǒng)合成出的語音配合使用時,往往讓程序設(shè)計者們?yōu)檫@些提示音采用預(yù)錄音還是采用TTS合成而取舍難定。如果采用預(yù)錄音當(dāng)然能夠達(dá)到最好的自然度,但是不能適應(yīng)提示音中的變化,一旦提示音有改動預(yù)錄音不能及時更新就會出現(xiàn)問題。而采用合成的方式來提供提示音,雖然靈活性問題解決了但是自然度又會略遜于預(yù)錄音。因此如何處理好提示音和語音合成的融合可以考驗(yàn)一個語音合成系統(tǒng)在提升應(yīng)用效果方面的功能和架構(gòu)是否完善。銀行專業(yè)版的預(yù)錄音功能正是在Interphonic 4.0的定制架構(gòu)上實(shí)現(xiàn)的一個平衡提示音自然度和靈活性的工具。預(yù)錄音與合成音統(tǒng)一發(fā)音人,過渡自然。調(diào)用時,不需要特殊標(biāo)記,系統(tǒng)可自動識別預(yù)錄音庫中已有提示音,并和需要合成的語音一起進(jìn)行輸出。在銀行專業(yè)版的預(yù)錄音庫中已經(jīng)包含了近2000條常用中粵語提示音,同時提供提示音添加功能,方便用戶隨時添加預(yù)錄音。用戶還可向科大訊飛提出定制需求,可根據(jù)用戶的具體應(yīng)用進(jìn)行電話銀行菜單預(yù)錄音。
科大訊飛公司供稿 CTI論壇編輯
相關(guān)鏈接: