科大訊飛以人為本,致力于創(chuàng)造人類信息時代信息獲取和溝通的最佳方式。InterPhonic CE 2.2作為其InterPhonic系列的最新產(chǎn)品,在合成效果方面,除了繼續(xù)提高中文與英文的合成效果之外,還在兩者之間如何更加流暢的銜接,以及如何更加方便快捷的實(shí)現(xiàn)效果定制方面取得了顯著的改進(jìn)。除此之外,在系統(tǒng)的實(shí)用性、易用性等方面又有了進(jìn)一步的提高,在此基礎(chǔ)上,InterPhonic C&E2.2還新增了很多新的特性,如推出功能更加強(qiáng)大和完善的TTS Server Express語音合成服務(wù)器軟件,并且首次加入了CSSML編輯器和TTS Doctor技術(shù)支持工具。
一、 技術(shù)改進(jìn)
1. 產(chǎn)品效果方面
為了體現(xiàn)訊飛以人為本的宗旨,為了使用戶感受到專業(yè)語音科技給他們帶來的便利。InterPhonic CE v2.2在合成效果方面,主要增加了CE2.1系統(tǒng)中缺少的語氣詞合成、改進(jìn)了短語、短句效果,同時改進(jìn)了前端文本處理過程:
·語氣詞處理
語氣的應(yīng)用,例如“是嗎?”“為什么呢?”“。 钡。
在InterPhonic CE2.2以前的合成系統(tǒng)中不包含語氣詞的合成,對這些語氣的處理都按照陳述語在一些語音應(yīng)用中存在者一些非陳述氣進(jìn)行,這種處理影響了語音應(yīng)用的效果。InterPhonic CE 2.2引進(jìn)了語氣詞合成的處理,能夠處理疑問、感嘆等語氣效果。這樣使得這些生活中常用的語句真正做到人性化,讓用戶體驗(yàn)到親切感。
·短語合成效果改進(jìn)
InterPhonic CE 2.2在音庫中補(bǔ)充了一定的短句語料,擴(kuò)大短句語料的覆蓋面,同時在前端文本分析中加入了短語語境的判斷和處理。改進(jìn)之后的系統(tǒng)在合成一些包含大量短句、短語的文本時效果上有比較明顯的提升,例如人名、地名、短語合成。這種特性讓系統(tǒng)的使用范圍得到進(jìn)一步加強(qiáng)。
·前端韻律算法改進(jìn)
InterPhonic CE v2.2中通過對詞類調(diào)整和未登錄詞算法的改進(jìn),提高了韻律樹生成準(zhǔn)確率,改進(jìn)了合成自然度?梢允购铣傻穆曇舾雍椭C,愉悅聽眾的耳朵。
TTS Server Express提供了對基于網(wǎng)絡(luò)的TTS服務(wù)支持,是企業(yè)版合成系統(tǒng)的重要組成部分,TTS網(wǎng)絡(luò)應(yīng)用的核心。TTS Server Express v1.2在功能、易用性等各方面進(jìn)行了一次全面的提升。
從InterPhonic CE v2.1版本以后,CSSML規(guī)范已經(jīng)成為科大訊飛合成系統(tǒng)的一個重要部分,后期系統(tǒng)還將不斷擴(kuò)大CSSML規(guī)范的支持范圍。CSSM具有兼容VoiceXML的嚴(yán)謹(jǐn)語法格式,并提供了功能豐富的標(biāo)記。CSSML Editor提供了簡單易用的CSSML可視化編輯環(huán)境,使得用戶可以快速高效地生成CSSML標(biāo)記文本。
InterPhonic CE 2.2系統(tǒng)保持處理CSSML格式的文本的特性。在后續(xù)的版本,訊飛依然會加強(qiáng)對CSMML規(guī)范的支持力度。用戶可以對需要合成的文本進(jìn)行編輯,將其編輯為CSSML格式的文本,對一些特殊用法、發(fā)音習(xí)慣進(jìn)行單獨(dú)標(biāo)記,用以指導(dǎo)合成系統(tǒng)的合成,就可以提高合成效果、解決合成系統(tǒng)無法正確合成的多種問題。