1. 掌上電腦
1.1 捷通華聲TTS在掌上電腦上的應用
由于掌上電腦的屏幕太小,閱讀信息很不方便,這形成了信息獲取的一個瓶頸。人們對掌上電腦追求是越來越小巧,但是越小,這個瓶頸就越發(fā)突出。雖然各個廠家都在大力發(fā)展掌上電腦的應用軟件,尤其是互聯(lián)網(wǎng)應用的軟件,使其能夠收發(fā)郵件,瀏覽網(wǎng)頁,但是面對互聯(lián)網(wǎng)上的大量信息,如果都通過一個比手掌還小的屏幕去閱讀,其難度可想而知。不僅眼睛容易疲勞,不停滾屏也需要很大的耐心。因此,如果我們能夠在掌上電腦上應用語音合成技術,通過"聽"而不是"看"來讀取大量的信息,就可以打破瓶頸的束縛,為掌上電腦的進一步普及提供一個很有力的基礎。
掌上電腦的內存存儲容量十分小,而且沒有硬盤一類的外部存儲設備,這些因素導致了很多在臺式微機上得到很好應用的軟件無法在嵌入式操作系統(tǒng)環(huán)境下運行,TTS系統(tǒng)也是如此。普通的TTS技術需要20M以上的音庫才能完成男女聲的語音合成,顯然不能完成在掌上電腦的應用,而捷通華聲公司的TTS具有音庫壓縮技術和音色轉化技術,從而使捷通華聲TTS技術在掌上電腦上的應用成為可能。
1.2 捷通華聲TTS在嵌入式操作系統(tǒng)應用歷程
三年來,捷通華聲公司積累了將TTS技術與其他應用軟件相結合的豐富經驗("錄易"漢語智能輸入輸出系統(tǒng)),TTS技術向其他硬件系統(tǒng)上移植的核心技術(TTS在電話語音卡上的開發(fā)),為我們實現(xiàn)TTS技術向嵌入式操作系統(tǒng)的移植打下了堅實的技術基礎,并保持業(yè)已形成的領先優(yōu)勢。
我們成功實現(xiàn)了捷通華聲TTS在"天權2000+"上的移植。在"天權2000+"上移植實驗的成功表明捷通華聲公司已經具備了向嵌入式操作系統(tǒng)移植中文語音技術的能力,為全面進入產品化階段打下了基礎。
2000年10月,捷通華聲公司成功推出國內第一套應用于掌上電腦的語音軟件--語音伴侶-CE版。該軟件成功實現(xiàn)掌上電腦"開口說話",為解決嵌入式設備獲取信息的"瓶頸"難題提供了一套嶄新的方案。掌上電腦等嵌入式設備的軟件應用已成為現(xiàn)實。
2001年7月,捷通華聲公司推出了目前世界領先的嵌入式TTS漢語語音合成技術,推動了語音技術在嵌入式中應用的發(fā)展。
1.3 捷通華聲TTS在掌上電腦的解決方案案
捷通華聲公司的TTS技術與其他文語轉換系統(tǒng)相比具有獨特的音庫壓縮等特點,使捷通華聲TTS技術向嵌入式操作系統(tǒng)的移植(尤其是向PDA上的移植)具備先決條件。據(jù)市場調研及考證:捷通華聲公司是最早掌握該技術,及最先提出在掌上電腦應用該技術的公司。該系統(tǒng)在2001年中關村電腦節(jié)上榮獲"十大IT創(chuàng)新產品"。
捷通華聲公司的TTS技術(jTTS),是具有自我版權的TTS技術,以大規(guī)模真實錄音的語音庫為基礎,增加音庫壓縮算法和音色變換算法形成核心技術。此核心技術與國內其他文語轉換技術相比較,具有如下特點:
· 系統(tǒng)輸出語音清晰度高。
· 系統(tǒng)輸出具有非常好的自然度。
· 音庫大小可縮擴,小音庫僅為1MB。
· 合成速度快。
正是因為捷通華聲TTS具有以上的特點,使得捷通華聲公司的TTS技術可以向嵌入式操作系統(tǒng)移植。特別是小音庫和音色轉換的特點,使得在嵌入式操作系統(tǒng)下不會占用太大的資源。
捷通華聲公司語音合成技術向WinCE操作系統(tǒng)環(huán)境下移植的技術已經成熟,進入到應用階段。庫大小為1M,運行空間在2M左右,完全可以滿足掌上電腦應用的需要。
捷通華聲公司提供最新的WinCE環(huán)境下的語音合成開發(fā)工具包(jTTS-ce SDK),掌上電腦應用程序的開發(fā)廠商可以利用此SDK在其自己的應用中加入語音合成的功能。另外,捷通華聲公司還可提供WinCE版本下的"語音伴侶",提供閱讀電子文檔和有聲鬧鐘的功能,以供掌上電腦的生產廠家選用。
目前捷通華聲公司已經在不同的操作系統(tǒng)和硬件環(huán)境中進行了移植,操作系統(tǒng)包括:Hopen、Linux、Nucleus、WinCE 2.11 (Palm PC)、WinCE 3.0 (Pocket PC, Pocket PC 2002), WinCE .NET、Penbex等;CUP包括:MIPS、DragonBall,、StrongARM、ARM7、X86等。
2.1 TTS在信息家電中的應用
應該說,無論從商業(yè)角度還是從促進用戶接觸互聯(lián)網(wǎng)的社會意義上來說機頂盒都是很好的概念。然而我們發(fā)現(xiàn)機頂盒的銷售并不理想。據(jù)我們的分析,有聲的電視機變成了無聲的網(wǎng)絡瀏覽器是用戶并不習慣使用的一個很大的原因。我們注意到,多年以來,人們已經習慣將電視機作為家庭生活的一個娛樂中心,圖像和聲音必不可少,而在目前的機頂盒系統(tǒng)中,人們在電視前默默無聲地閱讀網(wǎng)頁信息。從開始對商品的認織習慣來說,人們對"熱鬧慣了"的電視機變成了一個"啞口無言"的顯示器,可能會很不習慣。因此,引入語音合成技術會對機頂盒的推廣有很大地促進作用。
語音一直是人們生活中最重要的交流手段,在一些新式的信息家電中,也采用了語音的方式來通知用戶狀態(tài)或信息,但一般都是采用錄音回放的方式,無法實現(xiàn)對任意文本的閱讀。對于需要上網(wǎng)的信息家電來說,所閱讀的信息肯定是任意的而非事先固定的。這也正是語音合成技術的用武之地。
在信息家電中使用語音合成技術的難點和掌上電腦的情況是一樣的,需要較小的庫和運行內存。
2.2 捷通華聲TTS在信息家電中的解決方案
類似于掌上電腦,在WinCE操作系統(tǒng)下,捷通華聲公司已經推出了實用的語音合成技術。捷通華聲公司可以向其它廠商提供捷通華聲TTS開發(fā)工具包(jTTS-ce SDK)。捷通華聲公司也將根據(jù)不同用戶的需求將語音合成技術移植到HOPEN等不同的操作系統(tǒng)中。
另外,捷通華聲公司將會投入精力在語音合成技術的硬件實現(xiàn)上,例如用DSP(數(shù)字信號處理)芯片來實現(xiàn),以便使語音合成技術更好地為信息家電服務。
3. 其它
我們所列舉的嵌入式應用只是幾個最具有代表性的領域,類似的嵌入式應用還有很多,如WAP手機、可以講故事的玩具等。在這些領域中,由于沒有操作系統(tǒng),語音合成主要的實現(xiàn)手段將是芯片技術,這也正是捷通華聲公司今后研究的目標之一。
值得關注的是,捷通華聲還同時提供嵌入式手寫識別技術和嵌入式語音識別技術,并將它們有機的結合起來,實現(xiàn)一個完整的嵌入式整體解決方案。相信該方案能為今后各類手持設備、信息家電設備提供必不可少的實用功能。
捷通華聲公司供稿 CTI論壇編輯