科大訊飛車載導(dǎo)航語音合成系統(tǒng)探析
2009/09/30
從全球汽車產(chǎn)業(yè)發(fā)展?fàn)顩r來看,智能語音技術(shù)在車載導(dǎo)航中的應(yīng)用是一種新的、必然的趨勢。傳統(tǒng)的車載導(dǎo)航產(chǎn)品,是用眼睛看的方式獲取相關(guān)信息,對汽車駕駛者而言存在一定的安全隱患。智能語音技術(shù)在車載導(dǎo)航中的應(yīng)用,變看為聽,極大提升了汽車駕駛的舒適性與安全性。
目前,國內(nèi)車載導(dǎo)航制造廠商就語音技術(shù)在車載導(dǎo)航中的應(yīng)用已經(jīng)達成了廣泛的共識,都在積極尋求智能語音技術(shù)提供商。那么,各車載導(dǎo)航制造廠商如何才能選購一款符合消費者使用需求的優(yōu)質(zhì)語音合成系統(tǒng)?基于對語音合成技術(shù)的開發(fā)應(yīng)用研究以及與車載導(dǎo)航廠商的合作經(jīng)驗,作為國內(nèi)最大智能語音技術(shù)提供商的科大訊飛建議:車載導(dǎo)航廠商選購語音合成系統(tǒng),可從以下4個方面進行考量。
地名、路名的準(zhǔn)確播報
在實時的導(dǎo)航過程中,需要播報大量動態(tài)的地名和路名,傳統(tǒng)的真人錄音無法實現(xiàn)對如此海量數(shù)據(jù)的處理,導(dǎo)航設(shè)備的資源存儲空間有限,也無法容納大量的聲音文件。隨著全國城市建設(shè)的提速,每過一段時間,就會有新的導(dǎo)航地圖發(fā)布、使用。如此的更新速度,也是傳統(tǒng)真人錄音手段望塵莫及的。而利用語音合成技術(shù)可輕松解決這一難題,將海量、動態(tài)的信息實時轉(zhuǎn)化為語音播報給用戶。
中國地大物博、文化豐富,存在太多生僻地名、路名,有時普通大眾也不知道如何發(fā)音。生僻字、多音多義字大量存在,這就要求導(dǎo)航產(chǎn)品所選用的語音系統(tǒng)能夠?qū)崿F(xiàn)地名、路名的準(zhǔn)確播報,充分保證語音播報的質(zhì)量和正確率。不恰當(dāng)或者錯誤的路名播報會誤導(dǎo)用戶行車方向以及浪費旅途時間,會給用戶帶來巨大的困擾甚至安全問題,直接影響到用戶對車載導(dǎo)航產(chǎn)品的使用感受和信任度。
具備“語隨文變”的優(yōu)質(zhì)語音合成效果
語音服務(wù)不僅實現(xiàn)了便捷化、人性化的操作,更重要的是保證了駕駛者的安全。如何讓駕駛者無需繁雜操作就可以第一時間了解所需信息,清晰、流暢、自然準(zhǔn)確的語音合成效果顯得至關(guān)重要。
導(dǎo)航過程中,語音合成系統(tǒng)應(yīng)具備文本的自然播報以及強大的智能處理能力,真正實現(xiàn)語隨文變。部分導(dǎo)航文本具有特殊性,播報時需要考慮它們在日常導(dǎo)航里的通用稱謂,例如G101——幺零幺國道;S309——三零九省道等等。漢語的詞語、成語和一般語境中有不少多音字,這就需要語音導(dǎo)航根據(jù)上下文和語境判斷這些多音字的讀音,同時還考慮到人名、地名等一些特殊情況。
另外,語音合成系統(tǒng)還必須根據(jù)上下文和語境正確判斷一些常見標(biāo)點符號、特殊符號的合成效果,如 “$0.50”與“敖東/北大街”,應(yīng)合成為“零點五零美元”、“敖東*北大街”。
與硬件設(shè)備的融合
語音合成系統(tǒng)能否與導(dǎo)航設(shè)備完美融合一直是車載導(dǎo)航制造廠商考察智能語音技術(shù)合作伙伴的關(guān)鍵。優(yōu)秀的語音合成系統(tǒng)應(yīng)該具備強大的兼容性,實現(xiàn)內(nèi)核與平臺無關(guān),任何平臺只需簡單配置、編譯,即可完成移植。
此外,嵌入式環(huán)境下資源空間非常寶貴,語音合成系統(tǒng)應(yīng)該在系統(tǒng)架構(gòu)、代碼實現(xiàn)、資源結(jié)構(gòu)等方面進行大量的優(yōu)化工作,降低運算資源和存儲資源的需求。即使是一些低端的平臺,也能夠從容運行。同時,語音合成系統(tǒng)應(yīng)該提供不同的輸出采樣率,滿足各種播音設(shè)備,真正適應(yīng)不同的平臺需求。
娛樂化需求設(shè)計
長途的行駛過程中,同一種語音播報會讓用戶感到單調(diào)。如果語音技術(shù)提供商能夠提供不同發(fā)音人、方言發(fā)音以及定制特殊發(fā)音人等個性化需求設(shè)計,將會使駕駛旅途變得更輕松愉快。
娛樂化需求設(shè)計表現(xiàn)在一些人性化的設(shè)計上,如支持菜單播報、開機問候語、語音提醒等功能。不論是固定文本還是動態(tài)文本,如“下班先去玩具店給兒子買禮物”,既能省去真人錄音的工作及其占用的寶貴空間,又能解決真人發(fā)音無法應(yīng)對處理的動態(tài)文本問題。
未來,語音合成系統(tǒng)將成為車載內(nèi)信息獲取、互動娛樂、程序操控的重要工具,這就需要語音技術(shù)提供商重點考慮語音車載導(dǎo)航的更廣泛的需求設(shè)計。
CTI論壇編輯
相關(guān)鏈接: