科大訊飛電話語音識別InterReco
2.0——產品簡介
2008/08/11
一、產品概述
電話語音識別引擎InterReco2.0可以為自助式電話語音系統(tǒng)提供完善的語音識別技術解決方案。集成InterReco2.0的自助式語音系統(tǒng)能夠為客戶提供全天候的優(yōu)質語音服務,從而確保以較低的投入顯著提高客戶滿意度。
科大訊飛電話語音識別產品整合了科大訊飛研究院、清華訊飛語音實驗室及科大訊飛語音實驗室在語音識別技術上多年的積累,專門針對中文語音識別的技術特點進行了全面優(yōu)化。對于中文語音識別應用中經常面臨的方言口音、復雜信道和背景噪聲等問題,依據從實際業(yè)務系統(tǒng)中收集的涵蓋不同方言和不同環(huán)境噪聲的海量語音數據,采用最新的區(qū)分性訓練方法進行語音建模,從而使InterReco2.0在復雜應用環(huán)境下可以擁有良好的一致性效果表現,核心技術效果達到國際領先。InterReco2.0產品架構上延用了科大訊飛在語音合成中久經錘煉的高穩(wěn)定分布式語音平臺,可以滿足電信級應用的高可靠性要求。
二、產品功能:
InterReco2.0在復雜環(huán)境的識別效果均有不俗表現,產品考慮了呼叫中心、增值服務中的不同應用特點,易于開發(fā)集成及進行業(yè)務開發(fā),主要功能有如下:
- 大詞匯量、獨立于說話人的健壯識別功能
識別系統(tǒng)能對多種語言進行大詞匯量的識別,在中文識別方面使用了訊飛TTS引擎使用的詞典和文本分析技術,能夠對語法內容進行分詞處理,保證多音字的識別效果。
- 端點檢測與打斷(End Pointer && Barge-In)
端點檢測是對輸入的音頻流確定語句的起始和終止的處理過程。當找到語句的起始和終止點后,語句區(qū)向前后分別延伸預定的長度。一旦檢測到語句的起始點,語音開始流向識別引擎,直到檢測到語句的終止點。通過這種方式,識別引擎在用戶在講話的同時,已經開始處理講話的內容,而又不需要處理語音的起止處多余的靜音,從而節(jié)約CPU時間和網絡帶寬。
打斷功能使用戶可以打斷提示、作出響應,無需等到提示音結束播放。打斷功能使得用戶和系統(tǒng)間的交流更加快捷、自然,特別是系統(tǒng)的熟練用戶。
- 多識別結果和置信度(N-Best && CM)
對于有些應用程序,可能需要識別引擎產生可能的識別結果集,而不是一個最好的結果。系統(tǒng)提供了可能的識別結果列表,并按可能性從高到低排列。
語音識別引擎在返回識別結果時會攜帶該識別結果的置信度,對多個識別結果給出其可能性的指標,準確的置信度輸出可以為識別結果的分析和后續(xù)處理提供依據,改善在用戶語音不清晰、語義不明確時的效果體驗。
- 語音錄入(Voice Enrollment)
允許用戶通過本人語音來向動態(tài)語法增加命令或詞表。這種方式不但能夠有效利用用戶個性化的語音,提高系統(tǒng)的識別準確率;而且能夠提高用戶輸入詞表的方便性和靈活性。例如,在語音通訊錄的應用中,用戶可以通過語音的方式來添加通訊錄,從而使用戶可以隨時隨地修改自己的通訊錄。
- 動態(tài)語法
動態(tài)語法是由應用程序在運行時動態(tài)創(chuàng)建和修改的語法。這在應用程序詞匯必須在運行時才能完全確定的情況下是必不可少的。
- 呼叫日志(Call Logging)
語音識別的調用日志在系統(tǒng)中有著非常重要的作用,該日志記錄了輸入的音頻、加載的語法、識別過程的中間結果、識別模塊調用過程、識別使用的各種參數、識別結果以及當時的系統(tǒng)環(huán)境信息。這些數據是效果分析的依據,詳盡的Call-Log是效果優(yōu)化的基礎。
- 說話人自適應
當用戶多次使用同一識別系統(tǒng)時,識別引擎能夠逐步適應其口音,使該使用者的識別效果逐步提高。同時,如果預先給定特定說話人的數據,系統(tǒng)可以針對特定說話人進行自適應訓練以獲得更加適合其發(fā)音特征的語音模型,使該說話人在使用系統(tǒng)時,識別效果更好。
- 多槽識別
語音識別的槽(Slot)代表一個關鍵字,即在一次識別中可以識別多個關鍵字,這種識別模式可以提高語音識別的使用效率和用戶體驗。
- 模型自適應
針對每個應用專門優(yōu)化通用模型從而更加適合應用:包括方言和口音的說話人特征,無線設備、VoIP設備等通道特征,詞匯和環(huán)境噪聲等應用特征。
InterReco2.0除了在核心技術指標上一系列優(yōu)異的表現外,針對語音識別集成開發(fā)和業(yè)務實現難的問題,InterReco2.0還提供了一整套易用的開發(fā)接口和工具,使語音識別應用的合作伙伴可以基于該引擎方便的開發(fā)應用系統(tǒng),并通過所提供的工具及時發(fā)現開發(fā)中出現的問題。此外InterReco2.0在業(yè)務實現階段,提供了簡單易用的語法設計和實現方式,用戶甚至寫漢字就可以實現語音識別語法的編寫,系統(tǒng)還提供了語法向導,其中已經內置了常用業(yè)務語法,使用戶可以更簡單的使用語音識別系統(tǒng)。相信隨著科大訊飛發(fā)布國際領先的電信級中文語音識別產品,通過和合作伙伴的共同努力,語音識別將為合作伙伴帶來更大的增值空間,中文語音識別產業(yè)將獲得更快的發(fā)展。
CTI論壇編輯
相關鏈接: