首頁>>>技術>>>語音應用>>>語音識別(ASR)  語音識別產(chǎn)品



華鎮(zhèn)電子嵌入式語音識別系統(tǒng)Wanson ASR Chip1.0

2008/02/27

1、Wanson ASR Chip1.0 概述

  Wanson ASR Chip1.0 是專門為微小芯片上而開發(fā)的嵌入式語音識別引擎。 隨著語音識別系統(tǒng)的識別準確率和識別速度的提高以及在特定環(huán)境下對硬件條件的要求越來越低,將基于微小芯片的語音識別技術嵌入消費類電子產(chǎn)品中越來越成為現(xiàn)實。隨著消費類電子產(chǎn)品性能變得越來越混雜功能越來越強勁,語音識 別科技就可以使消費者可以更方便、更直觀地使用這些產(chǎn)品。并且,在使用這些 產(chǎn)品的時候不會伴隨著一系列的按鍵和提示音,而是實現(xiàn)消費者和產(chǎn)品間的直接對話。嵌入式語音識別在消費類電子產(chǎn)品市場應用上大約分成三類:手提設備,游戲/ 玩具以及汽車。手提設備中,智能電話Smartphone的發(fā)展驅(qū)動著這類市場的蓬 勃興起。在Smartphone中,語音撥號已經(jīng)成為一個普遍功能,幾乎每一家手機 芯片供應商都想要提供內(nèi)嵌語音撥號功能的手機。但是直到最近,這些嵌入式語 音識別都只能限于話者相關,小詞匯量的。

  我們已經(jīng)開發(fā)出能安裝在智能手機Smartphone上的連續(xù)語音及短語語音識別軟 件,可以為用戶提供語音撥號和聲音命令控制等功能。同時,我們正在開發(fā)基于 更小封裝、微小芯片上的話者獨立,可變詞匯量的語音識別軟件。這些軟件可以 作用在智能手機Smartphone,CDMA/2.5G/3.5G 芯片,智能玩具以及汽車的導航 系統(tǒng)上。我們開發(fā)的嵌入式語音識別軟件使用了改進的Hidden Markov Model(HMM)聲學模型,同時基于移動設備上的有限CPU 資源和存儲空間,我們開發(fā)出 了快速的語音參數(shù)提取方法和高效識別搜索算法。該語音識別軟件兼顧到識別速 度和識別準確率的平衡,能運用于一系列從語音命令控制,語音人名撥號到語音 翻譯,語言學習的實際應用中。 將嵌入式語音識別軟件應用到消費類電子產(chǎn)品中并投入市場有兩個主導因素:花 費成本和投入市場的時間。我們所開發(fā)的語音識別軟件(基于Smartphone 的以 及基于微小芯片上的)提供了優(yōu)異的性能,跟多家芯片和手機制造商接口的標準 界面以及一系列開發(fā)工具兼容,使得我們的OEM 伙伴能快速地推出他們的新產(chǎn)品。

2.Wanson ASR Chip1.0 系統(tǒng)描述

  2.1 系統(tǒng)框圖及概述

  Wanson ASR Chip1.0 是一套功能強大,具有全部開發(fā)工具的語音識別系統(tǒng),使 開發(fā)者可以方便而快速地開發(fā)出一系列不同的應用。Wanson ASR Chip1.0 提供 的特性包括有:

  上圖示為Wanson ASR Chip1.0 的系統(tǒng)框圖。如圖所示,由系統(tǒng)所構(gòu)筑的語音識 別應用程序和四部分相結(jié)合。對語音識別而言,將接收到的語音文件包通過錄音 接口傳給語音識別引擎。該引擎在執(zhí)行語音識別任務時,根據(jù)系統(tǒng)指令從資源文 件中調(diào)用所需要的語言模型,聲學模型,字典等資源。當語音識別任務完成后, 系統(tǒng)將識別出來的結(jié)果放在系統(tǒng)隊列中,供下級設備讀取。

  2.2 應用程序開發(fā)

  開發(fā)具有嵌入式語音識別功能的應用程序大約需要以下的步驟: 3.硬件環(huán)境

  Wanson ASR Chip1.0 是模塊式的系統(tǒng)體系,單處理器處理所有模塊程序的運行。 下圖示出系統(tǒng)在運行時主要硬件元素的工作流程。
  前端模塊

  前端模塊主要包括語音信號處理和參數(shù)提取,將原始的語音文件轉(zhuǎn)換成語音識別需要的語音參數(shù)序列。在某些特定的情況下,前端模塊還需要進行噪聲處理和聲 道歸一化處理以提高系統(tǒng)的魯棒性(Robust ability)。前端語音信號處理和參數(shù) 提取需要大量的數(shù)值計算,CPU 的運算能力以及RAM 的速度會對響應速度有很大影響。

  后端模塊

  后端模塊是語音識別的核心部分,完成從語音到文本的轉(zhuǎn)換。該部分包括:語法生成、調(diào)入聲學和語言模型以及發(fā)音字典、路徑搜索等。該部分需要大量的概率和數(shù)值計算,并且需要多次訪問和調(diào)用聲學模型和發(fā)音字典等資源文件。一般情 況下,聲學模型和字典等資源將預先調(diào)入ROM 和閃存(Flash Memory)。 影響語音識別響應速度的因素主要有:CPU 性能,Memory 的存取速度以及CPU 是否過載等等。對于CPU 的運算能力,一般而言,在不同的系統(tǒng)配置下,需要 做到實時識別并且不影響其他任務執(zhí)行所需要的最低配置為6MIPS (取決于識 別詞匯量大小和硬件配置等)。

  語音合成

  語音合成部分完成從文本到音的轉(zhuǎn)換,主要是將語音識別輸出的文本轉(zhuǎn)換成語音播報給用戶。在某些特定的情況下,例如在開車的時候,用戶可以方便的聽到識別結(jié)果而不需要去看。

  RAM和ROM需求

  對于嵌入式的語音識別系統(tǒng),RAM 和ROM 的大小需求是由應用系統(tǒng)的功能設 計所決定的。同時,不同的RAM 和ROM 大小又影響著識別的準確率和響應速 度。一般情況下,較大的RAM 和ROM 存儲空間和快速的RAM和ROM 速度更 有利于識別速度和識別準確率的提高。更多的情況下,在實際應用中,考慮到性 能價格比,一般會選擇適當?shù)腞AM 和ROM 尺寸以達到速度和識別率的平衡。 如下表所示:

  表中所列的RAM和ROM的空間需求是一個近似數(shù)字

4.功能及特性

  Wanson ASR Chip1.0 嵌入式語音識別系統(tǒng)提供了一系列獨到的功能和特性,以 適應不同的開發(fā)廠商的需求。

  話者獨立 該軟件無需事先對用戶的語音訓練,任何人拿起來均可使用;

  獨特的口音的處理技術 用戶不用說播音員般標準的普通話,全國各地帶有口音的用戶亦可以毫無問題得順暢使用該系統(tǒng);

  高識別率 在一定的硬件環(huán)境下,一次性載入詞匯量達到1000 中文詞條時,平均準確率達 到95%以上,并且實時識別;

  可移植的代碼 軟件采用標準C 書寫核心算法,使得該軟件能很快地移植到其他操作系統(tǒng)和處理器上;

  小封裝,低系統(tǒng)配置 如前所述,Wanson ASR Chip1.0 對系統(tǒng)硬件資源要求很少,因此可以適用于一 系列消費類電子產(chǎn)品上,例如:   在線更改語音資源 用戶在每次增加/刪減/更改詞匯集合后,無需關閉和重新啟動應用程序,系統(tǒng)可以即時在線更新系統(tǒng)資源,使用戶可以馬上使用;

  環(huán)境噪音 該系統(tǒng)帶有噪音消除技術,對于應用環(huán)境噪音一定范圍之內(nèi),仍可保證高識別率;

  動態(tài)詞匯庫 適用在不同的硬件條件下,詞匯集合可以從零到1000 詞條,采用系統(tǒng)軟件開發(fā) 包,可以方便創(chuàng)建新的詞匯以適用于不同的應用(例如:命令控制集,地址簿, 人名等等)。

CTI論壇編輯



相關鏈接:
基立訊jTalk語音通信平臺產(chǎn)品介紹 2007-11-29
Nuance 8.5語音識別產(chǎn)品 2007-09-05
VBVoice使AdGeo能夠定制呼叫跟蹤和報告的解決方案 2007-04-26
Automated采用VBVoice快速開發(fā)語音圖書館編目系統(tǒng) 2007-04-09
捷通華聲語音電話本業(yè)務解決方案 2006-12-26

分類信息: