華鎮(zhèn)電子嵌入式語音識別系統(tǒng)Wanson ASR Chip1.0_語音識別_CTI論壇

首頁>>>技術>>>語音應用>>>語音識別(ASR)　　語音識別產(chǎn)品

華鎮(zhèn)電子嵌入式語音識別系統(tǒng)Wanson ASR Chip1.0

2008/02/27

1、Wanson ASR Chip1.0 概述

　　Wanson ASR Chip1.0 是專門為微小芯片上而開發(fā)的嵌入式語音識別引擎。隨著語音識別系統(tǒng)的識別準確率和識別速度的提高以及在特定環(huán)境下對硬件條件的要求越來越低，將基于微小芯片的語音識別技術嵌入消費類電子產(chǎn)品中越來越成為現(xiàn)實。隨著消費類電子產(chǎn)品性能變得越來越混雜功能越來越強勁，語音識別科技就可以使消費者可以更方便、更直觀地使用這些產(chǎn)品。并且，在使用這些產(chǎn)品的時候不會伴隨著一系列的按鍵和提示音，而是實現(xiàn)消費者和產(chǎn)品間的直接對話。嵌入式語音識別在消費類電子產(chǎn)品市場應用上大約分成三類：手提設備，游戲/ 玩具以及汽車。手提設備中，智能電話Smartphone的發(fā)展驅(qū)動著這類市場的蓬勃興起。在Smartphone中，語音撥號已經(jīng)成為一個普遍功能，幾乎每一家手機芯片供應商都想要提供內(nèi)嵌語音撥號功能的手機。但是直到最近，這些嵌入式語音識別都只能限于話者相關，小詞匯量的。

　　我們已經(jīng)開發(fā)出能安裝在智能手機Smartphone上的連續(xù)語音及短語語音識別軟件，可以為用戶提供語音撥號和聲音命令控制等功能。同時，我們正在開發(fā)基于更小封裝、微小芯片上的話者獨立，可變詞匯量的語音識別軟件。這些軟件可以作用在智能手機Smartphone，CDMA/2.5G/3.5G 芯片，智能玩具以及汽車的導航系統(tǒng)上。我們開發(fā)的嵌入式語音識別軟件使用了改進的Hidden Markov Model(HMM)聲學模型，同時基于移動設備上的有限CPU 資源和存儲空間，我們開發(fā)出了快速的語音參數(shù)提取方法和高效識別搜索算法。該語音識別軟件兼顧到識別速度和識別準確率的平衡，能運用于一系列從語音命令控制，語音人名撥號到語音翻譯，語言學習的實際應用中。將嵌入式語音識別軟件應用到消費類電子產(chǎn)品中并投入市場有兩個主導因素：花費成本和投入市場的時間。我們所開發(fā)的語音識別軟件（基于Smartphone 的以及基于微小芯片上的）提供了優(yōu)異的性能，跟多家芯片和手機制造商接口的標準界面以及一系列開發(fā)工具兼容，使得我們的OEM 伙伴能快速地推出他們的新產(chǎn)品。

2.Wanson ASR Chip1.0 系統(tǒng)描述

　　2.1 系統(tǒng)框圖及概述

　　Wanson ASR Chip1.0 是一套功能強大，具有全部開發(fā)工具的語音識別系統(tǒng)，使開發(fā)者可以方便而快速地開發(fā)出一系列不同的應用。Wanson ASR Chip1.0 提供的特性包括有：

該語音識別軟件附帶了一系圖形化界面的軟件開發(fā)包，使廠商可以很快在現(xiàn)有的產(chǎn)品上增加語音識別功能；

秉承Wanson ASR電信級語音識別軟件的高準確率和穩(wěn)定性，持續(xù)提高客戶意度；

軟件采用標準C書寫核心算法，使得該軟件能很快地移植到其他操作系統(tǒng)和處理器上；

提供了常規(guī)的，功能強大的API 接口，能夠很方便地與設備上的現(xiàn)有軟件集成．

　　上圖示為Wanson ASR Chip1.0 的系統(tǒng)框圖。如圖所示，由系統(tǒng)所構(gòu)筑的語音識別應用程序和四部分相結(jié)合。對語音識別而言，將接收到的語音文件包通過錄音接口傳給語音識別引擎。該引擎在執(zhí)行語音識別任務時，根據(jù)系統(tǒng)指令從資源文件中調(diào)用所需要的語言模型，聲學模型，字典等資源。當語音識別任務完成后，系統(tǒng)將識別出來的結(jié)果放在系統(tǒng)隊列中，供下級設備讀取。

　　2.2 應用程序開發(fā)

　　開發(fā)具有嵌入式語音識別功能的應用程序大約需要以下的步驟：

性能的定義開發(fā)商在開發(fā)應用程序時，首先要定義的是準備給用戶提供什么樣的特性和功能。例如，喚醒功能（該引擎可以使產(chǎn)品工作在待機狀態(tài)，等待清晰的喚醒命令，啟動語音識別軟件工作）等等；

現(xiàn)有硬件環(huán)境分析定義完性能之后，需要結(jié)合現(xiàn)有設備的硬件條件分析能否支持上述性能的實現(xiàn)。如果必須的話，是否需要另加RAM 和ROM，或者提高CPU的速度；

用戶界面的設計因為是基于消費類電子產(chǎn)品開發(fā)的應用程序，用戶界面是否友好事關重大。Wanson ASR Chip1.0 提供了一系列的開發(fā)包模擬運行環(huán)境，可以不斷調(diào)試，知道滿意為止；

開發(fā) 以上所有步驟完成之后，可以進行代碼編寫和集成的工作。

3.硬件環(huán)境

　　Wanson ASR Chip1.0 是模塊式的系統(tǒng)體系，單處理器處理所有模塊程序的運行。下圖示出系統(tǒng)在運行時主要硬件元素的工作流程。

　　前端模塊

　　前端模塊主要包括語音信號處理和參數(shù)提取，將原始的語音文件轉(zhuǎn)換成語音識別需要的語音參數(shù)序列。在某些特定的情況下，前端模塊還需要進行噪聲處理和聲道歸一化處理以提高系統(tǒng)的魯棒性（Robust ability）。前端語音信號處理和參數(shù) 提取需要大量的數(shù)值計算，CPU 的運算能力以及RAM 的速度會對響應速度有很大影響。

　　后端模塊

　　后端模塊是語音識別的核心部分，完成從語音到文本的轉(zhuǎn)換。該部分包括：語法生成、調(diào)入聲學和語言模型以及發(fā)音字典、路徑搜索等。該部分需要大量的概率和數(shù)值計算，并且需要多次訪問和調(diào)用聲學模型和發(fā)音字典等資源文件。一般情況下，聲學模型和字典等資源將預先調(diào)入ROM 和閃存(Flash Memory)。影響語音識別響應速度的因素主要有：CPU 性能，Memory 的存取速度以及CPU 是否過載等等。對于CPU 的運算能力，一般而言，在不同的系統(tǒng)配置下，需要做到實時識別并且不影響其他任務執(zhí)行所需要的最低配置為6MIPS （取決于識別詞匯量大小和硬件配置等）。

　　語音合成

　　語音合成部分完成從文本到音的轉(zhuǎn)換，主要是將語音識別輸出的文本轉(zhuǎn)換成語音播報給用戶。在某些特定的情況下，例如在開車的時候，用戶可以方便的聽到識別結(jié)果而不需要去看。

　　RAM和ROM需求

　　對于嵌入式的語音識別系統(tǒng)，RAM 和ROM 的大小需求是由應用系統(tǒng)的功能設計所決定的。同時，不同的RAM 和ROM 大小又影響著識別的準確率和響應速度。一般情況下，較大的RAM 和ROM 存儲空間和快速的RAM和ROM 速度更有利于識別速度和識別準確率的提高。更多的情況下，在實際應用中，考慮到性能價格比，一般會選擇適當?shù)腞AM 和ROM 尺寸以達到速度和識別率的平衡。如下表所示：

　　表中所列的RAM和ROM的空間需求是一個近似數(shù)字

4.功能及特性

　　Wanson ASR Chip1.0 嵌入式語音識別系統(tǒng)提供了一系列獨到的功能和特性，以適應不同的開發(fā)廠商的需求。

　　話者獨立 該軟件無需事先對用戶的語音訓練，任何人拿起來均可使用；

　　獨特的口音的處理技術 用戶不用說播音員般標準的普通話，全國各地帶有口音的用戶亦可以毫無問題得順暢使用該系統(tǒng)；

　　高識別率 在一定的硬件環(huán)境下，一次性載入詞匯量達到1000 中文詞條時，平均準確率達到95％以上，并且實時識別；

　　可移植的代碼 軟件采用標準C 書寫核心算法，使得該軟件能很快地移植到其他操作系統(tǒng)和處理器上；

　　小封裝，低系統(tǒng)配置 如前所述，Wanson ASR Chip1.0 對系統(tǒng)硬件資源要求很少，因此可以適用于一系列消費類電子產(chǎn)品上，例如：

PDA，Smart phone

CDMA，GSM，GPS 手機

MP3 播放器

玩具

車載GPS 系統(tǒng)

其他手提設備

　　在線更改語音資源 用戶在每次增加/刪減/更改詞匯集合后，無需關閉和重新啟動應用程序，系統(tǒng)可以即時在線更新系統(tǒng)資源，使用戶可以馬上使用；

　　環(huán)境噪音 該系統(tǒng)帶有噪音消除技術，對于應用環(huán)境噪音一定范圍之內(nèi)，仍可保證高識別率；

　　動態(tài)詞匯庫 適用在不同的硬件條件下，詞匯集合可以從零到1000 詞條，采用系統(tǒng)軟件開發(fā) 包，可以方便創(chuàng)建新的詞匯以適用于不同的應用（例如：命令控制集，地址簿，人名等等）。

CTI論壇編輯

相關鏈接:

基立訊jTalk語音通信平臺產(chǎn)品介紹 2007-11-29

Nuance 8.5語音識別產(chǎn)品 2007-09-05

VBVoice使AdGeo能夠定制呼叫跟蹤和報告的解決方案 2007-04-26

Automated采用VBVoice快速開發(fā)語音圖書館編目系統(tǒng) 2007-04-09

捷通華聲語音電話本業(yè)務解決方案 2006-12-26

分類信息: