高端人聲識別技術(shù)的研究與應(yīng)用_語音識別_CTI論壇

首頁>>廠商>>軟件開發(fā)商>>南京北極星軟件

高端人聲識別技術(shù)的研究與應(yīng)用

2001/08/02

一、技術(shù)背景

是否有過這樣的經(jīng)歷？已經(jīng)是某某企業(yè)呼叫中心的�？土�，但撥通該呼叫中心的號碼時，還是必須向客服人員解釋你是他們某某產(chǎn)品的用戶，而今你必須獲得他們的維修服務(wù)。這個自報家門的工作其實足夠繁瑣到令你放棄這次呼叫。

但有一種新型的技術(shù)可以讓你在撥通電話、發(fā)出第一個音節(jié)時就被“驗明身份”。設(shè)想你撥打一個很久以前曾撥打過的呼叫中心號碼，準(zhǔn)備詢問呼叫中心的客服人員你罷工的油煙機(jī)該找誰修理。根據(jù)語音提示進(jìn)入服務(wù)區(qū)后，“hi，我…”你的請求還沒有說完，客服小姐已經(jīng)在向你問候了：“王女士，您的油煙機(jī)用的怎么樣了？”

在這個過程中，客服小姐是利用呼叫中心的SR系統(tǒng)，根據(jù)王女士的聲音，對其身份進(jìn)行鑒別的。所以無需浪費任何時間，客服小姐在第一時間知道電話請求者是王女士。至于她有一臺該呼叫中心所屬企業(yè)售出的油煙機(jī)的事情，客服小姐是從系統(tǒng)的數(shù)據(jù)庫里知道的。

人聲識別技術(shù)（SR——Speaker Recognition）是一種以話音對說話人進(jìn)行區(qū)分，從而進(jìn)行身份鑒別與認(rèn)證的技術(shù)。墜落在中國海南的美國EP-3飛機(jī)被宣稱藏有大量說話人識別技術(shù)的機(jī)密，據(jù)說其技術(shù)水平已經(jīng)可以區(qū)分出“是誰打的嗝兒”。在國外，說話人識別技術(shù)被廣泛研究，也已有少量成熟產(chǎn)品問世。AT&T、TI（美國德州儀器公司）與美國著名的通訊公司Sprint已經(jīng)開始在聲音識別領(lǐng)域的實驗和實際的應(yīng)用。

說話人識別技術(shù)有著廣闊的市場應(yīng)用前景。通過SR技術(shù)，可以利用人本身的生物特性進(jìn)行身份鑒別，如給公安部門進(jìn)行語音驗證、對一般用戶進(jìn)行防盜門開啟等。在互聯(lián)網(wǎng)應(yīng)用及通信領(lǐng)域，SR技術(shù)可以應(yīng)用于諸如聲音撥號、電話銀行、電話購物、數(shù)據(jù)庫訪問、信息服務(wù)、語音Email、安全控制、計算機(jī)遠(yuǎn)程登陸等。

在呼叫中心應(yīng)用上，SR技術(shù)同樣可以提供更加個性化的人機(jī)交互界面。當(dāng)顧客以電話方式對呼叫中心進(jìn)行請求時，系統(tǒng)能夠根據(jù)話音判斷出來者的身份，從而提供更個性化、更貼心的服務(wù)。在國內(nèi)的SR研究中，已經(jīng)處于怎樣的進(jìn)展水平？據(jù)了解，南京北極星軟件公司的研究走在了國內(nèi)其他廠商的前列，其采用SR技術(shù)構(gòu)造的呼叫中心產(chǎn)品也即將推出。

二、技術(shù)原理

SR有著深刻的技術(shù)背景。其基本原理是通過分析人的發(fā)聲和聽覺，為每個人構(gòu)造一個獨一無二的數(shù)學(xué)模型，由計算機(jī)對模型和實際輸入的語音進(jìn)行精確匹配，根據(jù)匹配結(jié)果辨認(rèn)出說話人是誰。該原理同說話人的生理特性和行為特性密切相關(guān)。“人”的生物特性既存在于聲譜表面（聲道特性），也存在于聲音的來源或數(shù)個不連續(xù)的聲音片斷。從人的這些特性中提取出有效的音頻特征，進(jìn)行數(shù)學(xué)建模，并將與之相關(guān)的資料存進(jìn)數(shù)據(jù)庫。SR服務(wù)器根據(jù)輸入的音頻特征在數(shù)據(jù)庫里進(jìn)行檢索，從而進(jìn)行精確匹配。

在北極星公司的研究中，構(gòu)造了“訓(xùn)練模塊”和“識別模塊”，兩種模塊使用同樣的數(shù)學(xué)算法和模型。

訓(xùn)練模塊

訓(xùn)練模塊又由兩個部分組成：音頻特征提取部分和構(gòu)造數(shù)學(xué)模型部分。

音頻特征提取時，根據(jù)人的發(fā)聲原理和聽覺原理，采用了MFCC和LPCC的特征提出算法。該算法可以將人的聲音提取出能量分布譜。這種算法能從聲音數(shù)據(jù)中獲得說話人的獨特特征。但是當(dāng)人說不同的話時，分布譜會受到影響。也就是說即使是同一個人，如果說的話不同，聲音分布譜也是不同的。為解決這個問題，必須進(jìn)行第二部分，構(gòu)造數(shù)學(xué)模型。

構(gòu)造數(shù)學(xué)模型時，使用了GMM和CHMM的算法。它可以將人在多個短時間內(nèi)的能量分布譜構(gòu)造成多個高斯分布。通過EM算法進(jìn)行訓(xùn)練，找出最為合理的高斯分布組。實驗中，北極星為每個接受訓(xùn)練者構(gòu)造一個獨一無二的數(shù)學(xué)模型。

識別模塊

識別模塊也由兩個部分組成：音頻特征提取部分和數(shù)學(xué)模型的概率估計部分。

音頻特征提取時，采用的方法和訓(xùn)練模塊相同。

做概率估計時，將特征提取的結(jié)果帶入原來訓(xùn)練出來的數(shù)學(xué)模型中，計算出概率，將多個特征譜的概率取對數(shù)求和，即計算出該人符合這個數(shù)學(xué)模型的概率。概率較大時即可進(jìn)行身份確認(rèn)和檢驗。

三、技術(shù)應(yīng)用

SR技術(shù)的應(yīng)用在國際上已經(jīng)比較成熟。Sprint的聲音電話卡（Voice Phone Card）擁有眾多的用戶。電話卡的擁有者只需對著電話念出對方的電話，智能卡根據(jù)聲音進(jìn)行鑒權(quán)，判斷說話人是否是電話卡的合法使用者，從而做出撥通與否的決定。在這種方式中，SR技術(shù)創(chuàng)造出的增值業(yè)務(wù)為運營商帶來豐厚的收益，也為我們的日常生活帶來便利。

在我國，由于漢語言的獨特性，國外SR研究的技術(shù)成果無法直接使用。國內(nèi)眾多廠商也缺少語音方面的技術(shù)積累，進(jìn)入該領(lǐng)域的步伐相對滯后。為了將這種尖端的技術(shù)引入中國，北極星軟件已經(jīng)開始了自己的研究歷程，并致力于將現(xiàn)有的研究成果產(chǎn)業(yè)化，結(jié)合到其呼叫中心產(chǎn)品FineSupport IP Contact Center中來，增加產(chǎn)品的實用性和科技含量。

SR技術(shù)的這種特性應(yīng)用在呼叫中心等語音產(chǎn)品上時，能為之帶來前所未有的變革。

目前幾乎所有的呼叫中心都采用來電顯示的方法來對發(fā)起呼叫請求的用戶進(jìn)行身份鑒別。這種方法有極大的不確定性。當(dāng)不同的用戶使用同一個電話號碼進(jìn)行呼叫時，呼叫中心系統(tǒng)無法對之進(jìn)行相應(yīng)的區(qū)分；另一個問題，同一個客戶不會也不可能僅使用一個電話同呼叫中心進(jìn)行聯(lián)絡(luò)，如果客戶更換電話，呼叫中心同樣不能認(rèn)出這是“老朋友”，從而無法迅捷地提供個性化的服務(wù)。

北極星軟件公司將SR的研究應(yīng)用到呼叫中心產(chǎn)品，在原有的系統(tǒng)中加入了語音鑒別設(shè)備SR Server（說話人識別服務(wù)器），從而能夠通過客戶的聲音進(jìn)行檢索，解決了一個客戶使用多個電話和多個客戶使用一個電話、不同客戶交叉使用不同電話的問題，為客戶提供真正“一對一”個性化的服務(wù)。這種新型FineSupport IP Contact Center的結(jié)構(gòu)圖如下：

其工作過程如下：

1. 用戶撥打呼叫中心的電話號碼；

2. 由ACD響應(yīng)，并將電話接入IVR（交互語音應(yīng)答系統(tǒng)），詢問客戶需要幫助的類型，并將客戶的語音應(yīng)答傳送到SR Server；

3. SR Server根據(jù)原有的語音訓(xùn)練模型對該用戶進(jìn)行識別，并到數(shù)據(jù)庫進(jìn)行認(rèn)證和檢索；

4. 如果此時有接線人員處于空閑狀態(tài)，ACD將這個呼叫轉(zhuǎn)移，并同SR Server識別的結(jié)果傳送到接線人員的計算機(jī)上；

5. 如果SR的識別結(jié)果為空（此前該用戶沒有撥打過本呼叫中心的電話），系統(tǒng)可以為該用戶建立模型，以供下次識別時使用。

四、未來方向

SR未來的發(fā)展方向包含兩方面的內(nèi)容：研究方法和市場應(yīng)用。

在SR的研究方法上，盡管北極星已經(jīng)取得不錯的進(jìn)展，尋找更加優(yōu)良的研究方法仍然有相當(dāng)艱巨的路要走。由于技術(shù)條件所限，目前所采用的抽樣建模方法等還存在著不足。對SR最有影響的因素是在不同實驗中聲音特性信號的變更，包括說話者生理上的變動性，以及實驗條件的不穩(wěn)定性等。這就對SR識別系統(tǒng)形成嚴(yán)峻的挑戰(zhàn)。它必須能適應(yīng)這些變化。SR的未來研究中將包含提取聲音長期穩(wěn)定的特征參數(shù)的問題。另外，在兩個人進(jìn)行交談時，能自動從中提取出每個人的聲音特性并加以區(qū)分的技術(shù)也是值得研究的方向。在下一步的研究中，北極星將繼續(xù)提高系統(tǒng)的識別率，同時進(jìn)行更大規(guī)模的電話語音測試。

SR的市場應(yīng)用也是一個重要的課題。毫無疑問，隨著研究技術(shù)的日臻完善，SR的市場應(yīng)用也將趨于成熟。FineSupport的崛起打開了SR在中國應(yīng)用的缺口，為企業(yè)建立個性化的呼叫中心提供了更多的選擇，增加了可行性。在相關(guān)法律、金融等領(lǐng)域，SR技術(shù)也將是其嘗試運作嶄新工作方式的契機(jī)。

摘自計算機(jī)世界網(wǎng)

相關(guān)鏈接:

北極星軟件與廣東聯(lián)通共建165WebPhone 2003-03-12

英特爾與北極星軟件攜手打造寬帶新應(yīng)用 2003-03-12

北極星CEO出席ITU TELECOM Asia 2002-12-26

北極星推出固網(wǎng)預(yù)付費系統(tǒng) 2002-12-17

北極星參加Intel解決方案全國巡展 2002-11-12

华安县| 塘沽区| 江山市| 米泉市| 时尚| 仪征市| 河西区| 固镇县| 鄂尔多斯市| 东方市| 凯里市| 巴楚县| 天镇县| 淳化县| 桂林市| 平阳县| 开封市| 博湖县| 株洲县| 津市市| 和政县| 涡阳县| 内黄县| 肇州县| 三台县| 永和县| 抚顺市| 洪湖市| 柳江县| 普宁市| 广河县| 淳安县| 临西县| 尼玛县| 镇远县| 江孜县| 平和县| 河东区| 巴彦淖尔市| 马鞍山市| 仁寿县|