高端人聲識別技術的研究與應用
2001/08/02
一、 技術背景
是否有過這樣的經歷?已經是某某企業(yè)呼叫中心的?土,但撥通該呼叫中心的號碼時,還是必須向客服人員解釋你是他們某某產品的用戶,而今你必須獲得他們的維修服務。這個自報家門的工作其實足夠繁瑣到令你放棄這次呼叫。
但有一種新型的技術可以讓你在撥通電話、發(fā)出第一個音節(jié)時就被“驗明身份”。設想你撥打一個很久以前曾撥打過的呼叫中心號碼,準備詢問呼叫中心的客服人員你罷工的油煙機該找誰修理。根據(jù)語音提示進入服務區(qū)后,“hi,我…”你的請求還沒有說完,客服小姐已經在向你問候了:“王女士,您的油煙機用的怎么樣了?”
在這個過程中,客服小姐是利用呼叫中心的SR系統(tǒng),根據(jù)王女士的聲音,對其身份進行鑒別的。所以無需浪費任何時間,客服小姐在第一時間知道電話請求者是王女士。至于她有一臺該呼叫中心所屬企業(yè)售出的油煙機的事情,客服小姐是從系統(tǒng)的數(shù)據(jù)庫里知道的。
人聲識別技術(SR——Speaker Recognition)是一種以話音對說話人進行區(qū)分,從而進行身份鑒別與認證的技術。墜落在中國海南的美國EP-3飛機被宣稱藏有大量說話人識別技術的機密,據(jù)說其技術水平已經可以區(qū)分出“是誰打的嗝兒”。在國外,說話人識別技術被廣泛研究,也已有少量成熟產品問世。AT&T、TI(美國德州儀器公司)與美國著名的通訊公司Sprint已經開始在聲音識別領域的實驗和實際的應用。
說話人識別技術有著廣闊的市場應用前景。通過SR技術,可以利用人本身的生物特性進行身份鑒別,如給公安部門進行語音驗證、對一般用戶進行防盜門開啟等。在互聯(lián)網應用及通信領域,SR技術可以應用于諸如聲音撥號、電話銀行、電話購物、數(shù)據(jù)庫訪問、信息服務、語音Email、安全控制、計算機遠程登陸等。
在呼叫中心應用上,SR技術同樣可以提供更加個性化的人機交互界面。當顧客以電話方式對呼叫中心進行請求時,系統(tǒng)能夠根據(jù)話音判斷出來者的身份,從而提供更個性化、更貼心的服務。在國內的SR研究中,已經處于怎樣的進展水平?據(jù)了解,南京北極星軟件公司的研究走在了國內其他廠商的前列,其采用SR技術構造的呼叫中心產品也即將推出。
二、技術原理
SR有著深刻的技術背景。其基本原理是通過分析人的發(fā)聲和聽覺,為每個人構造一個獨一無二的數(shù)學模型,由計算機對模型和實際輸入的語音進行精確匹配,根據(jù)匹配結果辨認出說話人是誰。該原理同說話人的生理特性和行為特性密切相關。“人”的生物特性既存在于聲譜表面(聲道特性),也存在于聲音的來源或數(shù)個不連續(xù)的聲音片斷。從人的這些特性中提取出有效的音頻特征,進行數(shù)學建模,并將與之相關的資料存進數(shù)據(jù)庫。SR服務器根據(jù)輸入的音頻特征在數(shù)據(jù)庫里進行檢索,從而進行精確匹配。
在北極星公司的研究中,構造了“訓練模塊”和“識別模塊”,兩種模塊使用同樣的數(shù)學算法和模型。
訓練模塊
訓練模塊又由兩個部分組成:音頻特征提取部分和構造數(shù)學模型部分。
音頻特征提取時,根據(jù)人的發(fā)聲原理和聽覺原理,采用了MFCC和LPCC的特征提出算法。該算法可以將人的聲音提取出能量分布譜。這種算法能從聲音數(shù)據(jù)中獲得說話人的獨特特征。但是當人說不同的話時,分布譜會受到影響。也就是說即使是同一個人,如果說的話不同,聲音分布譜也是不同的。為解決這個問題,必須進行第二部分,構造數(shù)學模型。
構造數(shù)學模型時,使用了GMM和CHMM的算法。它可以將人在多個短時間內的能量分布譜構造成多個高斯分布。通過EM算法進行訓練,找出最為合理的高斯分布組。實驗中,北極星為每個接受訓練者構造一個獨一無二的數(shù)學模型。
識別模塊
識別模塊也由兩個部分組成:音頻特征提取部分和數(shù)學模型的概率估計部分。
音頻特征提取時,采用的方法和訓練模塊相同。
做概率估計時,將特征提取的結果帶入原來訓練出來的數(shù)學模型中,計算出概率,將多個特征譜的概率取對數(shù)求和,即計算出該人符合這個數(shù)學模型的概率。概率較大時即可進行身份確認和檢驗。
三、技術應用
SR技術的應用在國際上已經比較成熟。Sprint的聲音電話卡(Voice Phone Card)擁有眾多的用戶。電話卡的擁有者只需對著電話念出對方的電話,智能卡根據(jù)聲音進行鑒權,判斷說話人是否是電話卡的合法使用者,從而做出撥通與否的決定。在這種方式中,SR技術創(chuàng)造出的增值業(yè)務為運營商帶來豐厚的收益,也為我們的日常生活帶來便利。
在我國,由于漢語言的獨特性,國外SR研究的技術成果無法直接使用。國內眾多廠商也缺少語音方面的技術積累,進入該領域的步伐相對滯后。為了將這種尖端的技術引入中國,北極星軟件已經開始了自己的研究歷程,并致力于將現(xiàn)有的研究成果產業(yè)化,結合到其呼叫中心產品FineSupport IP Contact Center中來,增加產品的實用性和科技含量。
SR技術的這種特性應用在呼叫中心等語音產品上時,能為之帶來前所未有的變革。
目前幾乎所有的呼叫中心都采用來電顯示的方法來對發(fā)起呼叫請求的用戶進行身份鑒別。這種方法有極大的不確定性。當不同的用戶使用同一個電話號碼進行呼叫時,呼叫中心系統(tǒng)無法對之進行相應的區(qū)分;另一個問題,同一個客戶不會也不可能僅使用一個電話同呼叫中心進行聯(lián)絡,如果客戶更換電話,呼叫中心同樣不能認出這是“老朋友”,從而無法迅捷地提供個性化的服務。
北極星軟件公司將SR的研究應用到呼叫中心產品,在原有的系統(tǒng)中加入了語音鑒別設備SR Server(說話人識別服務器),從而能夠通過客戶的聲音進行檢索,解決了一個客戶使用多個電話和多個客戶使用一個電話、不同客戶交叉使用不同電話的問題,為客戶提供真正“一對一”個性化的服務。這種新型FineSupport IP Contact Center的結構圖如下:
其工作過程如下:
1. 用戶撥打呼叫中心的電話號碼;
2. 由ACD響應,并將電話接入IVR(交互語音應答系統(tǒng)),詢問客戶需要幫助的類型,并將客戶的語音應答傳送到SR Server;
3. SR Server根據(jù)原有的語音訓練模型對該用戶進行識別,并到數(shù)據(jù)庫進行認證和檢索;
4. 如果此時有接線人員處于空閑狀態(tài),ACD將這個呼叫轉移,并同SR Server識別的結果傳送到接線人員的計算機上;
5. 如果SR的識別結果為空(此前該用戶沒有撥打過本呼叫中心的電話),系統(tǒng)可以為該用戶建立模型,以供下次識別時使用。
四、未來方向
SR未來的發(fā)展方向包含兩方面的內容:研究方法和市場應用。
在SR的研究方法上,盡管北極星已經取得不錯的進展,尋找更加優(yōu)良的研究方法仍然有相當艱巨的路要走。由于技術條件所限,目前所采用的抽樣建模方法等還存在著不足。對SR最有影響的因素是在不同實驗中聲音特性信號的變更,包括說話者生理上的變動性,以及實驗條件的不穩(wěn)定性等。這就對SR識別系統(tǒng)形成嚴峻的挑戰(zhàn)。它必須能適應這些變化。SR的未來研究中將包含提取聲音長期穩(wěn)定的特征參數(shù)的問題。另外,在兩個人進行交談時,能自動從中提取出每個人的聲音特性并加以區(qū)分的技術也是值得研究的方向。在下一步的研究中,北極星將繼續(xù)提高系統(tǒng)的識別率,同時進行更大規(guī)模的電話語音測試。
SR的市場應用也是一個重要的課題。毫無疑問,隨著研究技術的日臻完善,SR的市場應用也將趨于成熟。FineSupport的崛起打開了SR在中國應用的缺口,為企業(yè)建立個性化的呼叫中心提供了更多的選擇,增加了可行性。在相關法律、金融等領域,SR技術也將是其嘗試運作嶄新工作方式的契機。
摘自計算機世界網
北極星軟件與廣東聯(lián)通共建165WebPhone 2003-03-12 |
英特爾與北極星軟件攜手打造寬帶新應用 2003-03-12 |
北極星CEO出席ITU TELECOM Asia 2002-12-26 |
北極星推出固網預付費系統(tǒng) 2002-12-17 |
北極星參加Intel解決方案全國巡展 2002-11-12 |