首頁>>>技術(shù)>>>語音應(yīng)用>>>語音識別(ASR)  語音識別產(chǎn)品

與電腦面談

周密 陶建華 2007/07/06

  人機(jī)交互技術(shù)(Human-Computer Interaction Techniques)是指通過計(jì)算機(jī)輸入、輸出設(shè)備,以有效的方式實(shí)現(xiàn)人與計(jì)算機(jī)對話的技術(shù)。隨著計(jì)算機(jī)的迅速普及,其使用者也從專家一級迅速擴(kuò)大到了未受過專門訓(xùn)練的普通用戶,由此強(qiáng)烈地刺激了人機(jī)交互界面的進(jìn)步。

  目前,語音識別與合成、臉部表情識別與生成、身體姿態(tài)分析等一系列研究成果開始集成到電腦中,計(jì)算機(jī)開始逐漸以語音和視頻的方式與人類進(jìn)行交互。

  本期專題從一個多模態(tài)融合面對面人機(jī)交互系統(tǒng)著手,介紹了人機(jī)交互領(lǐng)域關(guān)鍵的個性化語音生成、說話人頭像、多模態(tài)情感識別等技術(shù)的最新研究和發(fā)展?fàn)顩r。

  多模態(tài)融合建立人機(jī)交互平臺

  采用鍵盤和鼠標(biāo)是人與計(jì)算機(jī)之間的典型交互方式。為了讓計(jì)算機(jī)更具擬人化的特征,并更好地為人類服務(wù),從上世紀(jì)八十年代開始,語音識別與合成、臉部表情識別與生成、身體姿態(tài)分析等一系列研究成果開始集成到電腦中,計(jì)算機(jī)開始逐漸以語音和視頻的方式與人類進(jìn)行交互。然而,即使如此,目前絕大多數(shù)的研究依然停留在單個通道上,語音和視頻通常作為兩個完全不相關(guān)的課題進(jìn)行研究。大多數(shù)人在人機(jī)對話平臺的設(shè)計(jì)上,要么是單純的語音信息,要么只采用臉部表情或姿態(tài)信息。真正將這些信息有效地融合并不多見。由于人們在相互交流過程中,語音、臉部表情和姿態(tài)往往是同步動作,所表達(dá)的含義相互影響。舉例來說:

  當(dāng)一個人說: “你今天做得不錯!比绻怯藐愂龌蚋袊@語氣,通常意味著肯定或表揚(yáng); 如果是采用疑問語氣,則可能是表達(dá)一定的詢問或諷刺意味; 而即使用陳述語氣表達(dá),但臉部表情卻是一副不屑一顧的樣子,這通常也意味著諷刺。

  從這個簡單的例子可以看出,在人與人的對話中,表達(dá)的文字信息與不同語氣和臉部表情的組合,可能會出現(xiàn)不同的含義。然而大部分傳統(tǒng)的人機(jī)對話研究,主要側(cè)重在單純的語音識別、合成和文字理解上,既缺乏對語氣(或情感)的識別,也缺乏有效的語音與表情同步分析工作。

  事實(shí)上,從多模態(tài)融合(本文主要指語音和視頻信息融合)角度建立人機(jī)交互平臺已是近幾年非常熱的研究課題,與此相關(guān)的研究計(jì)劃還包括: 情感計(jì)算、普適計(jì)算等。國外有許多單位在從事相關(guān)技術(shù)的研究,如: MIT,CMU,UIUC,IBM等大學(xué)或跨國公司,國內(nèi)也有清華大學(xué),浙江大學(xué),中科院自動化所、計(jì)算所、軟件所等相關(guān)單位在從事這方面的研究。即使如此,從總體上看,多模態(tài)融合方法的研究還只是處在初期階段。本文以中科院自動化所建立的一個多模態(tài)天氣查詢系統(tǒng)為例,介紹一種人與電腦進(jìn)行面對面對話的交互模式。在這種交互模式中,用戶可以綜合使用語音、臉部表情、語氣等信息傳輸希望表達(dá)的內(nèi)容,而電腦則將獲得的天氣信息采用語音合成、人臉動畫等方式生動地進(jìn)行信息反饋。

  系統(tǒng)概述

  多模態(tài)天氣查詢系統(tǒng)包括語音識別及理解(ASR)、人臉跟蹤與表情識別(TRK)、說話人頭像(ANM)、語音中情感識別(SP)、多模態(tài)對話管理(CTR)等幾個主要模塊。

  系統(tǒng)與互聯(lián)網(wǎng)中天氣信息源進(jìn)行結(jié)合,實(shí)現(xiàn)了一定的天氣查詢功能: 當(dāng)用戶進(jìn)入攝像頭視野范圍內(nèi)時,系統(tǒng)自動運(yùn)行人臉跟蹤模塊進(jìn)行人臉定位,找到人臉的有效區(qū)域,然后對眼角、嘴角等特征點(diǎn)進(jìn)行定位。

  如果用戶沒有先開始說話,系統(tǒng)會用語音合成系統(tǒng)先說: “您好,請問我能為您做些什么?”當(dāng)用戶開始說話后,系統(tǒng)的人臉表情跟蹤與識別、語音識別、語氣檢測及語音中情感識別三個模塊同時并行工作。語音識別的結(jié)果會自動轉(zhuǎn)到對話管理模塊,在對話管理模塊中,將根據(jù)語音語氣和情感識別、人臉表情識別或動作識別等信息綜合進(jìn)行判斷,若是提問天氣信息,則將時間或地點(diǎn)信息輸入至中心控制模塊,時間和地點(diǎn)信息不完整時,系統(tǒng)會針對缺失信息提問和確認(rèn),直到得到完整有效的信息后開始啟動查詢,然后將結(jié)果通過虛擬角色表達(dá)出來。

  說話過程中,表情識別模塊實(shí)時分析用戶的表情及其他非語音信息,輔助語言的理解,如: 點(diǎn)頭或搖頭的動作可以幫助信息的確認(rèn),而用戶如果出現(xiàn)了驚訝、厭惡表情的時候,說明對話過程出現(xiàn)了問題,系統(tǒng)需要對關(guān)鍵信息進(jìn)行重新確認(rèn)了。

  下面分別對不同模塊的工作方式進(jìn)行說明。

  人臉跟蹤與表情識別

圖2 說話人頭像系統(tǒng)

  該模塊首先進(jìn)行人臉檢測,對眼角、嘴角等特征點(diǎn)進(jìn)行粗略定位,然后根據(jù)小波變換進(jìn)行精細(xì)定位,最終得到較為精細(xì)的人臉表情參數(shù)初始值。之后運(yùn)用Lucas-Kanade算法進(jìn)行特征點(diǎn)的跟蹤,利用跟蹤得到的特征點(diǎn)位置首先根據(jù)Ekman的人臉表情編碼規(guī)則進(jìn)行編碼,然后根據(jù)所得到的編碼結(jié)果進(jìn)行表情識別。該系統(tǒng)不僅實(shí)現(xiàn)了全自動的特征點(diǎn)定位和跟蹤,而且根據(jù)人臉特征點(diǎn)的分布模型,可以對跟蹤時特征點(diǎn)的丟失現(xiàn)象進(jìn)行補(bǔ)償。

  2007-7-1語音識別及理解模塊

  語音識別及理解模塊用于自動監(jiān)聽用戶的語音表達(dá)內(nèi)容。常用的方法有兩大類: 一種是使用關(guān)鍵詞檢出的方法,主要是找出一句話里有代表意義的詞,根據(jù)這些詞就可以理解整句話的意思,在這種情況下,輸入的語句必須嚴(yán)格符合系統(tǒng)所規(guī)定的語法結(jié)構(gòu); 另一種方法是基于連續(xù)語音的搜索,與一般聽寫機(jī)不同的是,這種搜索過程會把對話系統(tǒng)所應(yīng)用領(lǐng)域的信息添加進(jìn)去,這種方法效果比較好,但是在處理集外數(shù)據(jù)時則往往容易表現(xiàn)不穩(wěn)定。

  由于天氣查詢是一個限定領(lǐng)域的系統(tǒng),因此我們選擇了基于關(guān)鍵詞檢索的方法。在識別的過程中: 首先利用聲學(xué)模型得到候選子詞序列; 然后在詞法層得到候選詞條序列,最后根據(jù)語法規(guī)則,即語言模型進(jìn)行句法層的搜索,得到最終的識別結(jié)果。

  在模塊工作過程中,系統(tǒng)首先判斷語音識別的結(jié)果是否符合查詢語法,若符合語法,則給出正確的天氣查詢語言。比如已經(jīng)識別出來了“北京” 和“今天”,比照事先制定的語法結(jié)構(gòu),發(fā)現(xiàn)它們分別屬于“地點(diǎn)”和“時間”類別,所以可以理解為: “需要查詢北京明天的天氣”。當(dāng)系統(tǒng)無法識別出用于表達(dá)的含義時,會進(jìn)行智能反饋,保證整個天氣查詢系統(tǒng)正常運(yùn)行。

  在語音處理模塊中,我們還融入了語氣檢測和情感識別算法,能夠動態(tài)地根據(jù)用戶的語音狀態(tài),判斷該說話人用的是陳述語氣、疑問語氣還是感嘆語氣,在有典型情緒的地方,還能夠輸出該說話人的情感狀態(tài)。這些信息與語音識別結(jié)果一起送入到整個查詢系統(tǒng)的控制模塊中進(jìn)行集中決策。

  說話人頭像模塊

  說話人頭像模塊包括語音合成、人臉動畫兩個子模塊。語音合成模塊是為了將天氣查詢獲得信息表達(dá)出來。本文中,語音合成模塊是基于中科院自動化所設(shè)計(jì)的“繪聲”語音合成系統(tǒng),該系統(tǒng)能夠?qū)⑷我廨斎氲奈谋,以連續(xù)自然的聲音朗讀出來,并能夠處理中文普通話、粵語、英語等多種語言或方言。

  “面對面的人機(jī)交互系統(tǒng)”實(shí)現(xiàn)方法,涉及語音合成與識別、表情識別與生成、自然語音理解、多模態(tài)融合方法等多個學(xué)科領(lǐng)域。通過本項(xiàng)目的研究,可以對傳統(tǒng)人機(jī)交互模式進(jìn)行革命性的革新,使之更符合現(xiàn)代信息社會獲取信息的需要。同時在無人值守環(huán)境、智能交互平臺、虛擬現(xiàn)實(shí)、數(shù)字化娛樂等領(lǐng)域中,均有很強(qiáng)的應(yīng)用性,可以不分語種和人群地提供服務(wù),對信息服務(wù)業(yè)的長期發(fā)展具有非常重要的意義。

  語音合成模塊配上人臉動畫,可以實(shí)現(xiàn)栩栩如生的說話人頭像系統(tǒng),讓用戶感覺到是在與一個虛擬人進(jìn)行交互。人臉動畫的研究難點(diǎn)是如何與語音合成系統(tǒng)進(jìn)行配合,既保持語音、唇形、舌位的同步,又要能夠恰如其分地生成不同的表情。

  中心控制(CTRL模塊)

  中心控制模塊相當(dāng)于整個虛擬人的“大腦”,它從“眼睛”,“耳朵”處得到對方的語音和表情信息,經(jīng)過處理以后,做出適當(dāng)反饋,再由說話人頭像系統(tǒng)說出來,它實(shí)際上實(shí)現(xiàn)了對話管理和多模態(tài)融合兩方面的功能。

  對話管理

  目前主要的對話管理的控制策略大概有三種,包括基于有限狀態(tài)機(jī)(finite-state based)、基于框架(frame based)以及基于代理(agent based)的控制策略。

  在總結(jié)了前人工作經(jīng)驗(yàn)和結(jié)合本系統(tǒng)的實(shí)際問題的基礎(chǔ)上,我們在對話管理的具體實(shí)現(xiàn)上,將框架理論和有限狀態(tài)自動機(jī)理論相結(jié)合,完成了一個智能的對話管理模塊。我們先將對話管理限制在天氣查詢領(lǐng)域。在系統(tǒng)中,通過人機(jī)之間的對話和確認(rèn),系統(tǒng)需要得到要查詢的時間和地點(diǎn)信息之后反饋查詢結(jié)果。

  我們?yōu)樾枰玫降男畔⑾仍O(shè)計(jì)了一個槽結(jié)構(gòu)如下: Slot_name表示槽名,在本系統(tǒng)中就是City和Date。Slot_value 指示該項(xiàng)信息是否已經(jīng)得到,所以有2個狀態(tài): Known 和Unkown。

  圖3中,初始狀態(tài)為Unknown,當(dāng)收到用戶提供的信息時,槽狀態(tài)轉(zhuǎn)化為Known,即為終止?fàn)顟B(tài)。當(dāng)再收到用戶的信息時,槽狀態(tài)不變,只是具體的槽值發(fā)生了變化。




  根據(jù)系統(tǒng)的實(shí)際需求,同時考慮到系統(tǒng)的靈活性和魯棒性,我們設(shè)計(jì)了如下的狀態(tài)轉(zhuǎn)移過程: S0為系統(tǒng)的初始狀態(tài),S3為系統(tǒng)的終止?fàn)顟B(tài)。狀態(tài)轉(zhuǎn)換過程中的轉(zhuǎn)換條件,是信息融合的結(jié)果,不僅僅是語音信號的信息,也包含了圖像的信息。

  多模態(tài)融合

  所謂多模態(tài)融合就是將電腦“看到”和“聽到”的信息都考慮進(jìn)來,幫助理解說話人真正的意圖。在語音識別中加入語法后大大提高了語音識別的準(zhǔn)確率,而人臉跟蹤模塊能夠得到現(xiàn)有人臉的絕對位置和特征點(diǎn)的相對位置,知道人臉絕對位置的變化可以幫助判斷點(diǎn)頭、搖頭的動作,而利用特征點(diǎn)的相對位置信息可以知道說話人的情感狀態(tài)信息,在我們的系統(tǒng)中主要用到了點(diǎn)頭、搖頭信息和“厭惡”,“高興”2種情感狀態(tài)來判斷對電腦提出問題的確認(rèn)和人是否對電腦的回答表示滿意。在今后的工作中,我們可以考慮結(jié)合語音分析的結(jié)果,利用雙模態(tài)的信息,提高情感識別的準(zhǔn)確性和魯棒性。

通信世界網(wǎng)(www.cww.net.cn)



相關(guān)鏈接:
空口有憑:用聲音來付賬 2007-06-25
智能通信終端的關(guān)鍵技術(shù)研究 2007-06-19
聲控你的系統(tǒng) Vista語音識別全體驗(yàn) 2007-03-22
跨國巨頭猛攻語音識別技術(shù) 2007-03-09
自動語音系統(tǒng):虛擬人物提供人性化呼叫業(yè)務(wù) 2007-01-23

分類信息: