首頁(yè)>>>技術(shù)>>>語(yǔ)音應(yīng)用>>>語(yǔ)音合成(TTS)  語(yǔ)音合成產(chǎn)品

 

文本-可視語(yǔ)音轉(zhuǎn)換及其應(yīng)用

王志明 蔡蓮紅 2001/06/04

  語(yǔ)音信號(hào)、視覺(jué)信號(hào)和文字是人類(lèi)信息和知識(shí)的主要載體,也是人類(lèi)進(jìn)行學(xué)習(xí)和交流的重要工具。在電子和通信技術(shù)迅速發(fā)展的今天,多種媒體之間的交互作用越來(lái)越受到人們的重視,如語(yǔ)音合成(text-to-speech)與自動(dòng)語(yǔ)音識(shí)別實(shí)現(xiàn)了文字和語(yǔ)音的互相轉(zhuǎn)換;自動(dòng)機(jī)器唇讀、圖像輔助語(yǔ)音識(shí)別和音視頻聯(lián)合編碼則利用了語(yǔ)音和圖像之間的內(nèi)在聯(lián)系。

  經(jīng)過(guò)數(shù)十年的發(fā)展,語(yǔ)音合成技術(shù)已經(jīng)走入實(shí)用階段,在信息咨詢(xún)、電話(huà)銀行、車(chē)站播報(bào)系統(tǒng)等各個(gè)方面有了廣泛的應(yīng)用。近年來(lái)出現(xiàn)了另一種多媒體研究熱潮,即把聲音和文字、圖像集成在一起,形成直接由文本到可視語(yǔ)音的轉(zhuǎn)換(text-to-visual speech,TTVS),使人們?cè)诼?tīng)計(jì)算機(jī)說(shuō)話(huà)的同時(shí)能看到一個(gè)合成的人臉,使人機(jī)交互界面更為友好、和諧。

  對(duì)視覺(jué)語(yǔ)音(visual speech)的研究正是這樣一種綜合考慮聲音和圖像的多媒體技術(shù)。視覺(jué)語(yǔ)音是指人們?cè)谟谜Z(yǔ)言交流時(shí)所表達(dá)出的面部表情和動(dòng)作,它能在一定程度上傳達(dá)人們想要表達(dá)的意思,并能幫助人們加深對(duì)語(yǔ)言的理解。研究表明,在環(huán)境噪聲較大或聽(tīng)者有聽(tīng)力障礙的情況下,如果在給出聲音信息的同時(shí)能給出一個(gè)“講話(huà)的頭”(talking head),即表現(xiàn)說(shuō)話(huà)者面部表情和嘴部、眼部等變化情況,則會(huì)大大改善人們對(duì)聲音的理解。在人機(jī)交互的過(guò)程中,如果人們面對(duì)的不是單純的文本,而是一個(gè)會(huì)說(shuō)話(huà)的人物形象,則使人覺(jué)得計(jì)算機(jī)界面更為友善,方便人們與計(jì)算機(jī)的交流。近幾年來(lái),對(duì)視覺(jué)語(yǔ)音的研究越來(lái)越受到人們的重視,已成為多媒體和人機(jī)交互技術(shù)研究領(lǐng)域相當(dāng)活躍的研究方向。

TTVS的實(shí)現(xiàn)

對(duì)于TTVS,其實(shí)現(xiàn)方法可分為以下兩類(lèi):

  基于參數(shù)控制的方法 首先對(duì)人臉建立一個(gè)網(wǎng)格模型,包括多個(gè)多邊形(一般是三角形)和頂點(diǎn)。由一組參數(shù)來(lái)控制每個(gè)頂點(diǎn)的運(yùn)動(dòng),再通過(guò)圖像變形技術(shù)實(shí)現(xiàn)人臉上各個(gè)像素點(diǎn)的運(yùn)動(dòng),來(lái)生成人們說(shuō)話(huà)時(shí)的各種面部表情。該方法的優(yōu)點(diǎn)是需要的數(shù)據(jù)量小、控制靈活、可移植性強(qiáng);缺點(diǎn)是合成的圖像往往帶有人工制作的痕跡,但對(duì)于這一點(diǎn),各國(guó)研究者正在努力改善。

  基于數(shù)據(jù)驅(qū)動(dòng)的方法 類(lèi)似于語(yǔ)音合成中的波形拼接合成法。通過(guò)對(duì)人們說(shuō)話(huà)時(shí)可能出現(xiàn)的各種表情進(jìn)行錄像,從中提取大量的原始數(shù)據(jù),建立圖像數(shù)據(jù)庫(kù)。在合成時(shí)從庫(kù)中選擇合適的圖像進(jìn)行拼接,并進(jìn)行一些消除圖像邊緣效應(yīng)和抖動(dòng)的處理,生成動(dòng)態(tài)的連續(xù)的說(shuō)話(huà)者的面部表情。該方法的優(yōu)點(diǎn)是合成的人臉圖像質(zhì)量高,較為逼真、自然;缺點(diǎn)是在建立模型的訓(xùn)練階段需要大量的原始數(shù)據(jù),生成的數(shù)據(jù)庫(kù)需要保存大量的圖像數(shù)據(jù),且所有數(shù)據(jù)完全是針對(duì)某個(gè)特定人的,無(wú)法移植到其他人身上。

  現(xiàn)在運(yùn)行的系統(tǒng)中多為參數(shù)控制系統(tǒng),其中控制參數(shù)也多采用MPEG-4所定義的人臉動(dòng)畫(huà)參數(shù)(facial animation parameter,FAP)。MPEG-4制定了一整套人臉模型化描述方法,包括用于定義人臉模型的面部定義參數(shù)(facial define parameters,FDP)和一組用于定義人臉面部動(dòng)作的人臉動(dòng)畫(huà)參數(shù)FAP。其中FDP通過(guò)對(duì)人臉上84個(gè)特征點(diǎn)的位置信息來(lái)定義人臉模型,這些點(diǎn)不僅包括外表看得見(jiàn)的人臉特征點(diǎn),還包括了舌頭、牙齒等口腔內(nèi)器官的特征點(diǎn),如圖1所示。

  FAP一共有68個(gè)參數(shù),包括兩個(gè)高級(jí)參數(shù)和66個(gè)低級(jí)參數(shù)。高級(jí)參數(shù)是視位(viseme)和表情(expression),視位分為15個(gè),分別表示人們發(fā)某一音位時(shí)的面部動(dòng)作;表情分為高興、悲傷、憤怒、害怕、厭惡、驚奇六種。66個(gè)低級(jí)參數(shù)用來(lái)控制部分FDP特征點(diǎn)的運(yùn)動(dòng),進(jìn)而形成各種復(fù)雜的人臉動(dòng)作。這些標(biāo)準(zhǔn)的制定極大地推動(dòng)了參數(shù)控制合成方法的發(fā)展,使這種方法在人機(jī)交互、計(jì)算機(jī)網(wǎng)絡(luò)交談、游戲動(dòng)畫(huà)等方面得到更為廣泛的應(yīng)用,圖2 是參數(shù)控制的TTVS系統(tǒng)的基本框架。

 

 

1 MPEG所定義的FDP特征點(diǎn)

 

2 TTVS系統(tǒng)的基本框架

VSonic系統(tǒng)

  目前,國(guó)內(nèi)外眾多研究機(jī)構(gòu)和公司均十分關(guān)注TTVS的研究,如MIT、AT&T、Microsoft、Motorola等。目前,清華大學(xué)計(jì)算機(jī)系已經(jīng)開(kāi)發(fā)出了具有自主版權(quán)的漢語(yǔ)TTVS系統(tǒng)。

  清華大學(xué)計(jì)算機(jī)系致力于人機(jī)語(yǔ)音交互的研究始于1979年。在20年的研究中,得到了國(guó)家自然科學(xué)基金、國(guó)家863計(jì)劃、國(guó)家重點(diǎn)攻關(guān)項(xiàng)目和軍事預(yù)研項(xiàng)目的資助,取得了一系列國(guó)內(nèi)外領(lǐng)先的研究成果,并多次獲獎(jiǎng)。在語(yǔ)音合成方面,我們深入地研究了聲學(xué)模型、韻律模型、文本分析、韻律描述語(yǔ)言等語(yǔ)音合成中的關(guān)鍵技術(shù),并于1993年推出了漢語(yǔ)TTS軟件產(chǎn)品。1999年實(shí)現(xiàn)了基于數(shù)據(jù)驅(qū)動(dòng)的漢語(yǔ)TTS系統(tǒng)Sonic,獲得了高自然度的語(yǔ)音輸出。

  為了增強(qiáng)TTS系統(tǒng)界面的友善性,清華大學(xué)計(jì)算機(jī)系于2000年著手研究漢語(yǔ)語(yǔ)音的可視化,為其原有的Sonic系統(tǒng)配上發(fā)音人的頭像,形成了新的漢語(yǔ)文本-可視語(yǔ)音轉(zhuǎn)換系統(tǒng)VSonic,系統(tǒng)界面如圖3所示。

 

 

3 VSonic系統(tǒng)運(yùn)行界面

  在VSonic系統(tǒng)中,人臉模型是一個(gè)由三角形組成的二維網(wǎng)格人臉模型,整個(gè)模型共包括約220個(gè)點(diǎn)和350個(gè)三角形,如圖4所示。模型中的頂點(diǎn)涵蓋了由MPEG-4定義的主要FDP特征點(diǎn),模型的驅(qū)動(dòng)參數(shù)是標(biāo)準(zhǔn)的FAP參數(shù)。人臉合成是以單一的真實(shí)人臉正面照片為基礎(chǔ),在FAP參數(shù)的控制下對(duì)人臉圖像進(jìn)行變形處理(warping),首先求得FDP特征點(diǎn)的運(yùn)動(dòng)向量,再通過(guò)其余點(diǎn)與這些點(diǎn)的位置及拓?fù)潢P(guān)系求得模型中所有頂點(diǎn)的運(yùn)動(dòng)向量。根據(jù)頂點(diǎn)的運(yùn)動(dòng)向量和對(duì)三角形的平面近似,利用雙線(xiàn)性插值方法求得所有像素點(diǎn)的運(yùn)動(dòng)向量,從而使人臉“動(dòng)”起來(lái)。對(duì)于口腔內(nèi)的圖像,我們采用固定的模型,具有真實(shí)的牙齒和口腔內(nèi)圖像紋理,并能根據(jù)開(kāi)口度的大小和上下唇的突出度來(lái)調(diào)整亮度。

  系統(tǒng)由語(yǔ)音合成部分提供時(shí)間同步信息,實(shí)現(xiàn)完全同步的語(yǔ)音和圖像播放。系統(tǒng)中語(yǔ)音的發(fā)音速度可調(diào),圖像以固定的幀速率播放,不受語(yǔ)音快慢的影響。當(dāng)語(yǔ)音速度加快時(shí),每個(gè)音節(jié)的圖像幀數(shù)將減少;反之,當(dāng)語(yǔ)音速度放慢時(shí)每個(gè)音節(jié)的圖像幀數(shù)將增加。圖像的幀速率可根據(jù)系統(tǒng)性能來(lái)調(diào)節(jié),使系統(tǒng)在各種性能的機(jī)器上均能保持語(yǔ)音與圖像的同步。

 

 

4 人臉網(wǎng)格模式

  除了能夠生成各種各樣的說(shuō)話(huà)口形外,VSonic還能表現(xiàn)出眨眼等簡(jiǎn)單的面部動(dòng)作,以增強(qiáng)系統(tǒng)的自然性。系統(tǒng)的另一特點(diǎn)是其可移植性非常好,可以使人臉模型從一張人臉更換到另一張人臉。只要有一張正面人臉照片,借助系統(tǒng)提供的工具,經(jīng)過(guò)簡(jiǎn)單的鼠標(biāo)操作即可在數(shù)分鐘內(nèi)實(shí)現(xiàn)系統(tǒng)中人臉模型的更換。

TTVS的應(yīng)用和展望

  文本-可視語(yǔ)音轉(zhuǎn)換系統(tǒng)不僅提高了人機(jī)交互界面的友善性,豐富了人們的生活,還在許多領(lǐng)域中有著重要的實(shí)際意義。下面我們介紹幾種TTVS在實(shí)際生活中的應(yīng)用。

1 制作虛擬電視節(jié)目主持人

  這是TTVS一個(gè)很好的應(yīng)用實(shí)例。虛擬電視節(jié)目主持人在許多國(guó)家已經(jīng)走上了屏幕,引起了廣大觀(guān)眾的極大興趣。圖5是英國(guó)報(bào)業(yè)聯(lián)合通訊社推出的第一個(gè)虛擬新聞播報(bào)員“阿娜諾娃”(Ananova)

2)增強(qiáng)語(yǔ)音的可懂性

  實(shí)驗(yàn)表明,在噪聲環(huán)境下,能看到說(shuō)話(huà)者的人臉相當(dāng)于提高了812dB的語(yǔ)音信噪比。因此,在環(huán)境噪聲較大的情況下,如在工廠(chǎng)車(chē)間、高速運(yùn)行的交通工具上或戰(zhàn)爭(zhēng)前線(xiàn)進(jìn)行人機(jī)交互時(shí),如果在機(jī)器給出語(yǔ)音的同時(shí)能給出一個(gè)合成的人臉,則能大大改善人們對(duì)語(yǔ)音的理解。另外,在聽(tīng)話(huà)者有聽(tīng)力障礙的情況下,也有類(lèi)似的效果。

 

5 Ananova

3)網(wǎng)上聊天

  現(xiàn)在網(wǎng)上聊天主要是通過(guò)窗口中的文本進(jìn)行交流,如果人們?cè)诰W(wǎng)上聊天也可以像實(shí)際生活中聊天一樣,既可以聽(tīng)到聲音,又可以看到說(shuō)話(huà)者的人臉,將會(huì)大大增強(qiáng)使用者的興趣并方便交流。但現(xiàn)在網(wǎng)絡(luò)帶寬不能滿(mǎn)足實(shí)時(shí)傳輸聲音和圖像數(shù)據(jù)的需求,如果在用戶(hù)的計(jì)算機(jī)上安裝了TTVS系統(tǒng),則可以在網(wǎng)上只傳送文本信息,而在本地由TTVS合成語(yǔ)音和圖像,使用戶(hù)既聽(tīng)到聲音又看到說(shuō)話(huà)者的人臉。若在文本中再加入少量的標(biāo)注信息,還可以使人臉表現(xiàn)出各種各樣的表情。再進(jìn)一步,如果在用戶(hù)的計(jì)算機(jī)上安裝上話(huà)筒和相應(yīng)的語(yǔ)音識(shí)別軟件,則用戶(hù)可以脫離鍵盤(pán),就像日常生活中一樣,與對(duì)方面對(duì)面地聊天。

  另外,在越來(lái)越廣泛的商業(yè)、娛樂(lè)人機(jī)交互的過(guò)程中,如新產(chǎn)品介紹、電子游戲等,如果人們面對(duì)的不是單純的文本或聲音,而是一個(gè)會(huì)說(shuō)話(huà)的人物形象,則使人覺(jué)得更為親切,更容易接受,從而提高商業(yè)銷(xiāo)售額,給企業(yè)帶來(lái)巨大的經(jīng)濟(jì)利益。

  總之,TTVS技術(shù)的出現(xiàn)是多媒體技術(shù)迅速發(fā)展的產(chǎn)物,也迎合了社會(huì)發(fā)展的需求。它給人們的生活增添了新的色彩,使計(jì)算機(jī)更人性化,人們與計(jì)算機(jī)的交流變得更為簡(jiǎn)單。相信在不久的將來(lái),它將會(huì)在眾多的技術(shù)、商業(yè)和娛樂(lè)領(lǐng)域得到廣泛的應(yīng)用,并逐步進(jìn)入我們每個(gè)人的生活。

《計(jì)算機(jī)世界》 2001/06/04



相關(guān)鏈接:
統(tǒng)一消息平臺(tái)中的語(yǔ)音技術(shù) 2001-06-04
數(shù)據(jù)挖掘走入語(yǔ)音處理 2001-06-04
神經(jīng)網(wǎng)絡(luò)與漢語(yǔ)TTS韻律模型 2001-06-01
語(yǔ)音技術(shù)的拓展與展望 2001-06-01
語(yǔ)音門(mén)戶(hù):讓網(wǎng)絡(luò)接入更便捷 2001-05-11