CTI論壇(ctiforum.com)(編譯/老秦):在2019年,語音引擎變得更加復(fù)雜,現(xiàn)在能夠支持其他語言和方言,但也還有更多工作要做。這些解決方案,包括語音到文本,文本到語音,語音識(shí)別,語音命令和控制,語音搜索,轉(zhuǎn)錄,翻譯以及相關(guān)活動(dòng)的技術(shù),現(xiàn)在在識(shí)別單詞方面做得更好,但具有諷刺意味的是,這種能力并不是用戶最終想要的。相反,他們需要可以像人一樣對(duì)它們做出反應(yīng)的系統(tǒng)。但是,對(duì)于供應(yīng)商而言,實(shí)現(xiàn)該目標(biāo)仍然遙遙無期。
年度回顧
在2019年添加的新語言和方言中,亞馬遜的Alexa現(xiàn)在支持印地語語音交互。此外,該供應(yīng)商還增強(qiáng)了系統(tǒng)以了解當(dāng)?shù)亓餍姓Z言的變體,例如美國(guó)西班牙語和巴西葡萄牙語,從而使更多的消費(fèi)者可以查看天氣,控制智能家居設(shè)備以及使用亞馬遜品牌的設(shè)備聽音樂。Bose,LG電子和索尼等第三方訪問Alexa語音服務(wù)應(yīng)用程序編程接口(API)來開發(fā)Alexa Skills。
LumenVox還擴(kuò)展了其系統(tǒng)的支持范圍,以支持本地方言,例如美國(guó),英國(guó)澳大利亞人,新西蘭英語和北美西班牙語。
而且由于許多個(gè)人和家庭說多種語言,因此Amazon Web Services進(jìn)一步引入了多語言模式,該模式允許Alexa在兩種語言之間切換。該系統(tǒng)通過識(shí)別用戶說出的語音并以相同的語言進(jìn)行響應(yīng)來自動(dòng)進(jìn)行調(diào)整。此功能分為三對(duì)可用:美國(guó)的英語和西班牙語,印度的印度英語和北印度語以及加拿大的英語和法語。
LumenVox客戶服務(wù)副總裁Jeff Hopper表示,與此類似,LumenVox還添加了一個(gè)新的轉(zhuǎn)錄引擎,專門針對(duì)無音頻格式。他解釋說:“它可以實(shí)時(shí)工作,因此[交互式語音響應(yīng)(IVR)]應(yīng)用程序不僅可以接收結(jié)構(gòu)化數(shù)據(jù)或自然語言輸入,還可以處理原始文本。”
但是,對(duì)于整個(gè)語音行業(yè)來說,更有意義的是人工智能(AI)和深度神經(jīng)網(wǎng)絡(luò)正在開展的工作。人工智能工作已迅速進(jìn)入主流語音技術(shù),允許更多自然語言,對(duì)話交互,并且隨著引擎處理越來越多的語音,機(jī)器學(xué)習(xí)使系統(tǒng)的準(zhǔn)確性和性能得以提高。
今年,第四代深度神經(jīng)網(wǎng)絡(luò)(DNN)的出現(xiàn)也顯示了語音引擎的進(jìn)步。它們?cè)谳斎牒洼敵鲋g具有多層,因此可以使用線性或非線性關(guān)系得出結(jié)論。
Nuance Communications是該領(lǐng)域的領(lǐng)導(dǎo)者,該公司在7月推出了Nuance Lightning Engine,這是一種DNN,結(jié)合了語音生物識(shí)別技術(shù)和自然語言理解,可以跨語音渠道提供個(gè)性化,人性化的體驗(yàn)。
展望未來
盡管語音引擎已在許多方面得到了改進(jìn),但基礎(chǔ)技術(shù)仍存在很多缺點(diǎn)。根據(jù)Booz,Allen&Hamilton的前專業(yè)人士StephenArnold的說法,當(dāng)今的系統(tǒng)在識(shí)別單個(gè)單詞方面明顯要好得多,但需要的是能夠在上下文中理解單詞的解決方案。
由于此限制,當(dāng)將語音系統(tǒng)部署為企業(yè)和消費(fèi)者使用時(shí),它們有時(shí)無法正常運(yùn)行。用戶專注于最終結(jié)果,例如從語音搜索中獲取結(jié)果,但是系統(tǒng)通常無法提供所需的理解水平。因此,根據(jù)普華永道最近的一項(xiàng)調(diào)查,有71%的美國(guó)人更愿意與人互動(dòng),而不是聊天機(jī)器人或其他自動(dòng)化過程。
供應(yīng)商正在完善他們的系統(tǒng)以彌合這一差距。Google開發(fā)了BERT(來自“變形金剛”的雙向編碼器表示),這是一種語音識(shí)別解決方案,旨在連接單詞和更好地理解句子上下文。例如,如果某人正在尋找有關(guān)在另一個(gè)國(guó)家旅行的信息,則BERT會(huì)認(rèn)識(shí)到“去(to)”一詞比“來自(from)”更重要。
類似地,Translate Your World一直在構(gòu)建語音解決方案,以識(shí)別對(duì)話中的語氣,并且供應(yīng)商發(fā)現(xiàn),各個(gè)人的語氣會(huì)因情況而異。“最終目標(biāo)是指導(dǎo)AI翻譯,以便它們?cè)趯?duì)話的背景下為與個(gè)人打交道提供正確的模式,”該公司總裁SueReager解釋說。例如,“shingles”一詞通常是指房屋屋頂上的物品,但在醫(yī)療保健領(lǐng)域,它代表病毒感染。
同樣,交流因群體而異。“我們發(fā)現(xiàn),消費(fèi)者通常不會(huì)像企業(yè)高管那樣講的很清楚。”Reager補(bǔ)充說:“消費(fèi)者的發(fā)音有時(shí)不清楚,他們通常不使用完整的句子。他們的思想缺乏組織,因此有時(shí)很難找到固定的模式。”
培訓(xùn)語音引擎以識(shí)別和適當(dāng)?shù)貞?yīng)對(duì)此類差異是她的公司以及其他多個(gè)行業(yè)細(xì)分領(lǐng)域?qū)⒃?020年解決的問題。
誰來承擔(dān)當(dāng)前的語音挑戰(zhàn)一直在變化。“試圖翻譯語音變得越來越困難,而且非常昂貴,”Arnold堅(jiān)持認(rèn)為。“在過去的日子里,麻省理工學(xué)院機(jī)器學(xué)習(xí)實(shí)驗(yàn)室的一些人能夠建立一個(gè)商業(yè)系統(tǒng)。但是不做了。”
如今,語音引擎的研究需要大量資金,高技能的數(shù)據(jù)科學(xué)家和龐大的數(shù)據(jù)中心,而這些數(shù)據(jù)中心將擁有巨大的計(jì)算處理能力。因此,谷歌,亞馬遜網(wǎng)絡(luò)服務(wù),微軟和IBM等國(guó)內(nèi)行業(yè)巨頭正在承擔(dān)許多工作。
在國(guó)際上,中國(guó)公司,例如百度,也在挑戰(zhàn)這些問題。根據(jù)Arnold的說法,中國(guó)供應(yīng)商之所以處于有利地位,是因?yàn)樗鼈儾皇軅鹘y(tǒng)技術(shù)的束縛,可以采用新的方法來解決這些長(zhǎng)期存在的問題。
供應(yīng)商在擴(kuò)展其產(chǎn)品功能方面也取得了進(jìn)展,因此他們支持更多類型的語音,但是仍需要努力以幫助該技術(shù)將單個(gè)單詞置于上下文中,以便系統(tǒng)可以適當(dāng)?shù)仨憫?yīng)。隨著市場(chǎng)的變化,開發(fā)負(fù)擔(dān)急劇增加。展望未來,似乎只有財(cái)大氣粗的行業(yè)巨頭才能擁有推動(dòng)語音解決方案前進(jìn)所需的資源,從而變得更加人性化。
聲明:版權(quán)所有 非合作媒體謝絕轉(zhuǎn)載
作者:Paul Korzeniowski
原文網(wǎng)址:https://www.speechtechmag.com/Articles/Editorial/Features/The-State-of-Speech-Engines-139107.aspx