聲音的力量:對話谷歌語音技術(shù)負(fù)責(zé)人
2011/02/17
北京時間2月16日消息,據(jù)國外媒體報道,知名科技博客TechCrunch作者賈森·金凱德(Jason Kincaid)發(fā)表文章,講述了他與谷歌語音技術(shù)負(fù)責(zé)人邁克·科恩(Mike Cohen)最近進行的一次談話,內(nèi)容涉及谷歌大力投入語音技術(shù)的原因及發(fā)展前景。
谷歌語音技術(shù)負(fù)責(zé)人邁克·科恩(Mike Cohen)
以下為全文摘要:
盡管智能手機應(yīng)用程序花樣翻新,層出不窮,但是如果你拿出手機,說一聲“尋找到科技館的道路”,谷歌就會立即照做的話,你仍然會感到這個情景有點不太尋常。語音技術(shù)通過iPhone應(yīng)用程序,以及與Android的深度整合,正在變得日益普遍,而這實際上僅僅是一個開始。
回顧過去
在討論現(xiàn)在的狀況之前,我們先來回顧一下科恩過去的經(jīng)歷,也可以說這是在回顧語音技術(shù)的歷史,因為雖然科恩從2004年開始一直在谷歌工作,但他自80年代初在斯坦福研究院做研究時起,就站在語音和技術(shù)的交匯之處,至今已經(jīng)幾十年了。
科恩說,在20世紀(jì)70年代語音工作有兩大陣營:語言學(xué)家和工程師。語言學(xué)家強調(diào)規(guī)則——他們會找出語法和發(fā)音上的各種趨勢,以及每一個音素如何與其他音素互動。工程師們則采用了不同的方法:他們的目標(biāo)不是試圖以人工方式精心確定每個規(guī)則,而是構(gòu)建復(fù)雜的統(tǒng)計模型,當(dāng)有更多的語音數(shù)據(jù)輸入到這些模型中時,它們就會得以改進。
到了70年代末和80年代初,當(dāng)科恩開始在斯坦福研究院做研究時,工程師們正處于領(lǐng)先位置,但是存在著這樣一個問題:統(tǒng)計模型的改進已經(jīng)開始形成漸近線?贫鹘忉屨f,因為這些模型總是相同的,向它們輸入更多的數(shù)據(jù)終究會出現(xiàn)報酬遞減(例如他們的模型不善于識別發(fā)音在多大程度上取決于哪些詞被說出,又在多大程度上取決于上下文是什么)。工程師們需要找到一種方式來建立更好的模型,所以他們終于開始與語言學(xué)家們合作,造就了另一波研究熱潮。
到90年代初,語音技術(shù)已經(jīng)獲得了長足的發(fā)展,研究人員創(chuàng)建了航空旅游信息系統(tǒng)(ATIS,Air Travel Information System,用戶可以走到一個終端,說“告訴我從波士頓出發(fā)的航班”,計算機就會顯示相關(guān)數(shù)據(jù)。該系統(tǒng)可以識別這些命令無數(shù)種的變化,因此你不必記住某些關(guān)鍵字)。在Windows 95面市時就有了ATIS這樣的系統(tǒng),這讓人覺得有些不可思議。
在ATIS獲得成功的基礎(chǔ)上,科恩認(rèn)為這項技術(shù)已經(jīng)做好了商業(yè)應(yīng)用的準(zhǔn)備,所以他和三個聯(lián)合創(chuàng)始人創(chuàng)辦了Nuance公司,為需要處理大量呼入電話的大公司建立自動電話系統(tǒng)(電話公司的客戶服務(wù)系統(tǒng)就是一個例子)。
科恩繼續(xù)尋找改善Nuance語音識別軟件的方法(鑒于他曾是一位研究者,這也就不足為奇了)。而且事實證明,海量的呼入錄音比他在斯坦福研究院做研究時獲得的數(shù)據(jù)更加有用,因為有些東西無法在實驗室環(huán)境中重現(xiàn),比如背景中的狗叫聲,孩子的哭聲等等,而這些聲音會出現(xiàn)在呼入的電話中,所以Nuance面臨著語音分析的重大新挑戰(zhàn)。
但這里有一個很大的問題:盡管Nuance的技術(shù)正在處理大量數(shù)據(jù),Nuance公司還是必須向它的每個企業(yè)客戶提出請求,以便獲得這些數(shù)據(jù)用于研究目的。這樣做對企業(yè)有好處,因為它們能從技術(shù)改進中獲益,但一些企業(yè)仍然對此持謹(jǐn)慎態(tài)度。這最終導(dǎo)致科恩進入了谷歌。
GOOG-411項目
在2004年前,谷歌基本上沒有語音技術(shù),但是科恩看到了機會。即使在那個時候,手機將對未來技術(shù)產(chǎn)生巨大影響的跡象就很明顯。而且,由于谷歌直接面對最終用戶,它收到的任何語音數(shù)據(jù)都可以方便地用于研究目的。于是科恩進入谷歌,著手開展GOOG-411項目,后來它成為谷歌的免費411語音服務(wù)。
這項服務(wù)在2007年推出,它提供了一個簡單方便的功能集:你給它打電話詢問一些基本信息,比如一個企業(yè)的電話號碼,它就會馬上為你提供相關(guān)信息,而且是免費的。科恩說,推出GOOG-411的主要原因就是“它有用”,但它還有一個重要的副作用:谷歌從此開始建立一個龐大的語音數(shù)據(jù)庫。還記得前面討論過的數(shù)據(jù)模型嗎?谷歌語音系統(tǒng)在概念上與之類似,但是規(guī)模大得多。
GOOG-411項目在十月份取消了,但這時谷歌已經(jīng)有了更多的語音數(shù)據(jù)輸入方式,包括在Android上到處可見的麥克風(fēng)按鈕,以及Google Mobile的iPhone應(yīng)用程序。而且谷歌可以查看基于文本的搜索查詢詞條,確定一個詞后面出現(xiàn)得最頻繁的是哪個詞。這一切都意味著谷歌可以相對較快地改進其語言模型。
科恩說,如今谷歌使用2300億個搜索查詢詞條來“培訓(xùn)”其語音識別功能所使用的語言模型。為了形象地說明數(shù)據(jù)量有多大,科恩說,如果只用一個CPU,這個“培訓(xùn)”需要70年時間才能完成。
這項技術(shù)現(xiàn)在已經(jīng)用在谷歌的多種產(chǎn)品中。YouTube自動為數(shù)百萬視頻添加了字幕。谷歌語音服務(wù)嘗試將呼入的語音郵件轉(zhuǎn)錄成文字(產(chǎn)生了一些非;慕Y(jié)果)。語音搜索將在移動設(shè)備上發(fā)揮更大的作用,所以,如果在不太遙遠(yuǎn)的將來,你看到配有媒體中心的車輛在運行Android,請不要感到驚訝,它們肯定帶有語音功能。
科恩很高興地談起谷歌在聲音技術(shù)上做出的努力,但他沒有透露統(tǒng)計數(shù)據(jù),即將發(fā)布的功能,也沒有做出預(yù)測。科恩承認(rèn),谷歌語音搜索的量波動很大,取決于是否有新的帶有語音功能的服務(wù)推出,以及是否報刊最近進行了報道。
當(dāng)我問他,多久之后語音搜索將變得非常準(zhǔn)確,以至于我們可以將它視為理所當(dāng)然(指不需要再檢查文字的拼寫錯誤),雖然他說了類似于“五年”這樣話(對于研究工作而言,這相當(dāng)于是說“我不知道”),但他不愿意談及具體計劃。
我也問過他,對蘋果在語音技術(shù)方面采取的行動有什么想法(蘋果去年收購了以語音搜索技術(shù)為主的公司Siri,很明顯蘋果想把將語音技術(shù)納入到iOS中),科恩同樣也沒有這個問題上說多少(雖然這并不令人感到驚訝)。他只是說,谷歌已經(jīng)推出了一個產(chǎn)品,因此擁有數(shù)據(jù)量大的天然優(yōu)勢,但這個問題的答案最終將歸結(jié)于蘋果開發(fā)了什么產(chǎn)品以及它與誰合作。
不過,雖然科恩沒有談及具體細(xì)節(jié),他卻講到了谷歌語音技術(shù)的長遠(yuǎn)目標(biāo):讓語音輸入變得無處不在。 “就像你可以在很多地方用鍵盤輸入文本,你也應(yīng)該可以在很多地方使用語音輸入!倍鴾(zhǔn)確性是其中的一個要點 “它需要極為‘接近完美’,人們選擇使用語音輸入不在于它的表現(xiàn),而在于最終用戶的喜好!
騰訊科技
相關(guān)閱讀:
感谢您访问我们的网站,您可能还对以下资源感兴趣:
亚洲综合伊人,成人欧美一区二区三区视频不卡,欧美日韩在线高清,日韩国产午夜一区二区三区
a级**毛片,成年女人视频播放免费观看,亚洲第一区视频,日韩在线视频中文字幕
日本不卡中文字幕一区二区,精品国产一二三区,国产高清天干天天视频,天天干天天天天
亚洲高清视频在线播放,一级淫片在线观看,三级aa视频在线观看,欧美天天爽
黄色永久免费,www.sese123,91系列在线观看,美国毛片一级视频在线aa
mmmmxxxx国产在线观看,亚洲合集综合久久性色,在线国产观看,亚洲精品一级无码中文字幕
玖玖精品,国产精品1区2区3区在线播放,天堂网视频在线,欧美精品在线视频
欧美色人阁,aaaa大片,神马影院午夜剧场,91福利一区二区三区
亚洲一区二区三区高清不卡,美国毛片aa,啪啪视,天天添天天操
综合激情网站,最新中文字幕在线播放,电影伦敦战场,亚洲精品在线不卡
www淫,亚洲欧美在线视频免费,www.亚洲一区二区三区,98色花堂国产精品首页