“語音識(shí)別”作為一場(chǎng)解放雙手的革命,幾十年來一直備受推崇,但這場(chǎng)革命總是處在不溫不火的狀態(tài),從電腦到手機(jī),再到如今的車機(jī),“語言識(shí)別”一直是叫好不叫座。這樣“溫水煮青蛙”的狀態(tài)什么時(shí)候才能改變?“語音識(shí)別”將是下一個(gè)互聯(lián)網(wǎng)的入口?它會(huì)掀起車機(jī)領(lǐng)域的變革嗎?帶著這些疑問,筆者采訪了專注人機(jī)交互語音識(shí)別的企業(yè)——車音網(wǎng)首席執(zhí)行官王力劭。
語音識(shí)別——車機(jī)革命從這里興起
數(shù)據(jù)采集 提高用戶感受度
“沒有任何一種引擎可以說把方言語音識(shí)別處理好,這是由人們采集的語音量來決定的。”
車音網(wǎng)一直致力于人機(jī)交互的語音識(shí)別系統(tǒng)的研發(fā)和推廣,而車音網(wǎng)提出的自然語言識(shí)別概念一直為外界所津津樂道。何為自然語言識(shí)別?通俗的來說就是可以識(shí)別人們的日常語言習(xí)慣,你講普通話也好,講方言也好,系統(tǒng)都能識(shí)別出你要表達(dá)的意思,這就是在最自然的狀態(tài)下達(dá)到了人機(jī)交互的目的。
方言的語音識(shí)別到底準(zhǔn)還是不準(zhǔn)呢?如何提升用戶體驗(yàn)度?王力劭解釋說,語音識(shí)別還是機(jī)器學(xué)習(xí)技術(shù)的一種,因?yàn)橛?jì)算機(jī)沒有聯(lián)想能力,它只能按你告訴它的規(guī)則去做。所以識(shí)別不是完全靠程序來實(shí)現(xiàn)的,還要靠采集到的大量同一句話的不同波形,建立龐大的語音信息資源庫來實(shí)現(xiàn)。在普通話語系里有各種各樣的樣本,當(dāng)采集的某一個(gè)樣本跟之前的聲音很像,可能落在之前采集的樣本里,系統(tǒng)就能識(shí)別這句話。當(dāng)采集到十萬、百萬、千萬個(gè)人說話的樣本后,覆蓋面就非常廣了。作為這方面的先行者,王總又補(bǔ)充道,采集的樣本必須分布合理,根據(jù)地域、年齡段、性別將其區(qū)分。所以采集的樣本越多,機(jī)器識(shí)別的就越準(zhǔn)確。
在方言識(shí)別方面,車音網(wǎng)把方言按語系來劃分,如廣東話、上海話、閩南話等。但是同一語系不同地區(qū)的人方言也會(huì)有很大的區(qū)別,為此王總打了一個(gè)比方,就像同樣講英語,北美地區(qū)的、非洲地區(qū)的和亞洲地區(qū)的講起來的感覺也是不盡相同,所以在采集數(shù)據(jù)時(shí)就要求覆蓋面廣,一個(gè)語系內(nèi)不同地區(qū)的方言都要采集到。而車音網(wǎng)在英語識(shí)別方面也采集了很多地區(qū)英語口音的樣本,這些樣本主要來自于東南亞地區(qū)。所以王總不無感慨的說:“沒有一種引擎可以說自己的方言語音識(shí)別處理的好,更多的還要依賴于研究團(tuán)隊(duì)采集的語音量。”
十年磨一劍 成就技術(shù)壁壘
“這三輪數(shù)據(jù)的采集就是現(xiàn)在車音網(wǎng)的核心,一個(gè)公司低下頭一直這樣踏踏實(shí)實(shí)地干不是件容易的事。”
上千萬的語音樣本采集聽起來就是一項(xiàng)持久而艱辛的工作,在這個(gè)過程中車音網(wǎng)花費(fèi)了多少時(shí)間、多少精力,這些都是他人不知道的。王力劭說,國(guó)外最早出現(xiàn)的語音識(shí)別是IBM ViaVoice ,就是一個(gè)人對(duì)著機(jī)器不停地說話,訓(xùn)練機(jī)器的次數(shù)越多,機(jī)器的識(shí)別率越高。但是這種方式只針對(duì)特定的人,換一個(gè)人就不行了。特定的人不需要采集語樣,只需要不停地訓(xùn)練就可以了,機(jī)器運(yùn)算相對(duì)來說也簡(jiǎn)單多了。可以說,IBM ViaVoice所帶來的不用雙手的輸入方式,是一場(chǎng)解放雙手的革命。車音網(wǎng)做語音識(shí)別是從99年開始的,是中國(guó)最早一批研究非特定人語音識(shí)別技術(shù)的企業(yè),那時(shí)他們?cè)谧瞿M推演時(shí)發(fā)現(xiàn),即使能夠采集來數(shù)據(jù),機(jī)器也沒有那么大的計(jì)算能力,服務(wù)器性能低下,根本無法進(jìn)行系統(tǒng)開發(fā),所以決定投入大量的精力進(jìn)行語音采集。
語音的采集也不是一件容易的事,當(dāng)時(shí)車音網(wǎng)想到的就是最原始的方法——雇人,全國(guó)各地找代表收集語音樣本。他們制定了一套采集標(biāo)準(zhǔn),有明確的區(qū)間劃分,然后整理了一份大約50句話的腳本。這50句話也是經(jīng)過了一番研究確定的,正常人在讀這50句話時(shí),可以把聲音的鏈接方式、發(fā)聲規(guī)律、特征點(diǎn)概括出來。這個(gè)苦力活一直干到2004年,從今天的眼光來看,當(dāng)年做這件事是一個(gè)非常明智的決定。這項(xiàng)工作依靠融資和風(fēng)投耗費(fèi)了幾千萬的資金,但是獲得的語音量是非常廣的,并且都是按照車音網(wǎng)自己的規(guī)范來的。而這一點(diǎn),如今的多數(shù)創(chuàng)業(yè)公司已經(jīng)很難做到了,資金消耗動(dòng)輒上億,風(fēng)投也會(huì)更加謹(jǐn)慎評(píng)估了。所以說采集的數(shù)據(jù)也成為車音網(wǎng)語音識(shí)別的一個(gè)壁壘。
2001年,車音網(wǎng)開始跟多家電信運(yùn)營(yíng)商合作,負(fù)責(zé)語音點(diǎn)歌、語音查詢等,并且上線了一系列電子系統(tǒng),和一些城市的114也展開了合作,這樣他們就可以收集到大量的8K信道的數(shù)據(jù),8K數(shù)據(jù)是最基本電話通道的數(shù)據(jù),F(xiàn)在人們很容易收集到16K的聲音,如微信等軟件,但16k的聲音和電話里的不同,所以現(xiàn)在一些公司缺乏8K數(shù)據(jù)采集的機(jī)會(huì), 8K的數(shù)據(jù)是稀缺的。