“早上7點(diǎn)15的時(shí)候叫醒我”;如果你還想再睡會(huì),就說“40分鐘后叫醒我”。只要你準(zhǔn)確的回答時(shí)間,iPhone的Siri就會(huì)非常準(zhǔn)時(shí)的叫醒你。
隨著siri被引入iPhone 4S中,智能語音技術(shù)已經(jīng)成為移動(dòng)互聯(lián)網(wǎng)界最關(guān)注的焦點(diǎn)之一。“這種智能語音技術(shù)區(qū)別于傳統(tǒng)的人機(jī)對話,新型人機(jī)對話技術(shù)就是讓機(jī)器從”能聽會(huì)說“變成”會(huì)聽能做“,即聽得懂說的,懂得聽什么,聽不清楚了能問,最后能完成用戶的任務(wù)。”上海交大計(jì)算機(jī)科學(xué)與工程系研究員俞凱介紹說。
俞凱博士擁有劍橋大學(xué)語音識(shí)別專業(yè)的學(xué)術(shù)背景,也是國內(nèi)學(xué)術(shù)界“青年千人計(jì)劃”里唯一一位來自語音技術(shù)行業(yè)領(lǐng)域的語音專家,他曾經(jīng)多次獲得美國國家標(biāo)準(zhǔn)局和美國國防部語音識(shí)別評(píng)測冠軍。在劍橋大學(xué)期間,他成為研究組歷史上與三位語音教授都合作過的第一人,其中最知名的研究合作者便是國際語音界的權(quán)威人物史蒂夫·楊;貒,他在上海交通大學(xué)組建智能語音實(shí)驗(yàn)室。
語音識(shí)別達(dá)不到百分之百的準(zhǔn)確,在有不確定性的情況下,機(jī)器仍可與人進(jìn)行對話;谶@個(gè)研究思路,俞凱正式開啟了新的智能語音技術(shù)研究之路。從開始做語音合成和對話管理,到開發(fā)整個(gè)對話系統(tǒng)的架構(gòu),他成為了國內(nèi)智能語音技術(shù)領(lǐng)域研究覆蓋面較廣的學(xué)者。
在劍橋大學(xué)期間,俞凱參與研發(fā)了“認(rèn)知型的對話系統(tǒng)”,作為這個(gè)系統(tǒng)直接的設(shè)計(jì)和實(shí)現(xiàn)的負(fù)責(zé)人,他說,這個(gè)對話系統(tǒng)就是基于不確定性存在的情況下進(jìn)一步理解,它和正常的對話系統(tǒng)沒什么區(qū)別,就像人和人聊天一樣,但是它能更好的和人聊天。這也是全球首個(gè)能夠在真實(shí)世界的任務(wù)中運(yùn)行的對話系統(tǒng)。
“理論要和工程結(jié)合,工程要和產(chǎn)業(yè)結(jié)合。我不認(rèn)為自己是個(gè)科學(xué)家,更多的算個(gè)喜歡鉆研理論的工程師吧”。俞凱說。
他強(qiáng)調(diào)智能語音技術(shù)研究對工程性和實(shí)踐性要求高。語音研究和其他研究有一個(gè)最大的不同—工程和理論結(jié)合特別緊密。這是因?yàn)橄到y(tǒng)的搭建需要幾千甚至上萬個(gè)小時(shí)的語料,系統(tǒng)的運(yùn)行也需要讓數(shù)百萬,數(shù)千萬人檢驗(yàn)?zāi)芊窨尚。這也是工程為什么需要融入產(chǎn)業(yè)。
“我的愿望是所做的技術(shù)能夠被千千萬萬的人實(shí)際使用。”他介紹,目前在國內(nèi)語音合成和識(shí)別產(chǎn)業(yè)化的著名企業(yè)是科大訊飛,人機(jī)對話的探索則以蘇州思必馳為先。思必馳發(fā)布了國內(nèi)第一個(gè)對話平臺(tái)—對話工場。
加載了“對話工場”技術(shù)的智能設(shè)備相當(dāng)于裝上一個(gè)“人腦”,集“聽”“說”“理解”“對話”“感官”的5組對話能力。開發(fā)者可以免費(fèi)借助對話工場實(shí)現(xiàn)語音識(shí)別、語音合成、語義理解、智能對話,聲紋識(shí)別等諸多功能,可以應(yīng)用于電子商務(wù),手機(jī)游戲,生活信息服務(wù),車載導(dǎo)航,智能助手等移動(dòng)生活的方方面面。像聯(lián)想、蘇州電信、同程網(wǎng)、土曼智能手表、幻騰智能燈、智能家居Broadlink、驢媽媽等都采用了思必馳的語音技術(shù)解決方案。
在移動(dòng)互聯(lián)網(wǎng)的使用上,把識(shí)別、語義理解和人機(jī)對話連在一起,幫助用戶完成任務(wù)?赡茉谖磥砟軌蚴且粋(gè)新的、劃時(shí)代性的變革。他說,假設(shè)移動(dòng)互聯(lián)設(shè)備沒有屏幕,通過交互式的語音對話,系統(tǒng)仍能完成任務(wù)。對話式的交互可能是未來在移動(dòng)互聯(lián)網(wǎng)時(shí)代人機(jī)交互的一種常規(guī)的形式。“我希望通過語音讓這個(gè)常規(guī)的形式有理論依據(jù),能做到國內(nèi)最好,甚至全世界最好,這算是一個(gè)不大不小的夢想吧。”