亚洲综合伊人,成人欧美一区二区三区视频不卡,欧美日韩在线高清,日韩国产午夜一区二区三区,大胆美女艺术,一级毛片毛片**毛片毛片,你瞅啥图片

 首頁 > 新聞 > 專家觀點 >

對話科大訊飛馬漢君:AIUI將讓智能語音大爆發(fā)?

2016-07-06 13:52:09   作者:   來源:網(wǎng)易科技   評論:0  點擊:


  今年以來,隨著人工智能和機器人技術(shù)的發(fā)展,智能語音行業(yè)迎來了一個爆發(fā)式的增長。最明顯的趨勢就是,做語義分析的公司越來越多,而且行業(yè)越來越細(xì)分,其中兒童市場和車載市場的語音解決方案也隨之興起。作為國內(nèi)最大的智能語音廠商,科大訊飛發(fā)布了一整套的語音交互解決方案AIUI?拼笥嶏w將AIUI定義為物聯(lián)網(wǎng)時代的人機交互標(biāo)準(zhǔn),AIUI集成了科大訊飛在雙全工技術(shù)、麥克風(fēng)陣列技術(shù)、聲紋識別技術(shù)、方言識別、語義理解技術(shù)和內(nèi)容服務(wù)等技術(shù)和服務(wù)。該技術(shù)的核心是智能化的多輪對話管理和上下文理解。
  近日,科大訊飛語音云平臺的副總經(jīng)理馬漢君接受了網(wǎng)易科技的獨家專訪。作為AIUI的負(fù)責(zé)人,馬漢君闡述了對語音、語言、語義的技術(shù)解決方案有著深刻的理解,以及對國內(nèi)智能語音市場的變化和今年的趨勢的看法。
\
馬漢君在網(wǎng)易未來科技峰會上發(fā)言
  以下為采訪實錄(由網(wǎng)易科技整理):
  關(guān)于AIUI
  網(wǎng)易科技:科大訊飛的AIUI到底是一個什么樣的項目?怎樣去定位它?
  馬漢君:訊飛希望打造一套語音交互的標(biāo)準(zhǔn),在這套模式中,我們把科大訊飛的語音識別、對語音的思考理解貫穿起來,AIUI就是一套軟硬一體的模塊方案。針對于聊天機器人,我們可以去做聊天機器人的場景定制,可以做一些智能家居的服務(wù)的定制。但是不管是怎樣的模式,這些交互的程序,我們會把它固定下來。這種固定的交互模式比如說,AIUI是隨時在錄音的,你可以隨時將它喚醒等等。當(dāng)然,有些特性會開放,比如語音喚醒詞、視頻通話等等,方便用戶自己定制。
  不管是家庭的機器人,還是家庭智能設(shè)備,車載智能設(shè)備,AIUI能解決企業(yè)與客戶之間的交互問題。AIUI不是一個系統(tǒng),而是一套交互的解決方案。
  網(wǎng)易科技:與DingDong平臺是什么關(guān)系?
  馬漢君:AIUI是一套語音集成的解決方案,DingDong平臺是從音樂本身的內(nèi)容來做運營,從家居廠商的合作去拓展。前者是橫向的方案,后者是縱向的拓展平臺。
  網(wǎng)易科技:AIUI有沒有集成進(jìn)某些系統(tǒng),比如Android系統(tǒng)的計劃呢?
  馬漢君:AIUI肯定是要融入到目前的系統(tǒng)上面的,例如Android系統(tǒng)、Windows系統(tǒng)等等,成為系統(tǒng)本身的一部分。
  AIUI對于硬件的需求,首先是噪音環(huán)境的問題,這一點上就需要硬件上必須有麥克風(fēng)陣列。系統(tǒng)方面,AIUI對運算能力有一定需求,也就是對CPU和GPU有一定要求。具體的我們會給出一套方案來,按照我們給出的參考來進(jìn)行硬件設(shè)計,以便更好的進(jìn)行降噪拾音。目前看來,AIUI只支持Android系統(tǒng)。就像游戲引擎對顯卡的邀請,AIUI也會對硬件有一定要求。
  訊飛自己的產(chǎn)品會打造一些標(biāo)桿,比如訊飛與京東合作開發(fā)的DingDong音箱,我們會把它做成家庭應(yīng)用場景中的標(biāo)桿。在車載交互上也會與合作伙伴共同開發(fā)打造標(biāo)桿型的產(chǎn)品。在兒童機器人、家庭機器人等領(lǐng)域我們會挑選一個戰(zhàn)略合作伙伴。在教育領(lǐng)域我們要做全行業(yè)的教育解決方案。而在某些領(lǐng)域我們只作為一個技術(shù)方案提供方,我們會把我們的技術(shù)向合作方的合作領(lǐng)域提供。
  網(wǎng)易科技:訊飛會專注于某些領(lǐng)域?說到與合作伙伴的合作,AIUI如何與他們合作改善交互體驗?
  馬漢君:訊飛會在很多的服務(wù)領(lǐng)域去拓展,在不同的領(lǐng)域有不同的定位。在家庭領(lǐng)域,訊飛與京東合作打造了DingDong音箱,這是一個標(biāo)桿型的產(chǎn)品。在教育領(lǐng)域,訊飛會做深度的教育解決方案。在車載交互、機器人、其他智能硬件上面,訊飛提供底層的技術(shù),通過與合作廠商的合作深耕這一領(lǐng)域。我們是與行業(yè)廠商一起合作來構(gòu)建一個市場。
  網(wǎng)易科技:說到合作,就會涉及數(shù)據(jù)的共享。那么訊飛是以一個什么樣的模式來共享這些數(shù)據(jù)呢?大數(shù)據(jù)時代,用戶都特別擔(dān)心數(shù)據(jù)隱私的問題,在這方面如何去分配和協(xié)調(diào)?
  馬漢君:關(guān)于合作,訊飛會關(guān)注一些普適性的數(shù)據(jù)。舉個例子來說,比如音樂數(shù)據(jù),這個數(shù)據(jù)不管是在智能家居、機器人,還是手機APP上,都有它的價值。在類似這些普適性的數(shù)據(jù)上,訊飛要做深做透。對于一些特定的行業(yè)才會使用的數(shù)據(jù),比如說運營商,就需要運營商服務(wù)的業(yè)務(wù)留存數(shù)據(jù),這方面我們必須選擇與大的運營商進(jìn)行深度合作,運營商一定有一些深度的想法,這就需要雙方深度的合作。所以說,特定的行業(yè)更具特定行業(yè)的訴求來具體探討。
  對于用戶的數(shù)據(jù)來說,訊飛是與合作伙伴共享的。即使有一些用戶數(shù)據(jù)會留存在訊飛的平臺上,也不會提供給第三方,而是會與合作伙伴共同決定是否進(jìn)行深度開發(fā)。在此前提下,訊飛對于用戶的數(shù)據(jù)只會用來做語音的優(yōu)化。比如說訊飛與音樂平臺合作語音搜歌,那么用戶對于音樂的喜好這些數(shù)據(jù)要不要進(jìn)一步往電商去探索,需要兩方共同決定。
  關(guān)于智能語音行業(yè)
  網(wǎng)易科技:在語音識別上,訊飛是不是已經(jīng)足夠完善,還有沒有可以改進(jìn)的空間?
  馬漢君:從語音識別上看,在發(fā)音相對標(biāo)準(zhǔn)的情況下,識別的精準(zhǔn)度已經(jīng)很不錯了。但是從實際交互的層面說,智能語音識別需要結(jié)合你的實際情況,甚至要結(jié)合上下文的語境,這個識別才能進(jìn)一步的去提升。所以語音識別與語義理解是分不開的,還有與用戶個性化數(shù)據(jù)的結(jié)合等方面。
  網(wǎng)易科技:雖然訊飛已經(jīng)是國內(nèi)智能語音領(lǐng)域公認(rèn)的老大,但面對這么多興起的語義分析廠商,如何面對未來的行業(yè)競爭?
  馬漢君:競爭肯定是存在的。今年,做語音識別的公司沒有增加,但是做語義分析的公司增加了很多。這里有兩個原因,語音識別上還是涉及到一些深度領(lǐng)域的知識,技術(shù)門檻比較高,需要技術(shù)沉淀。另外一個很重要的原因就是深度學(xué)習(xí)之后,將語義分析的門檻降低了很多,通過數(shù)據(jù)、模型、訓(xùn)練三個步驟,很快能得到一個不錯的細(xì)分領(lǐng)域語義分析解決方案。但是語義這個東西往深做的時候,對你原有的技術(shù)沉淀積累要求很高,而且這個事情本來就是一個長跑的競爭。我們可以把語義分析這個事情形容是一個球隊,當(dāng)門檻降低了以后,很多業(yè)余的比賽是看不出差異性的,只有到了高度協(xié)同和對抗的時候才會顯出更好的專業(yè)性。目前的很多語義公司,他們可能會專注某一個領(lǐng)域去做,但是真正到了成熟的時候,還是要依靠整體的專業(yè)性解決問題。
  網(wǎng)易科技:那自然語言理解是不是從細(xì)分領(lǐng)域入手會更快的成熟?
  馬漢君:是的。所以訊飛和其他的NLP自然語言理解的公司并不是競爭的關(guān)系。大家都會選一個具體的領(lǐng)域,在這個領(lǐng)域中看看誰能最先做透。當(dāng)大家做的領(lǐng)域足夠多,這個領(lǐng)域才會慢慢起來。
  訊飛在切蛋糕的時候,還是聚焦在服務(wù)的需求上。我們可以把智能語音分為兩類,一類是閑聊,另一類是服務(wù)。服務(wù)的需求就是車載導(dǎo)航、打電話、聽音樂、導(dǎo)購咨詢、簡單信息互動。
  目前的語義理解,還是以單句的形式,但是語義理解有時候必須知道你的上下文信息。所以,這方面大家在用深度學(xué)習(xí)來做一些突破。所以我認(rèn)為,對于NLP來說,大家目前是剛剛找到突破口,還需要快速成長,預(yù)計在兩三年以后NLP這方面會有一個明顯的質(zhì)變。
  網(wǎng)易科技:您之前在網(wǎng)易未來科技峰會上說“機器人這個領(lǐng)域目前是屬于前期擴(kuò)張、快速沉淀的模式”您能否詳細(xì)解釋下這種商業(yè)模式?未來機器人的發(fā)展方向是什么?
  馬漢君:做機器人這個方向是比較明確。舉個例子來說,大家目前不清楚自己是要做商用服務(wù)還是家庭服務(wù),這是兩個比較大的不同選擇。如果我面向的是兒童教育,但是在兒童教育領(lǐng)域,到底哪一個方向會產(chǎn)生比較清晰的路線,是兒童,還是情感,還是老年陪護(hù),這些有很多公司探索,但是我們并不明白到底哪一塊是最有前景的路。
  那就需要去做前期的擴(kuò)張,然后對用戶數(shù)據(jù)進(jìn)行快速沉淀分析,然后再決定朝哪個方向發(fā)展。在沉淀的過程中,訊飛對合作廠商來說可能更多的是一種助力的角色。更多的是要機器人廠商去做,找到用戶的剛需等等。但是,在這個過程中,需要依賴交互的完善以及用戶需求的挖掘。
  關(guān)于語音在兒童市場、車載市場的應(yīng)用
  網(wǎng)易科技:對于目前討論比較熱的兒童市場、車載市場,您怎么看?
  馬漢君:先看兒童市場。兒童市場上玩具的量是很大的,這其中包括可以語音講故事的玩具。所以說,今年兒童市場的趨勢可能是玩具更加高端化,產(chǎn)品上是玩具機器人這樣一個形態(tài),如果找到一個合理價格的結(jié)合點,這個市場很快會出現(xiàn)爆發(fā)。所以說兒童這個市場還是有很大的空間的,一個就是娛樂互動,一個是早期教育。從中國的家庭環(huán)境上來說,這個意愿或者是說用戶需求還是蠻大的。但與此同時,這里邊還有很多的問題,一個就是內(nèi)容,你的機器人是否能形成體系化的內(nèi)容,是否能吸引兒童的興趣。另外一個方面在交互上,兒童的挑戰(zhàn)很大,因為兒童的語言表達(dá)不像成人那么清晰。這兩個方面需要進(jìn)一步的突破。
  在車載市場,訊飛也比較重視。目前我們已經(jīng)把訊飛的方案繼承在合作伙伴奇瑞的車上,今年四月份已經(jīng)上市。其實,在車載領(lǐng)域有一個很大的挑戰(zhàn),就是從語音廠商到車載系統(tǒng)廠商,再到汽車廠商,這個融合會很難。訊飛的解決方案是在語音解決方案的基礎(chǔ)上,提供車機、車載系統(tǒng)的一整套解決方案和汽車廠商合作,這樣我們能把鏈條收到最短。同時,我們也可以按照車場的需求來調(diào)整這個方案。
  網(wǎng)易科技:那么訊飛在自動駕駛上有沒有涉足呢?
  馬漢君:還沒有嘗試自動駕駛,因為目前自動駕駛還處于一個概念性的階段。我們還是提供比較實用的交互解決方案,比如語音導(dǎo)航,通過全程語音來查詢目的地,可以保證駕駛安全。在此之外,我們會嘗試一些輔助駕駛的解決方案,而不是直接去研究自動駕駛的語音解決方案。
  AIUI就是要樹立行業(yè)標(biāo)桿性的產(chǎn)品,一個是音樂方面做了DingDong音箱,在車載上也會與合作廠商共同打造標(biāo)桿,與其進(jìn)行深度合作。
  關(guān)于今年的行業(yè)趨勢
  網(wǎng)易科技:預(yù)測一下今年智能語音的發(fā)展?
  馬漢君:我認(rèn)為技術(shù)方面最大的發(fā)展就是突破了單點的能力,從聲學(xué)的遠(yuǎn)場識別,到語義分析和語義理解都有了很大的進(jìn)步。今年會呈現(xiàn)一種整體的交互方案。我們提出的問題不會局限于某一個識別的問題,我們會突出的解決交互的問題。比如,“我想聽,劉德華的歌”,我在說的時候中間有停頓,如果按照語音識別的結(jié)果,那可能識別成兩句話,一句是“我想聽”,一句是“劉德華的歌”,但是要把語音識別和語義理解結(jié)合在一起的時候,這兩句話就是一個含義,而不應(yīng)該拆成兩句話來處理。如果再說“我想聽他最新的歌”,那么這個“他”如果能從上下文理解的話,也能識別出來。還有就是在復(fù)雜環(huán)境中,機器人應(yīng)該聽哪些聲音,哪些聲音應(yīng)該處理?這些都屬于交互場景的問題,這些需要用整體的方案去解決。這就是我認(rèn)為的今年技術(shù)上最大的發(fā)展。
  從行業(yè)上面來說,并不是大家想象的那么樂觀。今年確實因為語義交互對整個行業(yè)有一個明顯的提升。所以會有更多的公司在語義上面去嘗試,是否能深度融合進(jìn)去。但是到底哪一個領(lǐng)域能夠開花和落地?今年并不能完全展現(xiàn)出來。這個也需要一到兩年之后,才能看出用戶的趨勢,那個時候才能進(jìn)入一個比較大的量產(chǎn)階段。
 
分享到: 收藏

專題