近年來,智能人機交互(以下簡稱“HCI”)技術已成為全世界學術界、產(chǎn)業(yè)界最活躍的領域之一,智能語音交互、智能圖像識別、自然語義理解、生物特征識別等HCI技術的進步,也在影響并改變著更多產(chǎn)業(yè)的發(fā)展進程。它像是潤物細無聲的春雨一樣,正默默地改變著人們的工作與生活方式。
在中關村,HCI技術的發(fā)展不僅能夠保持與世界同步,并且在一些領域保持著領先地位。今天讓我們跟隨張連毅走進這個在很多人眼中神秘的領域,體驗它的魅力。
26年前,張連毅于清華大學畢業(yè)。2013年,他以另外一個身份再次回到清華大學。人的一生有多少個25年?“HCI技術是一項可能永遠也無法達到完美、完善的技術,不斷地創(chuàng)新會讓技術無限接近盡善盡美,但可能永遠不會達到終點,這就是HCI技術的魅力所在。而我和清華大學的緣分也將沒有終點地持續(xù)下去。”他用這樣一段話來解釋自己和清華大學的不解之緣。
北京商報:智能人機交互技術是什么?
張連毅:人與機器的交流像人與人交流一樣簡單自然,如果要實現(xiàn)這一夢想,就必須讓機器具備更多像人一樣的能力。伴隨著技術的進步,這一夢想正逐步得以實現(xiàn),而這就是智能人機交互技術,也稱HCI(Human-Computer Interaction)技術。從最早的OCR,讓電腦像人一樣擁有了眼睛;到手寫識別,讓電腦像人一樣擁有了手;從語音合成,讓電腦像人一樣說話,就像擁有了人的嘴;到語音識別,讓電腦能夠聽懂人的語言,就像擁有了人的耳朵;再到自然語言理解,電腦正逐漸學會像人一樣思考;現(xiàn)在的生物特征識別技術,如人臉識別、掌紋識別等技術,不僅使電腦變得越來越像人,而且已經(jīng)開始展現(xiàn)超越人的能力。
北京商報:HCI會為我們的生活帶來怎樣的改變?
張連毅:縱觀國內(nèi)外信息產(chǎn)業(yè)發(fā)展趨勢,HCI產(chǎn)業(yè)作為一個新興的產(chǎn)業(yè)集群正在迅速崛起,智能語音交互、智能圖像識別、自然語義理解、生物特征識別等HCI技術的進步,也在影響并改變著更多產(chǎn)業(yè)的發(fā)展進程。從百度導航、導航犬這樣的導航軟件,到嘀嘀、快的這樣的叫車軟件,從辦公室內(nèi)的文件掃描識別,到手機中的天行輸入法,從天行聽書這樣的隨身聽書軟件,到谷歌眼鏡的圖像識別技術,從智能手機到可穿戴設備,這里面濃縮著眾多HCI技術的成果。它像是潤物細無聲的春雨一樣,正默默地改變著人們的工作與生活方式。
北京商報:中國的HCI技術在國際上處于什么地位?
張連毅:近年來,HCI技術已成為全世界學術界、產(chǎn)業(yè)界最活躍的領域之一,而中國HCI技術的發(fā)展不僅能夠保持與世界同步,并且在一些領域保持著領先地位。
北京商報:什么原因讓中國的HCI技術獲得了今日的成功?
張連毅:在我看來,除了很多企業(yè)所做出的貢獻,也離不開清華大學、北京大學等高等院校、科研院所幾十年來所做出的杰出貢獻。自上世紀80年代起,清華大學率先在國內(nèi)開展智能圖像識別、智能語音交互等HCI技術研究,一直是國內(nèi)HCI領域最重要的研究力量,保持并擁有在學術、科研、產(chǎn)業(yè)化應用的領導地位,并不斷為中國乃至世界學術界、產(chǎn)業(yè)界培養(yǎng)、輸送大批優(yōu)秀人才。
北京商報:去年底,捷通華聲和清華大學開始了新一輪的戰(zhàn)略合作,并在語音識別技術上取得優(yōu)異成績,業(yè)界有人評價這次合作將重新改寫中國語音產(chǎn)業(yè),甚至改變HCI產(chǎn)業(yè)的市場格局,您怎么看?
張連毅:捷通華聲的語音識別技術在清華大學的支持下已達到國內(nèi)外最高水平,確實在產(chǎn)業(yè)內(nèi)引起不小的影響,也很快就改變了國內(nèi)現(xiàn)有智能語音技術領域的競爭格局。但捷通華聲與清華大學合作,不僅局限在智能語音技術領域,我們也將在HCI技術領域展開全方位的合作。
捷通華聲自1998年就開始專注于語音、手寫等多種HCI技術的研究與應用,2011年,捷通華聲在國內(nèi)推出了第一個全方位智能人機交互技術云服務平臺——靈云,靈云提供包括語音合成、語音識別、手寫識別、OCR、自然語言理解等多種HCI技術能力,并向社會、產(chǎn)業(yè)全面開放。靈云平臺自推出以來,展現(xiàn)出越來越強勁的市場需求,僅在智能手機領域,目前就有數(shù)千開發(fā)者應用靈云各項HCI技術開發(fā)了上千款智能手機應用。
在發(fā)展靈云的過程中,我們意識到面對這樣一個寬廣的技術領域與巨大的市場,捷通華聲不能完全僅憑自己的力量發(fā)展HCI技術,而在HCI技術領域,清華大學的科技力量一直是全國最強大的,捷通華聲管理團隊都是畢業(yè)于清華大學,因此我們就想到與清華大學合作,通過靈云平臺幫助清華大學將HCI領域的研究成果與廣大的市場需求對接,促進科技成果轉(zhuǎn)化;同時,清華大學也在探索產(chǎn)、學、研一體化創(chuàng)新體制,學校鼓勵清華實驗室與教授們將自身的科技成果轉(zhuǎn)化為真正的生產(chǎn)力,服務產(chǎn)業(yè)、服務社會大眾,因此我們的想法得到了清華大學HCI相關技術實驗室與教授們的支持與鼓勵,雙方很快就在智能語音、智能圖像等多個HCI技術領域展開了技術合作,雙方合作得非常順利與自然。
與清華大學的合作是捷通華聲發(fā)展中一個里程碑式的事件,雖然我們已經(jīng)在語音識別技術上取得了豐碩的成果,但也應看到,智能語音產(chǎn)業(yè)是HCI產(chǎn)業(yè)集群的組成部分。未來發(fā)展中,我們將依托清華大學在HCI技術領域中的雄厚研究力量,全面推動中國HCI技術的發(fā)展進步,共同構建產(chǎn)學研一體化的創(chuàng)新發(fā)展新模式,推動實現(xiàn)“靈云科技 源自清華 服務全球”的戰(zhàn)略規(guī)劃。這樣,不僅將幫助捷通華聲,也必將幫助一大批中國企業(yè)提升企業(yè)核心競爭力,促進中國HCI產(chǎn)業(yè)新格局的誕生,提升中國HCI產(chǎn)業(yè)在世界范圍內(nèi)的核心競爭力。
北京商報:捷通華聲如何達到服務全球的目標?
張連毅:目前,靈云多語種語音合成技術已全面支持中文普通話、粵語、英語、法語、俄語、西班牙語、意大利語、德語、葡萄牙語、日語、韓語等13種語言,覆蓋全球90%以上的國家和地區(qū),與我們覆蓋92種語言手寫識別技術可謂“珠聯(lián)璧合”。這在另一個方面也說明,靈云平臺已開始具備服務全球的基本能力,如今,有了清華大學的支持,我們在多語言HCI技術能力上也將越來越強。靈云的發(fā)展一定會為中國企業(yè)進軍國際市場、全面參與國際競爭提供更多的HCI技術能力支撐。
北京商報:您對捷通華聲的未來有什么樣的規(guī)劃?
張連毅:未來,捷通華聲將在與清華大學合作的基礎上堅定推動“靈云科技 源自清華 服務全球”的戰(zhàn)略發(fā)展規(guī)劃,同時也將不斷與國內(nèi)外學術界、產(chǎn)業(yè)界,包括國際跨國企業(yè)進行合作,力爭通過全球范圍的合作,為世界各國用戶提供更多、更好、更全面的HCI技術能力,將靈云平臺打造成國際品牌,也將合作共贏的理念通過靈云HCI技術能力融入中國、融入世界。
“歡迎北京商報的記者來公司交流溝通,我們一起聊聊智能人機交互技術在現(xiàn)代生活工作中的應用。”伴隨著捷通華聲董事長張連毅的一條語音短信,北京商報記者開始了這次專訪。
“免費打車”的幕后英雄
“今天怎么打車”是前一段時間最為熱門的話題之一。用手機軟件打車的新習慣正在北京、上海、杭州等地的年輕人群中逐漸養(yǎng)成。花上不多的流量用手機軟件預約出租車,即便在上下班高峰時間段,也有可能在中心城區(qū)獲得不一般的“禮遇”——一輛出租車專門為你而來。
這一話題源自今年1月,嘀嘀打車和快的打車兩大“打車神器”先后推出軟件叫車的優(yōu)惠服務。記者在采訪中了解到,“打車神器”不僅改變了叫車方式,甚至改變了不少出租車司機的運營習慣,還有司機師傅專門購買了新手機“搶單”。
除了可以享受“免費打車”,軟件使用的便捷無疑是引爆這一話題的重要因素。如果您是一名乘客,只需要打開軟件像發(fā)送微信一樣發(fā)送一段語音信息,就可以坐享便利的打車服務。如果您是一名的士司機,您只需要聆聽手機中傳來的叫車信息,就可以便捷接單。
但是很多人卻不知道,在這兩款“打車神器”中,捷通華聲“靈云”平臺起到了不可忽視的作用。當用戶發(fā)送語音需求后,語音信息將通過靈云的語音識別將其轉(zhuǎn)化為文字傳送到服務器,服務器再根據(jù)打車地點分配到附近的司機客戶端。而如果您發(fā)送的是一條文字信息,那文字信息將直接發(fā)送到服務器,服務器同樣根據(jù)打車地點分配到附近的司機客戶端,再通過靈云語音合成將其轉(zhuǎn)化為語音播放給司機。
這看似簡單的一聽、一說之間,匯聚的是捷通華聲十多年的默默耕耘。