
這一次產業(yè)界和學術界深度融合,發(fā)揮了更廣泛作用,在捷通華聲等專注核心技術研發(fā)和產業(yè)化應用的企業(yè)共同努力下,守住了智能語音核心技術在國際競爭中的主動權,中國語音合成產業(yè)市場牢牢掌握在我們的民族企業(yè)手上。
2000年10月,本著“讓機器‘能說會聽,能寫會看,能辨音會認人,能思考會判斷’,為人們的生活帶來輕松與便捷”的美好愿望,捷通華聲成立,并提出了力爭成為國際一流的智能語音技術和智能人機交互解決方案提供商的戰(zhàn)略目標,是國內最早投入人工智能領域的創(chuàng)業(yè)團隊之一。
低調研發(fā)與積極開放,走過十年磨一劍的歷程
在人工智能的道路上,由最開始人工智能概念的普及,到深度學習掀起新一輪浪潮,到科技戰(zhàn)疫、復工復產,再到作為新基建七大領域之一被寫入政府工作報告,捷通華聲作為業(yè)內少有的具有“時代感”的一家企業(yè),每個環(huán)節(jié)都有參與,有些環(huán)節(jié)更是作為推動者在做。
自21世紀開始,捷通華聲在國內語音市場的占有率一直保持在20%左右,超過國際巨頭IBM、摩托羅拉等,二十年來,公司專注于把人工智能技術做出“中國水準”。2011年,基于深度神經(jīng)網(wǎng)絡的聲學模型在大詞匯量連續(xù)語音識別任務上獲得了顯著的性能提升,智能語音領域研究開始轉向深度學習。這一年,捷通華聲對外發(fā)布靈云(AICloud.com)平臺,將語音識別、語音合成、語義理解、機器翻譯、圖像識別等智能語音、智能語義、智能視覺技術面向產業(yè)全面開放。按照公司理念,人工智能包含一整套技術,相互之間有很強的關聯(lián)性,且在很多場景下都需要同時使用,因此,不同于其他專注單一技術的AI公司,捷通華聲致力于做全方位的人工智能。

作為新一代信息技術,人工智能經(jīng)歷了長期的技術磨合和概念炒作期。期間,捷通華聲一直專注于低調研發(fā),如果不是特意去了解,大眾可能很難知曉在馳騁的高鐵上,在2008年北京奧運會、上海世博會以及新近建成的大興機場等眾多應用場景中,都采用了捷通華聲的語音合成技術。如今,經(jīng)過多年技術的更新迭代,聲音在更逼真的同時擁有不同音色和不同風格,還基于混合語種的算法研究與數(shù)據(jù)積累,填補國內智能客服領域關于多國語言、多民族語言、多方言混合語種識別的國內應用空白。
從公司初創(chuàng)到2011年,捷通華聲經(jīng)歷的是探索與積累的過程,之后進入發(fā)展階段。隨著產學研用體系的完整構建及資金的注入,捷通華聲本著對核心技術孜孜不倦的探索精神和務實推進的原則,從低調研發(fā)走向積極開放,在不斷摸索中走出了自己的道路。即以自主研發(fā)的人工智能算法為核心,以市場應用為導向,推進智能語音、智能語義等技術研發(fā)持續(xù)創(chuàng)新與融合,形成由技術到平臺、由產品到解決方案全覆蓋的產業(yè)生態(tài),全面融入經(jīng)濟社會發(fā)展。
能力、應用及場景的融合是AI發(fā)展趨勢
人工智能是一個由淺入深的智能化過程,淺層上是智能化的人機交互方式,而深層次上則是基于機器學習技術的知識表達、歸納、推理等智能計算過程。如果說智能人機交互是人工智能的觸角,那么智能計算則是其核心。依靠深厚的技術底蘊和產業(yè)市場的拓展,靈云平臺已經(jīng)成為構建了集合數(shù)十項核心技術的全方位人工智能開放平臺,主要覆蓋智能語音、智能語義、智能視覺和大數(shù)據(jù)分析四個層面,并構建了包括技術、平臺和行業(yè)解決方案的產品生態(tài)體系。
在信息技術創(chuàng)新與應用上,捷通華聲則積極響應關鍵技術國產化戰(zhàn)略,堅持自主創(chuàng)新。目前已實現(xiàn)與鯤鵬、飛騰、龍芯、兆芯處理器,銀河麒麟、中標麒麟、UOS統(tǒng)信操作系統(tǒng),以及高斯、達夢數(shù)據(jù)庫等中間件的兼容性互認證,形成多元異構的信創(chuàng)產品生態(tài),推動人工智能技術與實體經(jīng)濟的深度融合,有望在國家自主可控的發(fā)展浪潮下持續(xù)受益。
近年來隨著我國人工智能技術和產業(yè)的迅猛發(fā)展,實體經(jīng)濟智能化成為客觀發(fā)展的必然結果。利用人工智能解決各行業(yè)痛點問題、提升生產效率,是驅動其商業(yè)化落地的根本動力,在多個應用場景中,AI的廣泛應用提高行業(yè)精準化服務水平,也提升了人們的生活品質。
隨著產業(yè)整體步入成熟化發(fā)展的新階段,部分通用化、淺層化的人工智能產品和服務難以較好地滿足各行業(yè)日益垂直化、專業(yè)化、場景化、細分化的賦能需求。人工智能產業(yè)的發(fā)展需要從場景出發(fā),深入挖掘業(yè)務,將多項AI能力進行整合,形成智能化解決方案。捷通華聲靈云平臺通過與不同行業(yè)業(yè)務系統(tǒng)的快速對接,實現(xiàn)AI與細分場景深度結合。并在尋求底層技術突破的同時,進行更加契合客戶需求的產品化開發(fā),針對客戶的特殊需求,推出了不同形態(tài)的應用和解決方案,實現(xiàn)在技術層、平臺層和應用層的全產業(yè)鏈布局。
“每個行業(yè)都有自己的問題要解決,有應用場景要突破,需要技術跟場景的深度融合,這些需求已經(jīng)不是單一的AI能力所能滿足的。人工智能企業(yè)需要具備一定的技術沉淀以及行業(yè)理解,進行能力融合、應用融合和場景融合。只有實現(xiàn)行業(yè)的垂直縱深,技術才能擁有更大的落地價值”。捷通華聲董事長兼總經(jīng)理武衛(wèi)東在采訪中如是說。
場景決定應用,應用決定市場,市場決定企業(yè)發(fā)展前景
只有企業(yè)與用戶不斷交流,才能夠了解用戶的訴求,人工智能發(fā)展的動能才會有跡可循。AI的本質是科技進步對所有產業(yè)的提升,只有AI實現(xiàn)與各傳統(tǒng)產業(yè)融合應用,才能創(chuàng)造出持續(xù)的經(jīng)濟價值和社會價值,反過來,持續(xù)向好的經(jīng)濟也會反哺人工智能企業(yè)的成長。
公司的發(fā)展目標除高瞻遠矚的先見外,還需要實際需求的推動。武衛(wèi)東在采訪中提到,公司要做全方位的人工智能,在產品落地過程中的實際應用場景也是原因之一。技術積累對創(chuàng)新型產業(yè)來說是一個漫長的過程,而短期內AI服務商很難將技術直接轉化落地應用,缺乏造血機能。如今的政策導向和市場環(huán)境使得很多頭部企業(yè)和初創(chuàng)企業(yè)涌入人工智能賽道,但實際擁有核心技術的企業(yè)并不多,原因之一就是除了算法算力等硬技術,還需要數(shù)據(jù)及場景等關鍵要素的支持,而這,正是長期積累才能夠獲得的獨家資源。例如語音識別的通用模型很容易復制,但一旦深入至B端企業(yè)及細分行業(yè)場景,單數(shù)據(jù)加工處理就需要做很多工作。因此,沒有深耕行業(yè)的決心和韌性的企業(yè)無法做到長期發(fā)展。
經(jīng)過多年的實戰(zhàn)積累,捷通華聲不僅在核心技術上勢頭猛進,同時對人工智能的場景化應用經(jīng)驗頗豐。例如靈云全方位人工智能能力平臺AICP采用開放性架構設計,集成商或客戶可以靈活挑選、組合應用各項捷通華聲研發(fā)的人工智能技術,打造符合自身需求的智能化業(yè)務應用。而靈云AICC全智能客服解決方案則在各地進行數(shù)字政府建設過程中,有力支撐了政務服務便民熱線智能化升級。同時,捷通華聲的技術提供形式也在由之前單獨的授權,向公有云、私有云解決方案轉變。以智能客服為例,如果客戶不想搭服務器,公司可提供公有云服務,如果客戶要求數(shù)據(jù)保密,則有私有云服務。換言之,公司可以在能力基礎上提供定制化方案服務。
目前,捷通華聲為黨政、金融、能源、社區(qū)、電信、交通等各行業(yè)和領域提供了眾多智能化解決方案和服務。公司在內生式增長與外延式擴張中不斷豐富核心技術,完善產品生態(tài),推動產業(yè)智能化升級。
普惠、便利是技術價值所向
顯而易見,人工智能是未來社會的趨勢,但與大多數(shù)人的想象不一樣,它是以一種潤物細無聲的方式深入到大眾生活的方方面面,而AI的最終落點也在于是否能普惠民眾、便利生活。
在新冠疫情常態(tài)化防控中,捷通華聲發(fā)揮了重要作用。人工智能技術的應用,能夠在有效解決人力緊缺問題的同時,降低人與人接觸概率,實現(xiàn)群眾全覆蓋、無死角、無盲區(qū)的地毯式專項防控,保證信息暢通與實時共享,使相關部門及時掌握事件相關信息,快速做出正確決策,從而掌握防疫主動權。智能12345政務服務便民熱線能夠迅速轉換工作場景,通過外呼機器人進行批量重點人群篩查、疫情防控和宣教工作,對轄區(qū)內人員進行是否外出、人員接觸、身體狀況等方面的電話問詢,并根據(jù)交互式問答,主動進行研判,形成調查報告,使得疫情防控效率大幅提升,極大減輕了基層社區(qū)人員的工作負擔和健康風險。
在金融服務行業(yè)的賦能轉型上,武衛(wèi)東認為需要以人工智能為支撐的服務體系、風控體系、運營體系,通過多種新興技術的交叉運用,在人機交互方式、數(shù)字化業(yè)務方面不斷革新,重構金融用戶的消費習慣,構建新的核心競爭力。因此,捷通華聲結合多年智能化升級經(jīng)驗,推出了覆蓋客戶服務、手機銀行、營銷決策、風險防控、網(wǎng)點智能化等多重場景的行業(yè)解決方案。其中針對某銀行信用卡中心搭建的靈云智能客服和綜合業(yè)務外呼組合項目不僅大幅降低業(yè)務支出,而且為服務對象帶來了實實在在的便利。
據(jù)介紹,公司在AIoT智能物聯(lián)網(wǎng)方面已為華為盒子、智能電視、導航、車載輸入法等提供眾多解決方案。除此之外也推出了自己的C端產品“靈云聽語”“智能錄音筆”,支持實時將聲音轉為文字和離線音頻轉寫,目前處在一個快速發(fā)展階段。“讓每個企業(yè)都擁有人工智能,讓每個人都能享受到人工智能的輕松和便捷”正在步步落地為實。
人工智能是一場沒有終點的長跑
基于深度學習的AI技術取得了卓越的效果,伴隨而來的則是“大”數(shù)據(jù)、“大”模型,數(shù)據(jù)動輒TB量級,模型參數(shù)更是達到千億級別,在如今摩爾定律日漸失效、數(shù)據(jù)監(jiān)管收緊的背景下,作為在此領域深耕的一家企業(yè),捷通華聲還有很多的工作要做。針對深度學習訓練過程中所需的大量人工標注的數(shù)據(jù),公司目前主要通過數(shù)據(jù)仿真、數(shù)據(jù)增廣、無監(jiān)督訓練、多任務等方式進行改進,實現(xiàn)由“大”數(shù)據(jù)到“小”數(shù)據(jù)。同時,學術界和產業(yè)界則通過模型裁剪、張量分解、研發(fā)專用芯片等方式解決“大”模型的困擾。說到底,人工智能是一場長跑,而做研究則是這場競賽的關鍵。
目前國內外的一些基礎性研究,尤其是方法理論性研究主要來源于大學,捷通華聲不僅獲得了清華產業(yè)基金投資,同時共同創(chuàng)立靈云人工智能研究中心、清華海峽院人工智能研究中心,通過與清華大學各院系教授團隊合作,持續(xù)強化基礎理論研究,促進關鍵技術成果轉化,從而真正推動“賦能百業(yè),共享AI未來”愿景的實現(xiàn)。
談及人工智能行業(yè)經(jīng)歷的數(shù)次資本炒作與退潮,武衛(wèi)東認為2021年資本對于人工智能領域依舊保持很高的熱情,因為AI行業(yè)完全契合國家戰(zhàn)略發(fā)展方向,是國家重點鼓勵和支撐的產業(yè)。但由于很多企業(yè)前期投入巨大,虧損嚴重,估值虛高,所以也在一定程度上困擾了投資人。因此,投資機構將更傾向于以創(chuàng)新能力和技術儲備、穩(wěn)定的業(yè)務、合理的估值、可期的發(fā)展前景等幾大維度進行選擇和決策。目前,捷通華聲也在不斷發(fā)展的基礎上進行常態(tài)化融資,并積極籌備IPO。
2020年,捷通華聲成功上榜北京市“專精特新”小巨人首批名單。2021年,多家機構入股捷通華聲,在產業(yè)層面對公司賦能。一直以來,公司堅持聚焦行業(yè)深耕戰(zhàn)略,將全方位人工智能技術應用于多行業(yè)、多場景,并在細分場景下不斷完善業(yè)務積累,融合生態(tài)合作伙伴智能化業(yè)務形成行業(yè)方案專家。
管理學家吉姆·柯林斯將平庸的企業(yè)比作狐貍,因為他們隨波逐流跟風取巧,而卓越的企業(yè),往往具備刺猬般的專注,F(xiàn)在回頭看看,多項技術融合應用正是AI與各行各業(yè)交叉融合,實現(xiàn)產業(yè)智能化升級的基礎,而這也是新基建的特性之一。
武衛(wèi)東直言,在人工智能領域,我們和世界發(fā)達國家仍存在一定的技術差距。堅持自主研發(fā),全面增強原始創(chuàng)新能力,在新一輪國際科技競爭中掌握主導權,是中國所有科技創(chuàng)新者,包括捷通華聲的價值追求,也是責任。智能應用成為互聯(lián)網(wǎng)下一演進階段周期的核心要義,人工智能部分技術已經(jīng)進入產業(yè)化發(fā)展階段,帶來新的產業(yè)興起。
“我有兩個愿望,一個是看到我們國家科技進步,更加強大。另一個就是盡捷通華聲最大的能力,推動中國人工智能產業(yè)的發(fā)展,為經(jīng)濟社會發(fā)展貢獻一份力量。”采訪的最后,這位公司領導人這樣說道。