首頁>>廠商>>語音識(shí)別與合成>>得意音通

信息服務(wù)走向智能化

鄧永強(qiáng) 鄭方 2004/06/02

一、 巨大的市場需求

  通過自然語言與計(jì)算機(jī)進(jìn)行交流,獲取合適的信息,得到滿意的服務(wù),是人們長期以來所追求的目標(biāo)。自然語言理解技術(shù)的發(fā)展,讓文本自動(dòng)分類、智能搜索、信息提取、語言翻譯、自動(dòng)文摘、自動(dòng)勘校、智能聊天等成為可能。

  自然語言理解技術(shù)還達(dá)不到像人一樣的智能理解水平,但是只要?jiǎng)澏ň唧w的領(lǐng)域(例如天氣、體育等簡單信息查詢,也可以是交友、購物、保健等寬泛的智能聊天和咨詢等等),都能量身定做出具足夠?qū)嵱眯缘闹悄苄畔⒎⻊?wù)系統(tǒng),自動(dòng)理解客戶用自然語言發(fā)出的相關(guān)領(lǐng)域的問題,信息查詢變得更方便、快速和準(zhǔn)確。

  2003年,以Microsoft、AOL、Yahoo、Google等公司紛紛提供智能聊天機(jī)器人和智能搜索等個(gè)性化的智能信息服務(wù)。國內(nèi)騰訊、慧聰?shù)刃畔⒎⻊?wù)商也及時(shí)把握國際潮流,推出類似的新業(yè)務(wù),力爭鞏固并拓展更大的市場份額。

  信息服務(wù)市場全球性爆漲后,智能短信服務(wù)適逢其時(shí),先后在法國和中國投入市場。2003年底,Orange 法國公司采用Dejima公司的技術(shù),為法國的短信用戶提供從餐飲到汽車維修等多達(dá)150類的智能信息查詢業(yè)務(wù)。2004年4月,北京得意公司率先把中文自然語言理解技術(shù)與短信服務(wù)相結(jié)合,與擁有豐富生活信息資源的《精品購物指南》報(bào)社合作,提供北京餐飲智能短信查詢,并將陸續(xù)開通更豐富和實(shí)用的智能信息服務(wù)。

  智能信息服務(wù)將帶來全新的應(yīng)用模式,能有效提高服務(wù)的質(zhì)量和滿意度,拓展信息服務(wù)的發(fā)展空間.它將成為下一代互聯(lián)網(wǎng)的重要應(yīng)用,并有可能帶來信息服務(wù)產(chǎn)業(yè)的變革。某機(jī)構(gòu)調(diào)查結(jié)果顯示,2004年中國大陸短信市場將達(dá)到300億元人民幣,網(wǎng)絡(luò)短信用戶將達(dá)到2640萬;到2007年,短信、網(wǎng)上聊天的市場規(guī)模將達(dá)1500億元。而智能信息服務(wù)的市場份額預(yù)計(jì)將達(dá)10%,也就是超過150億人民幣。

二、 豐富的智能服務(wù)方式

  智能信息服務(wù)已成功應(yīng)用在客戶服務(wù)、知識(shí)管理、智能軟件幫助、企業(yè)管理、網(wǎng)上營銷等多個(gè)領(lǐng)域。隨著互聯(lián)網(wǎng)的高速發(fā)展和產(chǎn)業(yè)的激烈競爭,智能信息服務(wù)不斷走向?qū)嵱没痛蟊娀悄芏绦欧⻊?wù)、智能聊天機(jī)器人和智能搜索引擎等成為新的亮點(diǎn)。這些服務(wù)模式與普通用戶更貼近、更具吸引力,也更具市場影響力和價(jià)值創(chuàng)造力。

1、智能短信服務(wù)

  智能短信服務(wù),就是允許短信用戶在手機(jī)上直接以自然語言的形式輸入文字(而不是輸入復(fù)雜的代碼或操作繁瑣的菜單),系統(tǒng)能迅速、準(zhǔn)確地理解用戶的意思,提供周到的信息和服務(wù)。短信服務(wù)商可根據(jù)具體應(yīng)用領(lǐng)域定制一系列全新的智能短信業(yè)務(wù),如旅游交通、餐飲娛樂、金融證券、交友網(wǎng)聚、智力競猜等受歡迎的服務(wù),將直接刺激用戶使用短信服務(wù)的興趣和頻率。得意公司提供的北京餐飲智能短信服務(wù)可以靈活、方便地引導(dǎo)用戶找到合適的餐飲信息(圖1)


用戶短信: 我想吃烤鴨
系統(tǒng)回答: 您好,吃烤鴨的地方很多,我不能都發(fā)給你呀,定個(gè)地點(diǎn)吧。
用戶短信:西直門附近有嗎
系統(tǒng)回答:在西直門附近只有1家。通華苑飯店餐廳(北禮士路101號(hào)(地鐵西直門))。
用戶短信:聽說全聚德的不錯(cuò)
系統(tǒng)回答: 全聚德烤鴨店在XX路XX號(hào)。華威全聚德在XX里XX號(hào)。全聚德和平門店在XX大街XX號(hào)。謝謝您的支持,以后想吃什么就找我呀


2、智能聊天機(jī)器人
  目前流行于各大網(wǎng)站或各類即時(shí)通訊軟件的聊天機(jī)器人,還沒有應(yīng)用成熟的自然語言理解技術(shù),僅僅實(shí)現(xiàn)了基本的、簡單的對(duì)話交流和信息查詢等功能。引入自然語言理解技術(shù)的智能聊天機(jī)器人,能通過與用戶對(duì)話和聊天的形式,了解用戶的需求;它還可以利用智能搜索技術(shù)采集、分析互聯(lián)網(wǎng)和知識(shí)庫的信息內(nèi)容,進(jìn)行自動(dòng)過濾、篩選、獲取有效內(nèi)容,對(duì)相關(guān)信息內(nèi)容進(jìn)行智能化編輯整理,并返回給用戶。智能聊天、智能游戲、個(gè)性化的新聞定制、智能電子商務(wù)等服務(wù),將為用戶帶來很大的方便和更多的樂趣。

系統(tǒng):您好,歡迎使用本航班訂票系統(tǒng)
用戶:我要從北京到上海
系統(tǒng):請(qǐng)問您要哪天的?
用戶:明天下午的有嗎?
系統(tǒng):您要到虹橋機(jī)場的還是浦東機(jī)場的?
用戶:我要虹橋的,國航757或者747的
系統(tǒng):查到了3班:13:30,15:40,16:20,您要哪一班?
用戶:最晚的
系統(tǒng):您要訂6月8日16:20北京首都機(jī)場飛上海虹橋機(jī)場的機(jī)票一張嗎?
用戶:是的
系統(tǒng):您的訂票號(hào)是123456,票價(jià)為850元。請(qǐng)您在起飛兩小時(shí)以前到機(jī)場或者民航售票處支付票款。祝您旅途愉快!


  以上是一個(gè)專門提供航班信息查詢服務(wù)的智能聊天機(jī)器人的對(duì)話過程.

3、智能搜索引擎
  目前的普通搜索引擎由于只使用關(guān)鍵詞技術(shù),每次搜索時(shí)只是按照關(guān)鍵詞進(jìn)行匹配,返回的大量信息中很大一部分不是用戶需要的信息,往往導(dǎo)致用戶無所適從。而門戶網(wǎng)站或?qū)I(yè)網(wǎng)站雖然對(duì)信息進(jìn)行很好的分類,但是首先要用戶記住網(wǎng)址,還要懂得分類的標(biāo)準(zhǔn),然后逐層點(diǎn)擊相應(yīng)的分類鏈接,才能獲得所需的信息.這樣的信息分類查詢給信息服務(wù)商帶來了很大的工作量.服務(wù)成本和進(jìn)入門檻顯著提高,并且對(duì)用戶而言也很不方便.智能搜索引擎是依靠語義網(wǎng)絡(luò)、漢語分詞、句法分析、處理同義詞等自然語言理解技術(shù),更大程度地了解用戶的信息需求,獲得更易用性、更準(zhǔn)確、更智能的搜索結(jié)果。它具有人性化、交互性的特點(diǎn),可以識(shí)別并回答用戶的問題,擺脫了傳統(tǒng)搜索引擎基于關(guān)鍵字的束縛,并能提供相關(guān)的、有參考價(jià)值的其他內(nèi)容。

  智能搜索引擎除了應(yīng)用于互聯(lián)網(wǎng)上的常規(guī)終端以外,也可以支持WAP協(xié)議而應(yīng)用在手機(jī).其實(shí)用戶往往在逛街、旅游等室外移動(dòng)環(huán)境下更需要隨時(shí)查詢信息,手機(jī)在這些場合下是很好的查詢工具,但是其屏幕小、內(nèi)存少、計(jì)算性能低帶寬窄,不適合接收和保存大量的信息,更難以滿意地翻看大量信息.傳統(tǒng)地基于關(guān)鍵詞的搜索或分類信息查詢模式都存在一定地缺陷,很不適合應(yīng)用在手機(jī)終端上.而智能搜索引擎能很好地為手機(jī)用戶提供隨時(shí)、隨地、隨心地信息服務(wù).

  智能搜索引擎一個(gè)典型的應(yīng)用是基于豐富詳盡的生活資訊知識(shí)庫,構(gòu)建智能生活資訊服務(wù)系統(tǒng),支持互聯(lián)網(wǎng)、短信、WAP等多種通訊手段,在吃喝玩樂、影視娛樂、消費(fèi)購物、戶外運(yùn)動(dòng)、美食餐飲、醫(yī)療保健等領(lǐng)域,為商家和用戶提供更方便、直接的信息交流和互動(dòng)手段。例如,傳統(tǒng)的搜索引擎查詢?nèi)嗣麜r(shí),可能會(huì)出現(xiàn)上百個(gè)不同身份的重名;智能搜索引擎可以支持行業(yè)分類功能:輸入"歌手黎明",就能直接指向香港歌手黎明以及他的歌曲下載地址、歌手資料、新聞、歌詞的信息等等,沒有了二次搜索的麻煩,更不會(huì)指向小說《這里的黎明靜悄悄》。

三、 支撐技術(shù)

  計(jì)算機(jī)技術(shù)和人工智能技術(shù)的發(fā)展,是智能信息服務(wù)的廣泛應(yīng)用和日益普及的基礎(chǔ),自然語言理解技術(shù)是智能信息服務(wù)的支撐平臺(tái)。

  自然語言理解技術(shù)最早地研究領(lǐng)域是機(jī)器翻譯.早期所開發(fā)的機(jī)譯系統(tǒng)的技術(shù)水平較低,不能滿足實(shí)際應(yīng)用.到了20世紀(jì)70年代初期,對(duì)語言理解對(duì)話系統(tǒng)的研究取得進(jìn)展.進(jìn)入20世紀(jì)80年代之后,機(jī)器學(xué)習(xí)研究又活躍起來,出現(xiàn)了許多較高水平的實(shí)用化系統(tǒng).

兩大技術(shù)方向

  現(xiàn)階段的自然語言理解技術(shù)有兩大研究方向,分別是基于規(guī)則的分析方法, 即所謂的"理性主義";以及方針對(duì)大規(guī)模語料庫的分析法,即所謂的"經(jīng)驗(yàn)主義".前者基本上掌握了單個(gè)句子的分析技術(shù),但是還很難覆蓋全面的語音現(xiàn)象,特別是對(duì)于整個(gè)段落或篇章的理解還無從下手.后者充分利用計(jì)算機(jī)的高速處理能力和海量存儲(chǔ),收集大量相關(guān)的文本建立語料庫.語料庫提供的知識(shí)是用概率統(tǒng)計(jì)表示的,因而常常會(huì)出現(xiàn)答非所問的情況,并且語料庫需要耗費(fèi)大量的時(shí)間和資源去建立、維護(hù),成本很高.將來,這兩個(gè)技術(shù)方向?qū)⑾嗷ト¢L補(bǔ)短,呈現(xiàn)融合的發(fā)展趨勢.

  為了實(shí)現(xiàn)智能信息服務(wù)的種種功能,人們?cè)陂_發(fā)自然語言的詞法分析、句法分析、語義分析、語境分析等技術(shù),不斷積累諸如電子詞典、語料庫等語言數(shù)據(jù)資源。

優(yōu)良系統(tǒng)的追求目標(biāo)

  自然語言理解系統(tǒng)要具備好的適用性,應(yīng)該支持上下文相關(guān)分析、話題自由變換、人機(jī)混合主導(dǎo)以及口語對(duì)話等特點(diǎn).

  上下文相關(guān)分析是指系統(tǒng)在理解當(dāng)前語句時(shí)可以聯(lián)想用戶以前所說的話進(jìn)行綜合分析,因此即使有時(shí)用戶所說的話有一定的省略,系統(tǒng)同樣可以理解。

  話題自由變換時(shí)指允許用戶在多個(gè)話題之間不斷轉(zhuǎn)換,系統(tǒng)同樣可以記住以前的談話內(nèi)容。例如用戶在問航班起飛時(shí)間時(shí),突然插入目的地與本地的時(shí)差問題,然后在繼續(xù)關(guān)于該航班的問題,系統(tǒng)都能回答。而目前的一些系統(tǒng),往往只能局限于某一個(gè)話題,一旦用戶變換話題,系統(tǒng)將無所適從。

  人機(jī)混合主導(dǎo)則是完全的自然對(duì)話,用戶可以轉(zhuǎn)換話題后再回到原來的話題(像人一樣);用戶可以"答非機(jī)問"(多回答或少回答);而系統(tǒng)都可以根據(jù)實(shí)際情況提取語義信息,如果用戶詢問中的信息足夠豐富,那么系統(tǒng)直接回答問題;如果用戶詢問的信息不全或者用戶遲疑太久,那么系統(tǒng)則主動(dòng)詢問來獲取足夠的信息。而不具備人機(jī)混合主導(dǎo)性能的系統(tǒng)只能等用戶發(fā)問,如果用戶根本不知道問什么,那么系統(tǒng)一直待機(jī)等待。

  口語對(duì)話是自然理解技術(shù)實(shí)現(xiàn)的難點(diǎn),但也是應(yīng)用系統(tǒng)適用性的關(guān)鍵點(diǎn)?谡Z中,人們的語言很隨意,可以省略、更正、倒敘等等,這些口語現(xiàn)象是傳統(tǒng)的單單基于詞法分析的理解系統(tǒng)所難以解決的,而引入基于關(guān)鍵語義的技術(shù)卻很好地解決。

  從目前的理論和技術(shù)現(xiàn)狀看,通用的、高質(zhì)量的自然語言處理系統(tǒng),仍然是較長期的努力目標(biāo)。但是針對(duì)某些特定應(yīng)用的系統(tǒng)已經(jīng)出現(xiàn)。

  自然語言很復(fù)雜,人類對(duì)自己理解語言的機(jī)制還不是很了解。要主計(jì)算機(jī)理解自然語言,必須先將人是如何學(xué)習(xí)和理解語言的機(jī)制研究透徹。對(duì)此,需要計(jì)算機(jī)技術(shù)與語言學(xué)進(jìn)行交叉學(xué)科的研究。

研究現(xiàn)狀
  國外在1963年就建成了早期的自然語言理解系統(tǒng),許多著名的大學(xué)和科研機(jī)構(gòu)都投入了大量的科技資源進(jìn)行研發(fā)。IBM、Microsoft等公司先后推出各種基于自然語言理解技術(shù)的產(chǎn)品和應(yīng)用,在英語、法語等語種上積累了大量的經(jīng)驗(yàn)和成功案例。20世紀(jì)90年代,IBM、Microsoft先后在我國建立研究院,開展中文語言理解技術(shù)研究,其中一些新成果預(yù)計(jì)將在近期推向市場。

  中國在1980年建成了兩個(gè)漢語自然語言理解模型,都以人機(jī)對(duì)話的方式來實(shí)現(xiàn)。目前清華大學(xué)、北京大學(xué)、北京語言大學(xué)、上海交大、復(fù)旦大學(xué)、中科大、中科院、社科院等主要科研單位都在自然語言理解技術(shù)方面有雄厚的技術(shù)力量。總體上看,國內(nèi)外的自然語言理解技術(shù)方面的研究有一定的差距。當(dāng)然,國內(nèi)研究也有優(yōu)勢,語言工程所需要的大量專家水平的人力以及語言數(shù)據(jù)資源都是豐富的,價(jià)格相對(duì)低廉,目前有些系統(tǒng)取得了可觀的經(jīng)濟(jì)效益。例如,華建集團(tuán)的智能輔助翻譯系統(tǒng),是語言理解技術(shù)的出色應(yīng)用;中文之星、紫光拼音等中文智能輸入法引入中文語言模型,目前占有一定的市場份額;ChinaRen(現(xiàn)被搜狐并購)、慧聰?shù)人阉饕婕夹g(shù)開發(fā)商也先后推出中文智能搜索引擎,力圖在激烈的市場競爭中獲得有利的地位;得意公司近日開通的智能短信服務(wù)系統(tǒng),開辟出中文語言理解技術(shù)嶄新的領(lǐng)域。

前景展望
  人機(jī)交互的最高境界,是非常智能的信息服務(wù)。任何人、在任何時(shí)刻、在任何場所、在任何設(shè)備上,都可以通過自然語言和語音方便互相傳遞信息,隨時(shí)隨地進(jìn)行交流。如圖2


  不久的將來,我們可能會(huì)經(jīng)常遇到這樣的應(yīng)用場景:一個(gè)人到一個(gè)新的城市(例如北京),若想盡快了解有關(guān)北京的生活服務(wù)信息,就可以用手機(jī)或者電話打到一個(gè)提供智能信息服務(wù)的系統(tǒng)。他可以直接用口語去問一個(gè)擁有海量信息的服務(wù)器:北京有哪些好玩的地方?哪些地方能夠提供很好的餐飲服務(wù)?哪些地方可以購物?他還可以與系統(tǒng)進(jìn)行人機(jī)對(duì)話,輕松地買機(jī)票、訂房間等等。

  北京2008年奧運(yùn)會(huì)將是智能信息服務(wù)大展拳腳的舞臺(tái),奧運(yùn)會(huì)面臨語言障礙。國內(nèi)外產(chǎn)業(yè)界正在緊密合作,研制"面向奧運(yùn)的多語言智能信息服務(wù)網(wǎng)絡(luò)系統(tǒng)",力爭在北京奧運(yùn)期間為各國運(yùn)動(dòng)員、記者、觀眾,以及來自全世界數(shù)以百萬計(jì)的旅游者提供綜合、全面、多語種、可定制的智能信息服務(wù)。該系統(tǒng)將包括多語言信息同步發(fā)布、信息查詢和語音交互式的電子商務(wù),并重點(diǎn)提供基于位置的信息服務(wù);另外還有口語翻譯機(jī)和自動(dòng)翻譯電話等。

  中文的使用人數(shù)以及分布范圍僅次于英語,因此中文語言理解和智能信息服務(wù)領(lǐng)域的發(fā)展空間很大,國內(nèi)的社會(huì)各界也認(rèn)識(shí)到中文信息處理的重要性,正在開展具有完全自主知識(shí)產(chǎn)權(quán)的技術(shù)研發(fā),并積極引領(lǐng)相關(guān)的國際和國內(nèi)技術(shù)標(biāo)準(zhǔn),以爭取產(chǎn)業(yè)發(fā)展的主動(dòng)。

得意音通公司供稿 原文發(fā)表于微電腦世界》第十期



相關(guān)鏈接:
得意珠三角綜合智能信息增值平臺(tái)項(xiàng)目中標(biāo) 2009-08-20
北京軟件產(chǎn)品質(zhì)量檢測檢驗(yàn)中心對(duì)《海量語音文件的目標(biāo)說話人篩選系統(tǒng)》進(jìn)行測試 2009-06-25
廣東政府和清華大學(xué)舉行了全面開展產(chǎn)學(xué)研合作協(xié)議簽約儀式 2009-06-25
得意中文整句輸入法V1.0開源for Windows Mobile5.0 2009-01-23
得意聲紋識(shí)別VPR4.0_b20080808新版本發(fā)布 2008-08-27

分類信息:     文摘   技術(shù)_語音識(shí)別_文摘