
聊天機(jī)器人:平穩(wěn)發(fā)展、金融成為應(yīng)用規(guī)模最大領(lǐng)域
聊天機(jī)器人主要有兩種,即:任務(wù)式機(jī)器人和閑聊式機(jī)器人。
任務(wù)式機(jī)器人主要目標(biāo)是幫助用戶解決帶有特定需求的問(wèn)題,而閑聊式機(jī)器人主要目的是陪用戶閑聊,打發(fā)時(shí)間。
聊天機(jī)器人:檢索式與生成式的內(nèi)在邏輯
任務(wù)式機(jī)器人主要目標(biāo)是幫助用戶解決帶有特定需求的問(wèn)題,而閑聊式機(jī)器人主要目的是陪用戶閑聊,打發(fā)時(shí)間。
當(dāng)前聊天機(jī)器人主要有兩種實(shí)現(xiàn)方式:(1)檢索式;(2)生成式。
01.基于檢索的chatbot:
檢索式的方法依賴文本匹配技術(shù),在諸多候選回復(fù)中,選擇匹配分?jǐn)?shù)最高的作為回復(fù)。
對(duì)語(yǔ)料檢索匹配
這種檢索在客服問(wèn)答領(lǐng)域非常常見,只要用戶給到一個(gè)query命中知識(shí)庫(kù)哪個(gè)問(wèn)題,就將其與語(yǔ)料庫(kù)中的對(duì)話進(jìn)行匹配,篩選出用戶可能喜歡最優(yōu)解。
考慮上下文進(jìn)行評(píng)分
經(jīng)過(guò)上一輪檢索匹配,篩選出幾個(gè)候選response,需要將上下文考慮進(jìn)去,從而使得對(duì)話看起來(lái)比較智能。
由此看出:基于檢索的bot核心思想是從語(yǔ)料庫(kù)中尋找最適合的匹配回答,而bot的效果就會(huì)被相似計(jì)算的特征設(shè)計(jì)以及語(yǔ)料庫(kù)的豐富度影響。
02.基于生成的chatbot:
對(duì)于閑聊bot來(lái)講,生成模型更像是類似機(jī)器翻譯的“編碼-解碼”的生成模式,編碼器讀取對(duì)話歷史,解碼器直接生成相應(yīng)回復(fù)。
考慮上下文
每一次模型編碼都要考慮前序編碼結(jié)果,每次解碼生成的語(yǔ)句才能考慮了上下文的信息。
考慮情感化
有了情感化的chatbot才更像一個(gè)聊天的人而不是bot。這是提高用戶感受的重要因素。
考慮知識(shí)/主題
通過(guò)查詢數(shù)據(jù)庫(kù)、通過(guò)槽位追問(wèn)得到信息來(lái)作為條件限制解碼器的輸出。
加入強(qiáng)化學(xué)習(xí)DM
由于傳統(tǒng)機(jī)器人對(duì)話缺乏情感化元素,chat場(chǎng)景與task一樣需要策略管理系統(tǒng)。
由此看出:機(jī)器翻譯的結(jié)果比較肯定,具有客觀性。而在對(duì)話任務(wù)上,生成式的輸出結(jié)果有一定的多樣性,類似我們做的閱讀理解題目。所以,評(píng)估生成式對(duì)話的結(jié)果是否準(zhǔn)確,往往也是一件費(fèi)時(shí)且不易判斷的事情。
生成式的聊天機(jī)器人:檢索式與生成式的內(nèi)在邏輯
總體上說(shuō),生成式的聊天機(jī)器人確實(shí)還存在一些問(wèn)題,例如不可控性,語(yǔ)料成本昂貴,缺乏工業(yè)實(shí)用性等。但是,優(yōu)點(diǎn)也很明顯,例如可玩性, 生成多樣性,發(fā)展趨勢(shì)性等。
在目前主流的實(shí)際項(xiàng)目應(yīng)用中,聊天機(jī)器人的作用更多地還是增加一些趣味性,彌補(bǔ)任務(wù)型或事實(shí)問(wèn)答型機(jī)器人的乏味性。也許,有一天,當(dāng)自然語(yǔ)言理解的能力足夠強(qiáng)大時(shí),生成式機(jī)器人會(huì)逐漸替代任務(wù)型和事實(shí)型機(jī)器人的工作。
說(shuō)了那么多理論知識(shí),也該看點(diǎn)有趣的事情了。
遠(yuǎn)傳生成式聊天機(jī)器人基于閑聊對(duì)話算法生成模型基于GPT2模型,訓(xùn)練語(yǔ)料50萬(wàn)以上,響應(yīng)時(shí)間不超過(guò)300ms,并發(fā)承載200TPS。