
遠(yuǎn)傳科技一直高度重視產(chǎn)品技術(shù)創(chuàng)新,擴(kuò)建科研隊(duì)伍,加大研發(fā)投入。憑借精準(zhǔn)的研發(fā)投入和雄厚的技術(shù)沉淀,迄今為止,遠(yuǎn)傳科技已獲得專利及知識產(chǎn)權(quán)相關(guān)證書105項(xiàng),成績斐然。
遠(yuǎn)傳科技始終堅(jiān)持創(chuàng)新驅(qū)動發(fā)展的原則,將產(chǎn)品創(chuàng)新與實(shí)際應(yīng)用緊密結(jié)合,聚焦在自然語言處理(NLP)、深度學(xué)習(xí)、知識圖譜、數(shù)據(jù)挖掘等核心技術(shù)領(lǐng)域。
今天我們來講講其中一項(xiàng)發(fā)明專利:《文本相似度模型的訓(xùn)練方法、系統(tǒng)、裝置和介質(zhì)》。
文本相似度,顧名思義是指兩個(gè)文本(文章)之間的相似度,相似程度的評價(jià)有很多角度:單純的字面相似度(例如:我和他 v.s. 我和她),語義的相似度(例如:爸爸 v.s. 父親)和風(fēng)格的相似度(例如:我喜歡你 v.s. 我好喜歡你耶)等等。
可以說,文本相似度是自然語言處理(NLP)中必不可少的重要環(huán)節(jié),幾乎所有NLP的領(lǐng)域都會涉及到!在搜索引擎、推薦系統(tǒng)、論文鑒定、機(jī)器翻譯、自動應(yīng)答、命名實(shí)體識別、拼寫糾錯(cuò)等領(lǐng)域有廣泛的應(yīng)用。
雖然已有布爾模型、概率模型、向量空間模型等文本表示模型,相似度度量及距離度量等相似度計(jì)算方法,但在效率及性能等方面還存在一些無法忽視的問題,比如:這些模型存在無法表現(xiàn)特征項(xiàng)的出現(xiàn)順序、向量維度高、計(jì)算效率低和模型魯棒性差等問題。傳統(tǒng)算法無法識別意思相似或者相關(guān)的詞語,而且文本中的核心關(guān)鍵詞的重要程度與其他非關(guān)鍵詞重要程度一樣,這些都對文本相似度準(zhǔn)確率的提高造成了很大的困擾。
遠(yuǎn)傳科技提供的文本相似度模型的訓(xùn)練方法、系統(tǒng)、裝置和介質(zhì),通過對訓(xùn)練語料進(jìn)行劃分,得到訓(xùn)練集、特征向量、重要性特征、訓(xùn)練數(shù)據(jù)的完全特征表示、噪音數(shù)據(jù)的完全特征表示、輸入特征向量,基于輸入特征向量完成文本相似度模型的訓(xùn)練。解決了文本相似度計(jì)算存在的準(zhǔn)確率低和魯棒性差的問題,實(shí)現(xiàn)了利用對抗的思想,將噪音數(shù)據(jù)的特征融入訓(xùn)練數(shù)據(jù)中來擾動訓(xùn)練數(shù)據(jù)的擬合,進(jìn)一步結(jié)合特征向量和重要性特征,提高了文本相似度模型的的魯棒性和準(zhǔn)確率。從而解決相關(guān)技術(shù)中文本相似度計(jì)算存在的準(zhǔn)確率低和魯棒性差的問題。
文本相似度模型發(fā)明專利的取得,有利于遠(yuǎn)傳科技持續(xù)推動自然語言研發(fā)生產(chǎn),提升產(chǎn)品的技術(shù)含量,鞏固公司在智能交互行業(yè)領(lǐng)域內(nèi)的知識產(chǎn)權(quán)競爭優(yōu)勢,增強(qiáng)核心競爭力。