7月22-23日,在中國(guó)科學(xué)技術(shù)協(xié)會(huì)、中國(guó)科學(xué)院的指導(dǎo)下,由中國(guó)人工智能學(xué)會(huì)、阿里巴巴集團(tuán)&螞蟻金服主辦,CSDN、中國(guó)科學(xué)院自動(dòng)化研究所承辦的2017中國(guó)人工智能大會(huì)(CCAI2017)在杭州國(guó)際會(huì)議中心盛大召開(kāi)。

在本次大會(huì)上,日本人工智能和機(jī)器學(xué)習(xí)領(lǐng)域新一代的代表性人物——日本理化學(xué)研究所先進(jìn)智能研究中心主任Masashi Sugiyama(中文名:杉山將)為參會(huì)者帶來(lái)了《弱監(jiān)督機(jī)器學(xué)習(xí)的研究進(jìn)展》的演講。杉山將在機(jī)器學(xué)習(xí)領(lǐng)域發(fā)表過(guò)很多重要的理論,是這個(gè)領(lǐng)域最知名的學(xué)者之一,出版了機(jī)器學(xué)習(xí)相關(guān)書(shū)籍《圖說(shuō)機(jī)器學(xué)習(xí)》(中文版)。
以下內(nèi)容根據(jù)杉山將本次主題演講整理,略有刪減:
大家早上好,我叫杉山將,非常高興能夠參加今天的大會(huì),也很高興和這么多中國(guó)的研究人員見(jiàn)面,我也特別喜歡杭州的文化和當(dāng)?shù)氐拿朗场?/div>
那么怎么訓(xùn)練分類(lèi)器呢?
在過(guò)去的4-5年中,AI在日本發(fā)展地非?欤@也讓我能有機(jī)會(huì)出相關(guān)的教科書(shū),其中有一本翻譯成了中文——《圖說(shuō)機(jī)器學(xué)習(xí)》。其實(shí)我看得懂中文,所以我覺(jué)得今天演講的中文標(biāo)題的翻譯是很準(zhǔn)確的。
下面我所要講的東西和今天大會(huì)的主題非常契合。

昨天漆遠(yuǎn)談到了金融領(lǐng)域的機(jī)器學(xué)習(xí),從大數(shù)據(jù)的角度來(lái)看,它是機(jī)器學(xué)習(xí)很重要的研究領(lǐng)域,并且目前還是非常的成功,我也一直對(duì)基于大數(shù)據(jù)來(lái)做機(jī)器學(xué)習(xí)這件事情非常感興趣。然而,現(xiàn)在對(duì)于很多的應(yīng)用領(lǐng)域而言是無(wú)法獲取大規(guī)模的標(biāo)注數(shù)據(jù)的,比如醫(yī)藥、制造業(yè)、防災(zāi)等領(lǐng)域。當(dāng)數(shù)據(jù)量不夠時(shí),我們需要相應(yīng)的機(jī)器學(xué)習(xí)方法來(lái)應(yīng)對(duì)。
今天我會(huì)講一些關(guān)于小數(shù)據(jù)的研究進(jìn)展,我的演講和其他的演講者相比會(huì)更沒(méi)有那么的技術(shù)性,希望大家可以了解一下小數(shù)據(jù)分類(lèi)的研究狀況,其中還是有一些讓人欣喜的研究進(jìn)展的。
監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)概述
回到我們所討論的話題,首先還是要去關(guān)注一個(gè)最簡(jiǎn)單的問(wèn)題,就是二元分類(lèi)的問(wèn)題。
我們會(huì)有一些訓(xùn)練數(shù)據(jù)(如下圖),其中藍(lán)色圈點(diǎn)代表正例,而紅色叉點(diǎn)代表負(fù)例。這樣的二分類(lèi)問(wèn)題,其實(shí)已經(jīng)被研究很多年了,由于我們已經(jīng)有了大量的標(biāo)注數(shù)據(jù),所以能夠得到非常好的分類(lèi)結(jié)果,我們都知道現(xiàn)在最優(yōu)的分類(lèi)結(jié)果是這樣的。

然而,想要獲取大量的標(biāo)注數(shù)據(jù)是非常耗時(shí)耗力的,我們希望也能夠?qū)o(wú)標(biāo)注數(shù)據(jù)進(jìn)行分類(lèi),這就是無(wú)監(jiān)督分類(lèi)的由來(lái)。
其實(shí)無(wú)監(jiān)督分類(lèi)和聚類(lèi)是一樣的,比如下面這張圖中的數(shù)據(jù)點(diǎn)聚成了兩簇,每一個(gè)簇代表一個(gè)類(lèi)別,這樣才是非常好的分類(lèi)結(jié)果。然而很遺憾現(xiàn)在我們這個(gè)假設(shè)(即聚類(lèi)的結(jié)果表示一個(gè)類(lèi)別)并未得到相應(yīng)的驗(yàn)證,所以從這個(gè)層面上來(lái)看,還沒(méi)有非常合理的辦法來(lái)做無(wú)監(jiān)督分類(lèi)。

我非常喜歡11年前提出另一種方法的論文:由于我們有大量的無(wú)標(biāo)注數(shù)據(jù)和少量的標(biāo)注數(shù)據(jù),那么基于少量的標(biāo)注數(shù)據(jù)就能在一定程度上找到邊界,然后結(jié)合所找到的邊界和大量無(wú)標(biāo)注數(shù)據(jù)的聚類(lèi)結(jié)果,從而找出更多的邊界。這就是半監(jiān)督分類(lèi)。

然而,半監(jiān)督分類(lèi)和無(wú)監(jiān)督分類(lèi)面臨同樣的問(wèn)題,也就是簇要能夠跟類(lèi)別對(duì)應(yīng)起來(lái)。如果一個(gè)簇總能對(duì)應(yīng)著一個(gè)類(lèi)別,這樣就完美了。但事實(shí)并非如此,這就是我們今天所要討論的內(nèi)容。
接下來(lái)我先總結(jié)一下前面說(shuō)過(guò)的內(nèi)容。
對(duì)于不同類(lèi)型的分類(lèi)方法,標(biāo)注的成本有高有低,所取得的分類(lèi)準(zhǔn)確率也有高有低。對(duì)于監(jiān)督分類(lèi),能夠取得很高的分類(lèi)準(zhǔn)確率但同時(shí)標(biāo)注的成本非常高;而對(duì)于半監(jiān)督和非監(jiān)督分類(lèi),標(biāo)注的成本都比較低(甚至沒(méi)有),但取得的分類(lèi)準(zhǔn)確率并不高。
如何讓左下角的這兩種方法(即半監(jiān)督和非監(jiān)督分類(lèi))能夠取得較高的分類(lèi)準(zhǔn)確率,同時(shí)保持比較低的標(biāo)注成本?
這是我們所面臨和需要解決的難題。

現(xiàn)在深度學(xué)習(xí)技術(shù)非常熱門(mén),但我今天講的東西不是深度學(xué)習(xí),這并不是說(shuō)要忽視深度學(xué)習(xí),其實(shí)這個(gè)話題跟深度學(xué)習(xí)也是有關(guān)系的。
模型方面,從簡(jiǎn)單到復(fù)雜,我們有線性模型、增量模型、基于核函數(shù)的模型和深度學(xué)習(xí)模型等;機(jī)器學(xué)習(xí)方法方面,有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)等。
任意的學(xué)習(xí)方法和模型都是可以相結(jié)合的,不過(guò)我今天要講的東西是關(guān)于學(xué)習(xí)方法的,它可以使用任何的模型,包括深度學(xué)習(xí)模型。當(dāng)然我更傾向于使用線性模型,因?yàn)檫@更簡(jiǎn)單,如果你想使用更加復(fù)雜的模型也是完全可以的。

下面是今天演講的議程,接下來(lái)會(huì)給大家介紹四種不同的分類(lèi)方法,后面如果有機(jī)會(huì)我會(huì)介紹一下理化學(xué)研究所AIP研究中心。

弱監(jiān)督學(xué)習(xí)的研究進(jìn)展
UU數(shù)據(jù)分類(lèi)
首先看一下UU(Unlabeled,Unlabeled)分類(lèi),U代表的無(wú)標(biāo)注的數(shù)據(jù)(Unlabeled data)。
那么我們是怎樣對(duì)無(wú)標(biāo)注的數(shù)據(jù)進(jìn)行分類(lèi)的呢?假設(shè)我們有兩個(gè)未標(biāo)注的數(shù)據(jù)集,它們唯一的不同在于類(lèi)先驗(yàn)(class-priors,即所屬的類(lèi)別)的不同。它們的函數(shù)分布如圖中的左右下角,數(shù)量上各占50%左右,其實(shí)我們并不需要知道具體的比例;谶@種假設(shè),我們需要訓(xùn)練一個(gè)分類(lèi)器,而基于無(wú)標(biāo)注數(shù)據(jù)的訓(xùn)練是極具挑戰(zhàn)的。

首先來(lái)看一下類(lèi)先驗(yàn)的區(qū)別是什么,在正類(lèi)和負(fù)類(lèi)之間,我們只看p(x)和p’(x)之間的差異,這就是我們劃分正負(fù)類(lèi)的標(biāo)準(zhǔn)。
假設(shè)通過(guò)某些技術(shù)方法,我們能夠獲取這些數(shù)據(jù)的正負(fù)類(lèi)分布的先驗(yàn)信息,正負(fù)類(lèi)的分布比例是對(duì)等的,也就是說(shuō)一半數(shù)據(jù)是正類(lèi),一半是負(fù)類(lèi)。x代表非標(biāo)注的數(shù)據(jù),C是一個(gè)常數(shù),由于沒(méi)有相應(yīng)的標(biāo)注數(shù)據(jù),所以我們對(duì)C的值難以有個(gè)合理的估計(jì)。盡管如果C沒(méi)有具體的值,我們不知道哪一側(cè)是正類(lèi),哪一側(cè)是負(fù)類(lèi),但這并不要緊,因?yàn)轭?lèi)別之間的差異性往往很明顯,最終表現(xiàn)在符號(hào)為正或負(fù),所以我們有時(shí)可以將常數(shù)C忽略掉。我們只看最終符號(hào)的正負(fù),這樣可以讓我們得到最優(yōu)的分類(lèi)結(jié)果。

接下來(lái)的做法都是很直觀的。因?yàn)槲覀円幚淼氖且恍┪礃?biāo)注數(shù)據(jù),第一種方法是做核密度的估計(jì),我們對(duì)兩類(lèi)數(shù)據(jù)點(diǎn)對(duì)應(yīng)的p(x)和p’(x)進(jìn)行估計(jì),從而計(jì)算它們之間的差值,這樣能夠很自然地解決分類(lèi)問(wèn)題。然而,遺憾的是這種方法雖然簡(jiǎn)單,但有可能對(duì)p(x)-p’(x)的差值產(chǎn)生了低估,這是因?yàn)閷?duì)p(x)和p’(x)的估計(jì)函數(shù)過(guò)于平滑所導(dǎo)致的。
第二種方法是直接對(duì)密度的差值進(jìn)行估計(jì),利用Kim等人所提出的模型,盡可能把密度差異的估計(jì)偏差達(dá)到最小,這種方法用一個(gè)線性的模型就能夠得到相應(yīng)的解決方案。
第三種方法是對(duì)密度差的第一項(xiàng)進(jìn)行直接的估計(jì),這是最為直接的方法。對(duì)于我們這個(gè)問(wèn)題來(lái)說(shuō),第三種方法遵循了Vapnik原則。我們要解決的問(wèn)題不能太過(guò)泛化,在這個(gè)場(chǎng)景中,我們想要估計(jì)密度的差值,這將涉及到非凸優(yōu)化方面的問(wèn)題(例如可使用CCCP方法來(lái)解)。

下面是我們做的一些實(shí)驗(yàn)結(jié)果,比較的指標(biāo)是誤分類(lèi)率的類(lèi)均值。

表格的左側(cè)一欄是表示不同的數(shù)據(jù)集,對(duì)比的方法中有聚類(lèi)的方法,可以看出聚類(lèi)的方法并不是很有用。表格中間的是一些普通方法,其中第二種是估計(jì)p(x)-p’(x)的差值,可以看出越靠近左側(cè)的方法取得的效果越好,這是因?yàn)閷?duì)應(yīng)解決問(wèn)題的方式更加直接,因此直接的估計(jì)密度差值或者是密度差值的符號(hào)函數(shù)的值會(huì)更加有效。
在實(shí)際的應(yīng)用中,我們通常選擇左側(cè)的兩種方法。
PU數(shù)據(jù)分類(lèi)
下一個(gè)話題要談的是如何處理PU(Positive,Unlabeled)的數(shù)據(jù),也就是只有正例數(shù)據(jù)和未標(biāo)注的數(shù)據(jù)。
我們有兩類(lèi)數(shù)據(jù)樣本,一種是屬于正類(lèi)的,另外一類(lèi)是未標(biāo)注的。當(dāng)然未標(biāo)注的數(shù)據(jù)里包含了正類(lèi)和負(fù)類(lèi)兩種數(shù)據(jù),但是我們并不知道其中哪些是正類(lèi),哪些是負(fù)類(lèi)。對(duì)應(yīng)這種數(shù)據(jù)類(lèi)型的一個(gè)例子是,比如有一些你點(diǎn)擊和未點(diǎn)擊的網(wǎng)站,對(duì)于那些未點(diǎn)擊的網(wǎng)站中,你既有未來(lái)可能會(huì)點(diǎn)擊的,也會(huì)有你不會(huì)點(diǎn)擊的(或者有想點(diǎn)擊的,但可能由于忙而沒(méi)有真正點(diǎn)擊的),對(duì)這些網(wǎng)站點(diǎn)擊數(shù)據(jù),我們可以應(yīng)用PU的分類(lèi)方法。
另外,我相信在社交媒體上面也會(huì)有這樣的分類(lèi)場(chǎng)景,判斷一個(gè)用戶是不是你的好友。對(duì)于已經(jīng)認(rèn)識(shí)的朋友,朋友之間有著很好的聯(lián)系,所以我們能夠得到相應(yīng)的數(shù)據(jù)樣本;然而,對(duì)于非朋友關(guān)系的用戶們,我們并不知道他們相互討厭對(duì)方所以沒(méi)有成為朋友,還是如果有機(jī)會(huì)是能夠成為朋友的,所以他們之間沒(méi)有鏈接并不代表它就是負(fù)類(lèi)的(不能成為朋友)。

在這個(gè)PU分類(lèi)中,我們還需要獲取一個(gè)PN的分類(lèi)器,因?yàn)楸M管我們有了正例數(shù)據(jù)和未標(biāo)注數(shù)據(jù)(對(duì)應(yīng)圖中的藍(lán)色和黑色的符號(hào)數(shù)據(jù)),我們還是要知道未標(biāo)注數(shù)據(jù)(黑色的符號(hào)數(shù)據(jù))中哪些是負(fù)的哪些是正的,這里也將涉及到很多的公式,我們接下來(lái)看一下分類(lèi)器的風(fēng)險(xiǎn)函數(shù)。

我們用到了損失函數(shù),用了l表示;y是用f(x)表示;我們用R(f)表示風(fēng)險(xiǎn)函數(shù),代表數(shù)據(jù)分類(lèi)的風(fēng)險(xiǎn),可以看到風(fēng)險(xiǎn)函數(shù)包括正類(lèi)數(shù)據(jù)的分類(lèi)風(fēng)險(xiǎn)以及負(fù)類(lèi)數(shù)據(jù)的分類(lèi)風(fēng)險(xiǎn)。在今天的演講當(dāng)中我們?yōu)榱税阉v的簡(jiǎn)單,這里實(shí)際是要通過(guò)這些數(shù)據(jù)來(lái)進(jìn)行估計(jì)的。
我們現(xiàn)在有正類(lèi)數(shù)據(jù)和負(fù)類(lèi)數(shù)據(jù)的分類(lèi)風(fēng)險(xiǎn),已經(jīng)分成兩類(lèi)。因?yàn)槲覀冊(cè)赑U分類(lèi)任務(wù)中缺少對(duì)負(fù)類(lèi)數(shù)據(jù)的標(biāo)注,因而我們不能對(duì)負(fù)類(lèi)數(shù)據(jù)的分類(lèi)風(fēng)險(xiǎn)進(jìn)行直接的估計(jì),這也是我們技術(shù)上所面臨的挑戰(zhàn)。然而,這個(gè)問(wèn)題可以很簡(jiǎn)單的來(lái)解決,由于未標(biāo)注數(shù)據(jù)是由正類(lèi)數(shù)據(jù)和負(fù)類(lèi)數(shù)據(jù)組成的,所以我們可以從PU數(shù)據(jù)中來(lái)對(duì)負(fù)類(lèi)數(shù)據(jù)的分類(lèi)風(fēng)險(xiǎn)進(jìn)行一個(gè)預(yù)估。
具體的公式轉(zhuǎn)換如下圖所示,它背后的理論是正負(fù)數(shù)據(jù)分類(lèi)風(fēng)險(xiǎn)滿足一定的邊界條件,具體的細(xì)節(jié)在這里就不細(xì)說(shuō)了。這是最優(yōu)的方法,我們可以通過(guò)PU的學(xué)習(xí),從PU的數(shù)據(jù)中得出PN的信息。

在左邊PU的邊界可以比PN的邊界要小,我們一開(kāi)始是用PU的結(jié)果而沒(méi)有PN的,這是我們的起點(diǎn)。但如果滿足了這個(gè)條件,PU數(shù)據(jù)的學(xué)習(xí)要比PN數(shù)據(jù)的學(xué)習(xí)更好,但前提是我們要有大量PU數(shù)據(jù);因?yàn)槿绻f(shuō)有大量的PU的數(shù)據(jù)的話,我們左側(cè)邊界值就會(huì)變的小一些。所以說(shuō),PU的學(xué)習(xí)有時(shí)候可以比PN更好一些,這讓我們研究出下一種方法,我后面會(huì)給大家看另外一種方法。

我們會(huì)發(fā)現(xiàn),盡管PU方法已經(jīng)能夠取得很好的結(jié)果,但是還是存在一些問(wèn)題。
我們?cè)賮?lái)看一下之前的PN的風(fēng)險(xiǎn)函數(shù)公式,就是基于P數(shù)據(jù)和N數(shù)據(jù)的風(fēng)險(xiǎn)對(duì)U數(shù)據(jù)的分類(lèi)風(fēng)險(xiǎn)進(jìn)行估計(jì)。根據(jù)這個(gè)定義,N數(shù)據(jù)的風(fēng)險(xiǎn)是非負(fù)類(lèi)的,但是它是PU的樣本,在現(xiàn)實(shí)當(dāng)中我們要對(duì)樣本進(jìn)行估計(jì)。所以說(shuō)PU可能是會(huì)為負(fù)的,因?yàn)檫@個(gè)是會(huì)有一個(gè)負(fù)號(hào),通常是應(yīng)該是負(fù)號(hào)的,但有可能這個(gè)差會(huì)是負(fù)的,特別是對(duì)于可擴(kuò)展性較高的模型來(lái)說(shuō),比如說(shuō)像深度網(wǎng)絡(luò)是會(huì)出現(xiàn)這個(gè)情況。

我們看到,對(duì)于非負(fù)類(lèi)的PU分類(lèi),先從虛線的藍(lán)線開(kāi)始看起,是PN的測(cè)試數(shù)據(jù)上的誤差結(jié)果(藍(lán)色的實(shí)線),這表示模型是收斂的。
再看一下紅色的虛線,是PN的訓(xùn)練數(shù)據(jù)上的誤差結(jié)果,在到某個(gè)點(diǎn)的時(shí)候會(huì)變成負(fù),這表示模型的訓(xùn)練已經(jīng)出現(xiàn)了過(guò)擬合。因?yàn)楫?dāng)在訓(xùn)練數(shù)據(jù)的誤差值變成負(fù)了之后,PU測(cè)試數(shù)據(jù)上的誤差值開(kāi)始增長(zhǎng)了。一個(gè)簡(jiǎn)單的解決過(guò)擬合的方法是,限制這些誤差值為非負(fù)。

這樣做的話,就可以讓我們的數(shù)值維持非負(fù)性。
但這里的一個(gè)問(wèn)題是在于,這樣的模型對(duì)于現(xiàn)在的風(fēng)險(xiǎn)預(yù)估而言效果還是可以的,但是并沒(méi)有解決全部的問(wèn)題。
首先我們先看一下風(fēng)險(xiǎn)的偏差值還是有一致性的,如果你輸入的樣本太多,它會(huì)產(chǎn)生真正的風(fēng)險(xiǎn),而且它的偏差的下降是指數(shù)級(jí)的。從應(yīng)用的角度,我們可以去忽略R(f)的偏執(zhí)項(xiàng),這樣均方誤差其實(shí)并不比原來(lái)的那個(gè)均方誤差要大,而R(f)的值也會(huì)變得更加的可靠。
最后我們看一下實(shí)驗(yàn)結(jié)果:在線性模型當(dāng)中,可以在測(cè)試數(shù)據(jù)上收斂,當(dāng)然現(xiàn)在這樣的方法只能用于線性模型。雖然沒(méi)有辦法獲得一個(gè)更通用的經(jīng)驗(yàn),但是我們可以能夠?qū)τ谶@樣的偏差預(yù)估性的方法來(lái)進(jìn)行改良,興許將來(lái)有更好的應(yīng)用。所以,我們?cè)贑IFAR10當(dāng)中創(chuàng)建了很多的正類(lèi)的數(shù)據(jù),藍(lán)色線代表PN測(cè)試。在這里可以看到,如果np等于1000錯(cuò)誤率下降非?;如果說(shuō)是對(duì)于非負(fù)的測(cè)試數(shù)據(jù),比如說(shuō)就是這條黃色線和藍(lán)色虛線的話,它的錯(cuò)誤率下降就并不是那么的明顯;如果說(shuō)我們使用一些ReLU方法,PU做的比PN要好的多。
接下來(lái)做一個(gè)簡(jiǎn)單的總結(jié):PU數(shù)據(jù)分類(lèi)是怎么做的?我們做的非常簡(jiǎn)單,就是把P和U數(shù)據(jù),就是黑色跟藍(lán)色符號(hào)數(shù)據(jù)進(jìn)行分開(kāi)(黑色符號(hào)數(shù)據(jù)中其實(shí)還含有藍(lán)方符號(hào)的數(shù)據(jù)),最簡(jiǎn)單的方式就是做偏置。如果使用線性模式能夠?qū)崿F(xiàn)這樣的一個(gè)二次方差的方法,那么能夠保證在P跟U當(dāng)中的損耗是一樣的,所以在實(shí)驗(yàn)當(dāng)中我們也證明了這樣的方法是很有作用的。
PNU數(shù)據(jù)
接下來(lái)我們介紹一下PNU(Positive,Negative,Unlabeled)分類(lèi),就是正類(lèi)、負(fù)類(lèi)和無(wú)標(biāo)簽數(shù)據(jù)的分類(lèi)。PNU分類(lèi)其實(shí)就是一個(gè)半監(jiān)督的學(xué)習(xí)方法。
現(xiàn)在我們對(duì)于PU分類(lèi)學(xué)習(xí)有了解決方案,對(duì)NU分類(lèi)學(xué)習(xí)也有自己的解決方案,所以PU跟NU基本上一樣的。PN是一個(gè)標(biāo)準(zhǔn)的方法,我們也有相應(yīng)的解決方法,對(duì)于PU、PN和NU分類(lèi)學(xué)習(xí)中能不能使用半監(jiān)督的方法,我們是希望能把其中的兩者結(jié)合起來(lái),就是藍(lán)點(diǎn)或黑框或者紅叉和黑框結(jié)合起來(lái)。
根據(jù)理論上的風(fēng)險(xiǎn)均值來(lái)看,如果在損失風(fēng)險(xiǎn)上PU比NU做的好的話,如果PN放在中間的話,會(huì)不會(huì)做的更好?或者另外一個(gè)方向,如果NU比PU做的好,那PN就放在第二位;或者說(shuō)是PU放在第一位,或者PN放在第一位。
最簡(jiǎn)單就是PU和NU要把它結(jié)合起來(lái),我們要把這兩者整合起來(lái)。所以原理就是,第一步把PN和PU結(jié)合起來(lái),第二步把PN和NU結(jié)合起來(lái),這樣的話我們總是能獲得最優(yōu)的方法,這是我們現(xiàn)在做的一個(gè)研究工作。
所以,我們的方法就是把它們結(jié)合起來(lái),進(jìn)行一個(gè)組合,根據(jù)我們自己假設(shè)性的數(shù)據(jù)進(jìn)行切換,如果是零,那就是變成一個(gè)PN分類(lèi)學(xué)習(xí),如果是是負(fù),那就加上PU學(xué)習(xí),如果變成正數(shù)我們就加上NU學(xué)習(xí)。后續(xù)繼續(xù)選擇,基本上在三者之間自由組合,添加一個(gè)不同PN、PU和NU的組合來(lái)實(shí)現(xiàn)自由分類(lèi)。
我們?cè)賮?lái)看一下泛化誤差邊界:所有的數(shù)據(jù)和類(lèi)型其實(shí)已經(jīng)看到了,最后NU一個(gè)錯(cuò)誤率這邊還是存在的。換句話說(shuō),如果我們能夠使用未標(biāo)注的數(shù)據(jù),哪怕沒(méi)有簇假設(shè)(一個(gè)聚類(lèi)簇對(duì)應(yīng)一個(gè)標(biāo)注類(lèi)別)也能夠控制泛化誤差在一定合理的范圍之內(nèi)。一開(kāi)始我們無(wú)標(biāo)注的數(shù)據(jù)只是對(duì)它進(jìn)行一個(gè)傳播,但是這樣的一些無(wú)標(biāo)注數(shù)據(jù),更多只是用于這樣的損失和評(píng)估,而并不適用于正則化。
我們現(xiàn)在應(yīng)該可以做一些類(lèi)似平滑的正則化,這邊其實(shí)并不好解釋?zhuān)簿褪钦f(shuō)可能在無(wú)標(biāo)注數(shù)據(jù)當(dāng)中獲得標(biāo)注數(shù)據(jù)。如果我們和其他的一些標(biāo)準(zhǔn)方法做一個(gè)比較的話,這樣的一個(gè)PU加NU,PN加PU的方法所取得結(jié)果是非常好的。
互補(bǔ)型標(biāo)準(zhǔn)類(lèi)別
最后我們來(lái)看一下相互補(bǔ)充型標(biāo)注類(lèi)別(Complementary Labels)的分類(lèi)方法。
先來(lái)看一下類(lèi)別更多的問(wèn)題,也就是說(shuō)現(xiàn)在可能是有1000多或更多類(lèi)的分類(lèi)問(wèn)題。因?yàn)槿绻?000個(gè)不同的標(biāo)簽當(dāng)中來(lái)選擇一個(gè)正確的標(biāo)注類(lèi)別描述這個(gè)類(lèi)的話,其實(shí)這是很耗時(shí)的,這時(shí)候需要互補(bǔ)的標(biāo)注類(lèi)別。
我們選擇其中的一類(lèi),就是錯(cuò)誤的一類(lèi)。這個(gè)做起來(lái)就簡(jiǎn)單了,1000類(lèi)個(gè)候選當(dāng)中,我們只需要把它隨機(jī)抽選,如果說(shuō)這個(gè)是錯(cuò)的話,那么我們就選,如果是正確我們就不選,我們選下一個(gè),換句話說(shuō)我們只選擇錯(cuò)誤的,幫助我們更快的選擇最后正確的那一類(lèi),這個(gè)算法對(duì)于我們來(lái)也非常具有借鑒意義。
換句話說(shuō),其實(shí)就是使用類(lèi)別的互補(bǔ)性,更容易選擇大樣本正確的類(lèi)。我們現(xiàn)在假設(shè)是這樣的,正常的標(biāo)簽,都是來(lái)自于p(x,y),但是是互補(bǔ)標(biāo)簽。所以,從這樣的假設(shè)來(lái)看的話,我們沒(méi)有辦法確定它這樣的一個(gè)一般性的標(biāo)簽和我們互補(bǔ)標(biāo)簽到底應(yīng)該是以什么樣的方法選擇,但是如果說(shuō)我們定好了這樣的一個(gè)公式的話,我們就可以從互補(bǔ)標(biāo)簽的分類(lèi)當(dāng)中進(jìn)行學(xué)習(xí)。
第一種方法,我們使用部分的標(biāo)簽來(lái)做分類(lèi),我們會(huì)有這樣的一個(gè)多候選類(lèi),對(duì)于每一個(gè)互補(bǔ)標(biāo)簽的話,都會(huì)設(shè)置一個(gè)極端的情況,也就是c,所有的c我們都會(huì)給一個(gè)互補(bǔ)標(biāo)簽,一直把它從c一直到c-1;第二個(gè)辦法可能并不是特別正確的辦法,我們可以考慮多標(biāo)簽的分類(lèi)的方法去做。在這個(gè)設(shè)置當(dāng)中,每一個(gè)樣本都會(huì)屬于多個(gè)不同的類(lèi),也就是說(shuō)對(duì)于互補(bǔ)類(lèi)和正類(lèi)的話我們都會(huì)使用的一個(gè)負(fù)標(biāo)簽,這個(gè)辦法可能目前來(lái)說(shuō)并不是特別好,但是有可能做的更好,總的來(lái)說(shuō),我們希望能夠用更簡(jiǎn)單的辦法來(lái)解決這樣一個(gè)問(wèn)題。
接下來(lái)可能就有點(diǎn)復(fù)雜了,假設(shè)我們做c類(lèi)的分類(lèi),我們把R(f)和gy拿出來(lái),gy就是單個(gè)class的分類(lèi)風(fēng)險(xiǎn),我們會(huì)對(duì)這個(gè)分類(lèi)風(fēng)險(xiǎn)進(jìn)行一個(gè)分析,今天我只舉其中的一個(gè)風(fēng)險(xiǎn)的分析的公式。我們把兩個(gè)分類(lèi)進(jìn)行對(duì)比,然后去算它的損失,我們會(huì)有這樣的一個(gè)程度對(duì)稱(chēng)性的損失,就得出它的風(fēng)險(xiǎn)。
但是這個(gè)定義來(lái)看,在我們的設(shè)置當(dāng)中沒(méi)有這個(gè)樣本量,所以要實(shí)現(xiàn)一個(gè)點(diǎn)對(duì)式對(duì)稱(chēng)損失函數(shù)(Pairwise Symmetric Loss),我們就需要一定的特定條件。
我們可以用這樣的一個(gè)公式表達(dá)它的風(fēng)險(xiǎn)函數(shù),重點(diǎn)在于說(shuō)不要取代P要取代P-,我們要把P-替代掉。所以,只需要把P-進(jìn)行替代之后就可以對(duì)比它的一個(gè)損失風(fēng)險(xiǎn)。
但是有這樣一個(gè)問(wèn)題,這樣的一種對(duì)稱(chēng)性損失,它只是用于一些非凸函數(shù),換句話說(shuō),從數(shù)學(xué)層面來(lái)說(shuō)你無(wú)法處理凸函數(shù)的情況,盡管我們絕大部分研究的場(chǎng)景都是非凸的場(chǎng)景。通過(guò)這樣的辦法,我們可以預(yù)測(cè)錯(cuò)誤率(從公式當(dāng)中可以看到),也可以看到,標(biāo)注類(lèi)別的互補(bǔ)性其實(shí)可以幫助我們實(shí)現(xiàn)最優(yōu)的參數(shù)收斂率,這就是一個(gè)很好的例子。
隨后我們做了相應(yīng)的實(shí)驗(yàn),我們所提出的方法在這里,部分標(biāo)簽數(shù)據(jù)互補(bǔ)數(shù)據(jù)都在這邊用,我們只會(huì)使用1除以(c-1),如果我們有10類(lèi),如果你說(shuō)不是1類(lèi),可能正常樣本是第10類(lèi),換句話說(shuō)最起碼有9個(gè)互補(bǔ)標(biāo)簽,不是兩個(gè)三個(gè)四個(gè),需要C減1,10減1,需要9個(gè)互補(bǔ)標(biāo)簽。我們的方法應(yīng)該算是最好的,就算是和右手邊最常見(jiàn)、最主流的方法來(lái)比,我們做的更加的好,以上就是我們的實(shí)驗(yàn)結(jié)果。
最后我們做一個(gè)總結(jié),我們最關(guān)注的是底下的這欄,也就是高精確性,但同時(shí)也希望需要的標(biāo)注成本能夠盡量的低。我們?cè)赨U、PU、PNU和互補(bǔ)性標(biāo)簽分類(lèi)上,都希望能夠?qū)崿F(xiàn)高精度低標(biāo)注成本的目標(biāo)。
最后,介紹一下我所在的研究中心
最后介紹一下我所在的研究所,日本理化研究所先進(jìn)智能研究中心,也就是AIP。我們所關(guān)注的更多是先進(jìn)的、智能的研究項(xiàng)目。在2016年的時(shí)候我們就成立了這個(gè)研究中心,我們有5個(gè)任務(wù),分別是開(kāi)發(fā)下一代的AI技術(shù)、加速科學(xué)研究、把AI用于決策日本的社會(huì)重大的問(wèn)題,以及研究AI道德、法律和社會(huì)問(wèn)題的問(wèn)題,還有希望解決人力資源發(fā)展。
研究中心有三大集團(tuán),我們只關(guān)注基礎(chǔ)的研究,所有的應(yīng)用都是和合作伙伴付諸實(shí)施。目前我們目標(biāo)的導(dǎo)向型技術(shù)研究集團(tuán),讓更多的技術(shù)人員和產(chǎn)業(yè)量化人員在這邊工作。對(duì)于我們來(lái)說(shuō),更多只是關(guān)注最基層的基礎(chǔ)的AI的研究,還有一個(gè)組是我們AI社會(huì)研究組。我們有很多的合作伙伴,像大學(xué)、公司等,在中國(guó)也有很多很好的大學(xué)進(jìn)行合作和聯(lián)系,我們希望能有機(jī)會(huì)邀請(qǐng)諸位去我們?nèi)毡镜闹悄苎芯恐行娜タ匆豢础?/div>
計(jì)算資源對(duì)于我們來(lái)說(shuō)也非常的重要,我們決定購(gòu)買(mǎi)了24臺(tái)NVIDIADGX-1,我們?cè)贕reen500列表上排名第4,我們現(xiàn)在能實(shí)現(xiàn)10.602個(gè)千兆次的計(jì)算能力。我們的辦公室在東京,和火車(chē)站非常近,東京站走過(guò)去就可以看到我們的大樓。我們?cè)诖髽堑?5樓,入口是這樣的,在內(nèi)部我們有一個(gè)非常開(kāi)放的討論空間,也可以邀請(qǐng)來(lái)自學(xué)術(shù)界、研究機(jī)構(gòu)的客人過(guò)來(lái)進(jìn)行討論。
下一次大家如果有機(jī)會(huì)來(lái)東京,可以到東京站,走10分鐘的時(shí)間就能夠看到我們的研究中心,希望我們可以有機(jī)會(huì)探討交流,謝謝大家。
相關(guān)閱讀:
評(píng)論排行
- uc營(yíng)銷(xiāo)管家——高效率的銷(xiāo)售軟件(28)
- 代替人工撥打電話的軟件:亮劍天下自動(dòng)...(15)
- 商路通技術(shù)總監(jiān)黃河專(zhuān)訪:技術(shù)上叫板的瘋子(13)
- 華晨汽車(chē)客服中心通過(guò)CC-CMM應(yīng)用級(jí)L1認(rèn)證(7)
- 小米擠下HTC,居中國(guó)消費(fèi)者常用手機(jī)第五(6)
- 因科美E350不需電話會(huì)議平臺(tái)就能實(shí)現(xiàn)多...(6)
- 技術(shù)上叫板的瘋子(5)
- 億倫公司推出新版本“智能外呼營(yíng)銷(xiāo)平臺(tái)”(5)
- 小米擠下HTC,居中國(guó)消費(fèi)者常用手機(jī)第五(5)
- 葡萄牙電信攜手華為部署LTE商用服務(wù) (4)
- 客服人生:入職凡客四年半的她,剛“被...(4)
- 殺毒先鋒2.0新版發(fā)布,功能升級(jí)(4)
- 騰訊EC與金倫合作 開(kāi)啟云聯(lián)絡(luò)中心新里程(4)
- 金倫企呼云呼叫中心備受媒體及用戶關(guān)注(4)
- 態(tài)度是一把鑰匙(3)
- 未來(lái)的聯(lián)絡(luò)中心:克服商業(yè)與技術(shù)變革帶...(3)
- 電話、電話、更多的電話:如何管理?(3)
- 億群發(fā)布GSM/3G IP通信解決方案(3)
- 華為與瑞星建立云計(jì)算虛擬化防病毒戰(zhàn)略...(3)
- 塔迪蘭Aeonix統(tǒng)一通信和協(xié)作(UC&C)解...(3)