
暗網(wǎng)(Deep Web)又被稱(chēng)為不可見(jiàn)網(wǎng)、隱藏網(wǎng),是指不能被搜索引擎抓取,需要通過(guò)動(dòng)態(tài)網(wǎng)頁(yè)技術(shù)訪問(wèn)的網(wǎng)絡(luò)資源。盡管我們?nèi)粘.?dāng)中可接觸到的網(wǎng)絡(luò)信息已經(jīng)是海量,實(shí)際上也不過(guò)是所有網(wǎng)絡(luò)信息的冰山一角。任何關(guān)鍵詞的谷歌搜索都無(wú)法訪問(wèn)深層網(wǎng)絡(luò),這些信息隱藏在密碼和特殊訪問(wèn)軟件背后,暗網(wǎng)中的信息量至少是表層網(wǎng)絡(luò)(Surface Web)的500倍。
表層網(wǎng)絡(luò)的數(shù)據(jù)已經(jīng)成就了大量成功的科技公司,暗網(wǎng)的數(shù)據(jù)體量如此龐大,這部分?jǐn)?shù)據(jù)如何挖掘和應(yīng)用呢?
印度初創(chuàng)公司Quantta Analytics正是一家做暗網(wǎng)數(shù)據(jù)(Dark data)挖掘、分析和應(yīng)用的公司。截止到目前,已經(jīng)有超過(guò)100家企業(yè)為Quantta Analytics的數(shù)據(jù)分析服務(wù)付費(fèi),包括印度國(guó)家銀行、麥當(dāng)勞、星巴克等。Auantta Analytics為金融、零售、酒店、醫(yī)療保健、能源和餐飲行業(yè)提供服務(wù)。
Quantta Analytics擁有一支約20人的團(tuán)隊(duì),包括數(shù)學(xué)家、統(tǒng)計(jì)學(xué)家和工程師,來(lái)自哈佛大學(xué)、馬里蘭大學(xué)、密歇根大學(xué)、印度理工大學(xué)、印度統(tǒng)計(jì)學(xué)院等。他們正在應(yīng)用AI模型實(shí)時(shí)監(jiān)測(cè)暗網(wǎng)數(shù)據(jù),并將數(shù)據(jù)與行為心理學(xué)結(jié)合,以預(yù)測(cè)用戶(hù)行為。
Quantta Analytics創(chuàng)始人Ritesh Bawri以耐克為例,以說(shuō)明暗網(wǎng)數(shù)據(jù)如何幫助零售企業(yè):比方說(shuō),耐克在印度不同地方有200家商店,耐克向Quantta Analytics提供客戶(hù)在店內(nèi)的消費(fèi)數(shù)據(jù),如消費(fèi)金額、消費(fèi)明細(xì)、逗留時(shí)間等等,Quantta Analytics會(huì)添加耐克商店周邊相關(guān)數(shù)據(jù),為耐克反饋市場(chǎng)信息,例如他們可以告訴耐克在特定商店周?chē)有多少用戶(hù)沒(méi)有到店消費(fèi)。
聽(tīng)起來(lái)似乎與其他大數(shù)據(jù)公司無(wú)疑,Quantta的特別之處在于他們不是通過(guò)爬蟲(chóng)抓取表層網(wǎng)絡(luò)信息,而是不斷地接入深層網(wǎng)絡(luò)數(shù)據(jù)點(diǎn),以獲得與其他大數(shù)據(jù)公司不同的數(shù)據(jù)源。Ritesh Bawri介紹,Quantta的系統(tǒng)已經(jīng)有600億個(gè)數(shù)據(jù)點(diǎn)流入。
本質(zhì)上Quantta Analutics還是家大數(shù)據(jù)挖掘和分析的公司,但我覺(jué)得有趣的是他們對(duì)接暗網(wǎng)數(shù)據(jù)源的策略。這是一個(gè)數(shù)據(jù)源和建模能力雙力齊驅(qū)的賽道,早期進(jìn)入暗網(wǎng)數(shù)據(jù)挖掘,是大數(shù)據(jù)公司建立差異化優(yōu)勢(shì)和競(jìng)爭(zhēng)壁壘的好方法。