Meta開(kāi)源的新模型ImageBind,是第一個(gè)能夠一次從6種不同方式結(jié)合信息的AI模型。 核心概念是將 6 種類(lèi)型的數(shù)據(jù)數(shù)據(jù)鏈接到單一的 embedding space,包括視覺(jué)數(shù)據(jù)(圖片和視頻的形式)、熱(像是紅外線(xiàn)影像)、文字、音頻、深度信息,以及最耐人尋味的 IMU(Inertial Measurement Unit,慣性測(cè)量單元)讀數(shù)。
ImageBind 模型的概念架構(gòu)
這聽(tīng)起來(lái)有點(diǎn)抽象,但正是這個(gè)概念支撐起近來(lái)生成式 AI 的蓬勃發(fā)展。
比方說(shuō),Midjourney、Stable Diffusion、DALL-E 等文字轉(zhuǎn)成圖片的 AI 工具,在模型訓(xùn)練階段就將文字和圖片鏈接在一起,它們?cè)谝曈X(jué)數(shù)據(jù)中尋找模式,同時(shí)將信息和圖片描述鏈接在一起。 這就是這些 AI 工具能夠根據(jù)用戶(hù)的文字提示產(chǎn)生圖片的原因,許多同樣以文字提示產(chǎn)生視頻或音頻的 AI 工具也是如此。
在這概念下,未來(lái)的 AI 系統(tǒng)統(tǒng)能以同樣的模式交叉引用數(shù)據(jù)資料。 比方說(shuō),想象有個(gè)新的虛擬現(xiàn)實(shí)設(shè)備,它不僅可以產(chǎn)生聲音、視覺(jué)影像,還能產(chǎn)生物理環(huán)境中的動(dòng)作感受。 當(dāng)你想要模擬一趟海上之旅,虛擬現(xiàn)實(shí)系統(tǒng)不僅讓你置身在一艘船上,背景有海浪聲,還會(huì)讓你感受腳下的甲板搖晃、吹來(lái)涼爽的海風(fēng)等等。
Meta 認(rèn)為其他感官的數(shù)據(jù)資料,未來(lái)可望加入模型當(dāng)中,例如觸摸、口語(yǔ)、氣味或者大腦 fMRI(功能性磁振造影)等。
雖然ImageBind只是Meta旗下一項(xiàng)項(xiàng)目,還沒(méi)有具體應(yīng)用成果,卻指出生成式AI未來(lái)一大發(fā)展方向,同時(shí)對(duì)應(yīng)到Meta重金投入的虛擬現(xiàn)實(shí)、混合實(shí)境以及元宇宙等愿景。
ImageBind 的研究不僅很有意思,Meta 更是堅(jiān)定站在開(kāi)源陣營(yíng)當(dāng)中,相較于 OpenAI、Google 等公司有不同做法。 ImageBind 也延續(xù) Meta 既有策略,向開(kāi)發(fā)者和研究人員公開(kāi)研究成果。