但過于頻繁的視頻會議,讓一些人產(chǎn)生了奇怪的想法并將其付諸實(shí)踐。最近,一位名為 馬特 · 里德(Matt Reed)的工程師,就成功開發(fā)出了代替自己參加 ZOOM 視頻會議的 AI。
乍看之下好像還挺像這么一回事兒的。

。▉碓矗厚R特 · 里德)
而且這個視頻會議 AI 不是只有畫面而已,里德還為它設(shè)計(jì)了簡單的語音互動功能,可用以接收你的領(lǐng)導(dǎo)或者同事所說的話,然后還能自動說出你所編寫的內(nèi)容,打造出和諧的會議互動氛圍。
那么,這個機(jī)器人具體是如何實(shí)現(xiàn)的?
為了打造它,里德首先通過 Quicktime 錄制了自己的視頻圖像,包含幾個常用的視頻會議表情,例如微笑,擺動頭部等。當(dāng)這些畫面循環(huán)播放時,仿佛就是一個克隆版的自己。
然后是配置語音功能; Artyom.js 這一語音識別和文本轉(zhuǎn)語音的開源庫,他構(gòu)建了一個自定義 HTML Web 應(yīng)用程序,可以實(shí)現(xiàn)對麥克風(fēng)傳入的音頻進(jìn)行語音識別和響應(yīng)提示。
這個庫的優(yōu)點(diǎn)在于,不同于 Alexa 或 Siri 必須使用喚醒詞才能說話,它只需要聽到 “How are you”“Are you OK” 之類的命令就能觸發(fā)下一步回應(yīng),比如循環(huán)表情靜止的圖像或者說出回復(fù)。
你可以將里德該步驟的創(chuàng)作理解為聊天機(jī)器人或 Alexa 語音技能。聊天機(jī)器人的原理就是經(jīng)過編程,可以理解某些輸入,并根據(jù)這些關(guān)鍵字運(yùn)行命令以給出一些書面響應(yīng)。但是由于人類語言的自然可變性,聊天機(jī)器人和里德的 Zoombot 還是蠻容易出錯的,畢竟它們都沒有學(xué)會人類隨機(jī)應(yīng)變的技能。

。▉碓矗厚R特 · 里德)
最后,里德通過軟件 ManyCam 創(chuàng)建虛擬網(wǎng)絡(luò)攝像頭,再將 Zoom 攝像頭設(shè)置為 ManyCam 虛擬網(wǎng)絡(luò)攝像頭,然后打開揚(yáng)聲器,這個 Zoombot 就可以開始上班了!
現(xiàn)在,里德已經(jīng)將他的具體教程發(fā)表在了 GitHub 上,而且廣受關(guān)注。地址詳見:https://github.com/mcreed/zoombot;蛟S你也有興趣試一試。
。▉碓矗厚R特 · 里德)
盡管這項(xiàng)發(fā)明看起來頗具無厘頭色彩,因?yàn)樵趯?shí)際的使用過程中,它和真人參會的反應(yīng)還是有比較多的區(qū)別,例如你能通過眨眼的頻次察覺出它并非真人(目前用來識別 DeepFake 視頻的方法之一就包括觀察眨眼頻率),但里德確實(shí)展示了這樣的一種需求和可能性,原來視頻會議工具還能這么玩。
畢竟,當(dāng)里德在真實(shí)的視頻會議中使用他的 Zoombot 時,確實(shí)給已經(jīng)對視頻會議日益麻木的同事們帶來了很多歡樂。
或許有一天這樣詭異的景象真的會出現(xiàn):打開一個視頻會議,可能參加的全是機(jī)器替身。