AI第一視角看世界?這是人工智能要有自我意識了嗎
我們一般給人工智能喂養(yǎng)視頻數(shù)據(jù),或者我們平時看的短視頻電視劇電影,都是旁觀者視角。也就是說,我們類似旁觀者一樣,看到的是某個視頻里的事件內(nèi)容發(fā)生的全貌。機智客舉個現(xiàn)實的例子更方便理解一點,比如你睡眼惺忪地在超市里拿了一袋洗衣粉,放入購物車或購物籃。旁觀者視角就是,你穿著睡衣,微微彎腰,站在超市貨架旁邊找東西,看到洗衣粉后,從貨架上拿下來,丟購物車或購物籃里。而第一視角則是,你心無旁騖,目光掃著貨架一排排貨物,看到洗衣粉,然后伸手拿過來,轉(zhuǎn)頭看向購物車,把洗衣粉放進去。
所以第一視角,往往更符合我們的生理結(jié)構(gòu),然而也信息量往往更少,雖然旁觀者視角的信息量更多更全面,不過在現(xiàn)實世界,以我們?nèi)藶橹行模谝灰暯堑那闆r往往最多。人工智能要更深入我們?nèi)祟愂澜纾苍S學(xué)會第一視角看世界并與外界互動,才更貼近我們生活,方便為我們服務(wù)。
這不,第一視角的人工智能要來了。Facebook AI就在今年開啟了一個名為Ego4D(Egocentric 4D Perception)的中長期計劃,就是為了解決以第一人稱視覺為中心的感知領(lǐng)域的研究挑戰(zhàn)。據(jù)機智客了解,這是一個大規(guī)模的以第一人稱視覺為中心的數(shù)據(jù)集,具有前所未有的多樣性。它由來自全球9個不同國家74個地點的855名獨特參與者收集的3025小時視頻組成。它匯集了88名研究人員,將這一數(shù)據(jù)集的規(guī)模大幅增加了一個數(shù)量級,比任何其他項目都大20多倍,并且即將在11月底開放下載。用這些數(shù)據(jù)來喂養(yǎng)AI。
第一視角的人工智能?這是要“滲透”到人類世界,喚醒自我意識嘛?其實,這個屬于以自我為中心的感知,也是一個全新的領(lǐng)域。而這種較之以往完全很“顛覆”的感知,讓人工智能進入了一個全新的世界。試想一下讓人工智能看一段以旁觀者視角拍攝的過山車,即便外人看著都跟著緊張和頭暈,但好歹能捕捉到整個過程的畫面。而如果讓AI以第一視角的體驗者來看,那它不用說也處于完全懵逼狀態(tài)。我是誰,我在干嘛,這是哪里,簡直幀幀是靈魂發(fā)問。這當然只是一個例子,然而現(xiàn)在有些可穿戴設(shè)備——更多是未來的可穿戴設(shè)備——配備的相機多半就是以第一視角看外界的。
而這個,就是Facebook AI此時面對的挑戰(zhàn)。Ego4D希望解決的第一個問題是情景記憶(Episodic memory)。比如你剛才拿過什么東西。Ego4D要解決的第二個問題便是預(yù)測(Forecasting):下一步我要做什么?比如你要去哪里?東西要放哪里等。最后一個問題也是我們盼望AI能實現(xiàn)的防線則是社會互動(Social interaction)。也就是理解社交互動。
這個,更趨近于我們每個個體的智能助手、可穿戴設(shè)備等高級方向了吧。第一視角的人工智能,未必能擁有自我意識,然而這一個全新的方向則讓AI更方便融入我們每個個體的現(xiàn)實人生。我們目前的智能手機、智能手環(huán)、手表等智能終端或可穿戴設(shè)備更多的是一個工具,而非一個助手,它們都還沒學(xué)會理解我們,即時協(xié)助我們。