增強對3D空間的理解能力能為AR帶來更好的體驗,例如蘋果為其最新的iPhone 12系列加裝了LiDAR,借助機器學習和iOS14的深度信息框架讓機器理解人們周圍的世界,從而為AR物體的精準放置提供了技術(shù)支撐,也為用戶帶來了更好的AR體驗。
但目前來看,機器對人們周圍3D環(huán)境的理解還停留在較為初級的階段,而科技巨頭們在這個領(lǐng)域的研究腳步也仍在繼續(xù)。最近Facebook AI Research(FAIR)的一項研究就揭示了他們正在研究如果讓AI更加智能地探索3D環(huán)境,并與之進行交互。
FAIR對3D環(huán)境及交互問題的探索
在人類空間中運作的具身智能體(embodied agents)必須能夠了解其身處的環(huán)境是如何工作的:該智能體可以使用哪些對象,以及如何使用它們?FAIR引入了一種增強型學習方法來進行交互探索,從而使一個具身智能體可以自動發(fā)現(xiàn)可供性(affordance)狀況下新的未映射的3D環(huán)境(例如陌生的廚房)。
給定以自我為中心的RGB-D攝像頭和高級操作空間,同時通過基于圖像的可供性分割模型訓練,該智能體將獲得成功的互動。前者產(chǎn)生了在新環(huán)境中有效行動以準備下游交互任務(wù)的策略,而后者產(chǎn)生了卷積神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)將圖像區(qū)域映射到智能體,為它們的每個動作提供可能性,從而增強了探索的回報。
FAIR通過AI2-iTHOR(一個為可視化AI提供的交互式3D環(huán)境)展示了他們的想法。結(jié)果表明,智能體可以學習如何智能地適應(yīng)新的居家環(huán)境,并做好準備,以迅速解決各種下游任務(wù),例如“尋找一把刀并將其放在抽屜里”。
與環(huán)境交互的能力是在人類空間中工作的具身智能體的一項基本技能。交互使智能體能夠修改其環(huán)境,從而使它們從語義導航任務(wù)(例如“去廚房;找到咖啡杯”)轉(zhuǎn)移到涉及與周圍環(huán)境交互的復(fù)雜任務(wù)(例如“加熱咖啡并帶來給我”)。
如今,典型的智能體通常都經(jīng)過培訓,可以在監(jiān)督的方式下執(zhí)行特定的互動。例如,智能體學會導航到指定的對象、靈巧的機器手學會解開魔方、機器人學會操縱繩索等等。在這些情況下以及其他許多情況下,無論是通過專家演示來表達,還是通過旨在激發(fā)期望行為來表達,需要先知道哪些對象與交互有關(guān),以及交互的目的是什么。
相比之下,F(xiàn)AIR設(shè)想了能夠進入新穎的3D環(huán)境,四處走動遇到新對象并自動識別可供性范圍的實現(xiàn)主體:什么是可交互對象,使用它們的相關(guān)操作以及這些交互將在何種條件下進行并且成功?然后,這樣的智能體可以進入新的廚房,并準備好處理“在水槽中洗我的咖啡杯”之類的任務(wù)。這些功能將模仿人類通過學習到的視覺先驗和探索性操作的結(jié)合來有效發(fā)現(xiàn)陌生物體的功能的能力。
為此,F(xiàn)AIR介紹了對交互問題的探索:3D環(huán)境中的移動智能體必須自主發(fā)現(xiàn)可以與其進行物理交互的對象,以及與它們進行交互時有效的操作是什么。
如何識別3D環(huán)境并進行交互?
上圖是這項技術(shù)的主要思想。FAIR訓練智能體交互探索以快速發(fā)現(xiàn)可以使用哪些對象以及如何使用它們。在全新且看不見的環(huán)境中,他們的智能體可以推斷其視覺可供性狀況,并與存在的所有對象進行有效交互。最終的探索策略和可供性模型將智能體程序準備為涉及多個對象交互的下游任務(wù)。
探索交互對所有對象、動作、智能體位置和動作歷史的乘積提出了具有挑戰(zhàn)性的搜索問題。此外,許多物體被隱藏(例如,在抽屜中)需要被發(fā)現(xiàn),并且它們的交互動力學不是直接的(例如,不能打開已經(jīng)打開的門,如果拿起刀只能切一個蘋果)。相反,用于在靜態(tài)環(huán)境中導航探索的涉及相對較小動作的空間和動力學僅由障礙物的存在/不存在控制。
為了應(yīng)對這些挑戰(zhàn),F(xiàn)AIR提出了一種深度強化學習(RL)方法,在這種方法中,智能體可以發(fā)現(xiàn)新的,未映射的3D環(huán)境的可供性能力情況,結(jié)果為在哪里進行探索以及嘗試進行哪些交互提供了強有力的先決條件。具體來說,F(xiàn)AIR考慮一個智能體,該智能體配備了以自我為中心的RGB-D攝像頭和一個由導航和操縱動作(左轉(zhuǎn),打開,切換等)組成的動作空間,其作用最初對于智能體是未知的。FAIR賦予智能體與環(huán)境中的所有對象快速交互的能力。同時,研究團隊使用探索策略生成的部分觀察到的交互數(shù)據(jù),在線訓練了一種可供性模型,以根據(jù)每個智能體的動作在此處成功的可能性來對圖像進行分割。這兩個模型協(xié)同工作以從功能上探索環(huán)境,參見圖2。
FAIR用AI2-iTHOR進行的實驗證明了相互作用探索的優(yōu)勢。他們的智能體可以快速尋找新對象,以在新環(huán)境中與之互動,從而使最佳探索方法的性能與所需時間步驟相比減少了42%,并且經(jīng)過全面培訓后,智能體的探索力得到增強,較之前增加了1.33倍的互動。此外,F(xiàn)AIR展示了他們的智能體和可供性模型有助于訓練多步驟交互策略(例如,在水槽中清洗物體),在訓練樣本少且沒有人為示范等情況下,在各種任務(wù)上的成功率提高了16%。
相關(guān)工作
可供性是采取行動的潛力。在計算機視覺中,人們以各種形式探索了視覺可供性能力:從圖像和視頻中預(yù)測在哪里抓取物體,推斷人們?nèi)绾卫每臻g或工具,以及人體姿勢的先驗知識。FAIR的工作為學習視覺能力提供了新的視角。提議的智能體不是通過靜態(tài)數(shù)據(jù)集被動地學習它們,而是通過與動態(tài)環(huán)境的探索性互動主動尋求新的能力。此外,與先前的工作不同,F(xiàn)AIR的方法不僅產(chǎn)生圖像模型,而且產(chǎn)生探索相互作用的策略,F(xiàn)AIR證明了這種方法可以加速學習針對具體化主體的新下游任務(wù)。
3D模擬器中最近體現(xiàn)的AI工作解決了導航問題:智能體在未映射但靜態(tài)的環(huán)境中可以智能移動以達成目標。視覺導航的探索策略可以在無人監(jiān)督的“預(yù)覽”階段有效地映射環(huán)境。該智能體因其推斷的占用地圖中所能覆蓋的最大化區(qū)域、所訪問狀態(tài)的新穎性、推動探索區(qū)域的邊界和相關(guān)指標而獲得獎勵。在VizDoom(常用增強學習實驗環(huán)境)的游戲環(huán)境中,通過學習對智能體的健康狀況帶來影響的危險區(qū)域(例如,敵人,熔巖)的視覺外觀,可以改進基于經(jīng)典邊界的探索。
與上述所有方法相反,F(xiàn)AIR研究在智能體可以修改環(huán)境狀態(tài)(打開/關(guān)閉門,拾取對象等)的動態(tài)環(huán)境中進行交互探索的問題。他們的第二個最終目標不是建立自上而下的地圖,而是在新環(huán)境中快速與盡可能多的對象進行交互。換句話說,對導航的探索能加快完成靜態(tài)環(huán)境圖理解,而對交互的探索能加快促進智能體完成對其在動態(tài)環(huán)境中交互的理解。
除了導航之外,F(xiàn)AIR的這項研究還利用基于模擬交互的環(huán)境開發(fā)智能體,這些智能體還可以執(zhí)行動作(例如,移動對象,打開門),最終將策略付諸實踐。
FAIR的方法不是從演示中學習特定于任務(wù)的策略,而是從經(jīng)驗中學習與任務(wù)無關(guān)的探索行為,以快速發(fā)現(xiàn)可供性狀況。正如他們在實驗中所展示的,其模型可以與諸如上述任務(wù)的下游任務(wù)相結(jié)合,以加快智能體的訓練速度。
FAIR分享通過互動學習的總體思想,其先前的工作研究是通過自我監(jiān)督的訓練來讓智能體積極學習操縱策略的。非結(jié)構(gòu)化游戲數(shù)據(jù)也已用于學習子目標策略,然后將其采樣以解決復(fù)雜任務(wù)。對于桌面環(huán)境中的簡單對象和網(wǎng)格世界中的區(qū)塊推送任務(wù),可以學習可供性模型。但是,F(xiàn)AIR更專注于需要導航和操縱(例如,移至柜臺并撿起刀)的高層交互策略,而不是細粒度的操縱策略(例如,更改關(guān)節(jié)角度)。
在沒有外部獎勵的情況下,強化學習智能體仍然可以集中精力滿足內(nèi)在動力。FAIR的研究基于好奇心、新穎性和授權(quán)來制定內(nèi)在動機,以改善電子游戲智能體(例如VizDoom,Super Mario)或增加對象注意力。FAIR的想法可以看作是內(nèi)在動機的一種獨特形式,其中,智能體被驅(qū)使在環(huán)境中體驗更多的互動。另外,F(xiàn)AIR專注于以人為中心的逼真3D環(huán)境而不是電子游戲,具有可以更改對象狀態(tài)的高級交互功能,而不是低級的物理操作。
讓環(huán)境理解和交互更智能
FAIR的目標是訓練互動探索智能體進入一個新的、看不見的環(huán)境,并成功地與存在的所有對象進行互動。這涉及識別可交互的對象、學習如何導航到它們,并發(fā)現(xiàn)如何與它們進行所有有效交互(例如,智能體發(fā)現(xiàn)可以撥動電燈開關(guān),但不能撥動刀子)。
為解決龐大的搜索空間和復(fù)雜的交互動力學的挑戰(zhàn),F(xiàn)AIR的智能體學習了視覺可供性,以幫助其智能地選擇要探索的環(huán)境區(qū)域和嘗試進行交互的方式。至關(guān)重要的是,他們的智能體通過自身在勘探過程中與環(huán)境互動的經(jīng)驗來建立這種可供性模型。例如,通過成功打開櫥柜,智能體了解到帶有手柄的對象很可能是“可打開的”,F(xiàn)AIR的方法產(chǎn)生了一種交互探索策略,可以在新環(huán)境中快速執(zhí)行對象交互,并提供可視化的可供性模型來捕獲在以自我為中心的視角中哪個動作可能成功。
FAIR表示,其未來的工作可能會在可供性預(yù)測中為更多的環(huán)境狀態(tài)建模,并將更復(fù)雜的策略體系結(jié)構(gòu)與空間存儲結(jié)合起來。這對于讓AI掌握新的以人為本的環(huán)境并提供幫助來說非常有價值,而通過與這樣的AI技術(shù)結(jié)合,AR也能為使用者提供更好地體驗。
目前除Facebook外,谷歌、蘋果等科技巨頭們也都在進行類似的研究,例如增加了LiDAR的iPhone借助機器學習和iOS14的深度信息框架,能理解人們周圍的世界,并建立一個基于場景的精確深度圖形。它能實現(xiàn)物件和房間的掃描、添加照片和視頻特效的工作以及為AR物體的精準放置提供技術(shù)支撐。而谷歌也通過推出Google Lens,依靠智能手機上的攝像頭識別環(huán)境及物品,為用戶提供與之相關(guān)的情景信息。
FAIR這項研究的發(fā)布也表明巨頭們正在對環(huán)境理解以及交互進行更深入的研究。這就如同不久前蘋果AR高管Mike Rockwell所說的那樣:“我們還有很多事情要做,特別是增強我們對周圍環(huán)境的了解。”
完整論文:
https://research.fb.com/wp-content/uploads/2020/11/Learning-Affordance-Landscapes-for-Interaction-Exploration-in-3D-Environments.pdf
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
元宇宙數(shù)字產(chǎn)業(yè)服務(wù)平臺
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息