前言
VR和人工智能(AI)是今年最火爆的兩大前沿科技,但這兩方面的研究工作很少有人拿到一起來說。如今,這兩個領域的研究出現(xiàn)了融合,主要體現(xiàn)在那些不需要人為干預的應用上,如虛擬人、計算機寵物等,都需要這兩項技術(shù)進行深入整合,由此也誕生了一個新的名詞:智能虛擬環(huán)境,這份報告主要講述如何利用人工智能+虛擬現(xiàn)實,打造一個智能虛擬環(huán)境。 報告作者系英國索爾福德大學虛擬環(huán)境中心魯思?艾利特、英國華威大學(全球排名第48,在英國僅次于牛津和劍橋)計算機科學系邁克爾?魯克。第一章:簡介
當一些前沿技術(shù)領域的研究得到公眾關注,并走出實驗室,走進人們的日常生活中時,通常能夠獲得更廣泛的發(fā)展動力。 事實上,其令人興奮的應用潛力也正是本文所基于的一個前提的幕后推動力:不同的先進計算與研究團隊開始整合其研究成果,例如,AI、人工生活(AL)和虛VR,或虛擬環(huán)境(VE)等方面的研究。這些智能技術(shù)的結(jié)合,體現(xiàn)在自主生物和各種代理上,再加上有效的展示方式和各種互動,正在形成一種新的環(huán)境,即智能虛擬環(huán)境。 當前有許多條件允許人們在AI和AL的研究中使用虛擬環(huán)境。首先,計算機的性能越來越強大,在支持VR的同時,還有足夠的計算能力來支持AI。其次,3D圖形軟件越來越成熟,應用越來越廣泛。此外,自然語言處理等AI技術(shù)也已經(jīng)成熟,能夠被用于虛擬環(huán)境下的一種互動方式。 與此同時,虛擬環(huán)境和前沿圖形領域的研究人員也在尋求視覺吸引力之外的進步,例如利用智能技術(shù)為一個“空的環(huán)境”整合物理世界的其他方方面面。這其中可能包括根據(jù)人口和交通規(guī)劃城市發(fā)展模式、虛擬人調(diào)查、虛擬生物創(chuàng)建等。 一、基本限制 VE與機器人技術(shù)至少擁有一處共同點,那就是需要尊重實時處理限制。VE就是一套由渲染周期推動的系統(tǒng),通常以50或60Hz的頻率運行最理想,這能確保變化像動畫片一樣順暢,不出現(xiàn)卡頓。如果幀率低于10Hz,就不能持續(xù)表達物理世界中的變化,無法讓用戶感受到自己身處VE中。 在給定的周期內(nèi),渲染算法貫穿于一個場景圖中——通常是一個遞階結(jié)構(gòu),VE所有的組成部分都通過連接在一起的不同類型的節(jié)點來代表。這種場景圖越復雜,渲染算法所需要的計算時間就越長,也就意味著維持這種高幀率就越困難。開發(fā)VE的研究人員已經(jīng)意識到該問題,目前的解決方案是盡量利用通用機制來創(chuàng)建視覺元素。 與機器人技術(shù)一樣,添加智能元素將占用基本渲染周期的處理能力,因為它要調(diào)用同一個處理器。即使用額外的處理器,如果并行處理不能準確地與渲染幀率同步,那同樣會影響渲染能力。 下文中將要討論的許多系統(tǒng)都不是實時渲染,大部分采用離線渲染,然后再像動畫片一樣運行。這種方式避免了正常的VE交互式使用。因此,雖然處理能力有了提升,渲染算法有了改善,讓我們有可能為VE添加智能元素,但是,當前在實驗室開發(fā)之中的許多系統(tǒng)還是顯得力不從心。 二、VE工具 在AI和VR整合過程中,工具和開發(fā)環(huán)境起著至關重要的角色。在這里,我們有一些不同的問題需要考慮,包括支持級別、添加復雜功能等。 1、支持級別 智能VE的開發(fā)還將進一步受到VE開發(fā)工具包限制,這些工具包通常趨向于VE的視覺和圖形支持,而不是傾向于添加智能元素。 例如,在最低級水平下,一套系統(tǒng)可能使用Open GL或3D系統(tǒng)和C++來開發(fā),但為了實現(xiàn)想要的功能,靈活性通常會受到影響。這種低級水平VE開發(fā)的案例就是AReVi開發(fā)工具包,提供一套基于代理編程語言oRis的C++工具包。 高級別的開發(fā)模式前文已經(jīng)闡述過,該模式下的VE工具包使用場景圖表示法。這是表現(xiàn)物體圖形要素的一個比較方便的方法,因為場景圖中的節(jié)點通常以一系列的多邊形來代表圖形基本對象。然后,再利用群組節(jié)點將這些基本圖形要素合成更加復雜的圖形對象。 2、整合知識表示 知識表示是指把知識客體中的知識因子與知識關聯(lián)起來,便于人們識別和理解知識。如果我們要把知識添加到目標對象中,尤其是從知識的層面操控目標,前文提及的場景圖形表示法就顯得不夠方便了,因為我們也不清楚有多少概念目標能夠被映射到圖形要素中。因此有人認為,VE工具開發(fā)包設計人員要整合顯性知識表示工具。在這方面,AI將起到幫助作用。 在大多數(shù)VE開發(fā)工具包中,代表VE用戶的目標在系統(tǒng)中具有特權(quán)地位。例如,對于VRML’97(虛擬現(xiàn)實建模語言),用戶被提供自動化功能來檢測與環(huán)境中其他部分是否沖突。另外還有動畫支持功能,但它以設計師提前計算出的軌跡為導向,而不是基于虛擬傳感器所驅(qū)動的物體自主運動。 其實,許多VE開發(fā)工具包提供傳感器。這些傳感器雖然不同于機器人所攜帶的感知類傳感器,但卻能用于檢測用戶互動。例如,撞墻后會發(fā)出警報。要想在AI場景中添加其他有趣行為,還需要通過工具包所支持的語言進行直接編程。 VRML’97已經(jīng)將Script節(jié)點整合到了場景圖表示中,從而為用戶添加功能提供一個整潔的界面。這也是為VRML應用添加復雜功能的標準模式,但也有批評者指出,這種方法的節(jié)點間流量過多。其中一個解決方案是,將一個神經(jīng)網(wǎng)絡整合到VRML節(jié)點中,從而減少節(jié)點間的流量加載,讓行為響應更迅速。 3、與復雜功能互動 如果我們希望在VE環(huán)境中添加更復雜的功能,還將遭遇與“目標和VE互動方式”相關的問題。一般場景中,視覺互動多發(fā)生在VE目標和VE用戶之間,被用戶對目標的整體視覺感受所包圍,包括質(zhì)地、燈光效果和細節(jié)程度等。在標準的VE環(huán)境中,對象只能在特定范圍內(nèi)相互作用,因為在用戶可視范圍內(nèi),這些對象是相互隱藏的。但是,一旦添加了復雜功能,VE對象之間的相互影響,以及對象和VE本身的相互影響就會明顯增大。如今需要解決的問題是:這些互動應該在多大程度上由對象來驅(qū)動,以及多大程度上由對象所處的環(huán)境來驅(qū)動。 到目前為止,這一問題還沒有明確的答案。其中一種解決方案是在對象中嵌入與環(huán)境互動所需要的功能和知識。例如,IMPROV系統(tǒng)就采用了“逆因果”方法,在對象內(nèi)部存儲對象和虛擬演員之間的互動動畫,從而避免了虛擬演員的學習需求。因此,一名虛擬演員指向一個虛擬啤酒瓶,就直接被賦予喝酒的選項,而無需學習這樣做所需要的動作。 當考慮到整合物理知識時,例如將重力引入VE環(huán)境中,上述場景似乎違背直覺。更可取的方案應該是讓VE環(huán)境中的所有對象都遵守物理定律,無論是重力條件下的下落,還是無重力情況下的飄動。同一類型的案例包括:如果將一條魚置于并未裝滿水的VE環(huán)境中,這條魚應該有怎樣的表現(xiàn)。一種方法是提供額外的元素,如外力,允許一個對象以合理的方式與其所處的VE環(huán)境進行互動。 總之,需要指出的是,VE開發(fā)工具包在設計之初從未考慮過支持本文所討論的類似功能。因此,如果說本文中所列舉的一些問題根本不存在,那基本上是不可能的。開發(fā)新一代VE工具需要AI和VE兩組開發(fā)人員的共同努力。目前,至少在VRML社區(qū)內(nèi)已經(jīng)取得進展,他們正在考慮VRML的未來。第二章:自主代理
自主代理是指以物主名義運行的智能代理,無需所有權(quán)實體的任何干預。AI與AL融合的同時,VE在代理領域也是無處不在。作為AI領域的一個研究分支,自主代理在過去的5年中得到了長足發(fā)展,越來越多的工廠、會議和研究團體涉足該領域。在這里,我們要區(qū)分一下自主代理研究和更廣泛的多代理系統(tǒng)。后者包括分布式問題解決應用,如網(wǎng)絡管理,通常并不涉及VR或VE,而是專注于代理間通信和協(xié)商,而自主代理并不涉及這些。 本文中,我們專注于將VE作為一項技術(shù)來探索代理行為和代理可信度(將代理作為把VE拓展到新應用領域的一種方式)。這其中包括人造代理、虛擬角色、虛擬人和化身。我們首先討論自治的屬性和作用,然后討論代理范圍,利用情感作為區(qū)分他們的手段。一、自治
對于那些在動態(tài)環(huán)境中需要有效和獨立工作的代理,“自治”變得越來越重要。許多研究都在考慮代理自治方面的問題,包括其屬性、需求,以及如何通過代理架構(gòu)來判斷等。具體而言,其中一個問題是虛擬環(huán)境下的“自治”是否像其在物理世界中一樣實用,是否同樣適用于代理。在現(xiàn)實世界中,環(huán)境獨立于代理之外而運作,代理之間的活動也是相互獨立的。在這樣的條件下,預測世界很可能會出現(xiàn)錯誤。而自治是一個適當?shù)捻憫?,因為讓代理決定其行動,就允許其考慮到世界的現(xiàn)狀,而不是去預測。 在虛擬環(huán)境下,情況就完全不同了。設計師對環(huán)境和代理擁有一個“上帝視角”,根本不需要區(qū)別它們。更重要的是,整個環(huán)境都對代理開放,不需要對虛擬世界的模式進行區(qū)分。從實用的角度講,自治看起來就沒有必要了。 但是,事實證明,用這種“上帝視角”對待虛擬代理所導致的結(jié)果就是效率低下。問題是,如果虛擬代理以一種讓用戶信服的方式行動,并且在虛擬世界中維持這種存在感,那么它們就像物理世界中的代理一樣具有同樣的局限性。它們會收集信息,以一種看似可信的方式與對象互動。 這種“上帝視角”的代理管理方式很快還會遇到一系列組合問題,尤其是在必須記錄每個代理都掌握哪些內(nèi)容,能夠感知哪些內(nèi)容時。但是,為每個代理配備虛擬傳感器是件很容易的事情,然后利用這些傳感器自主地推動其物理表現(xiàn)。因此,與虛擬代理相關的大部分工作都是采取自主模式。 使用這種自主模式還有其他執(zhí)行層面的優(yōu)勢,尤其是在不同VE環(huán)境下代理再利用的潛力,以及在不同處理器上分布個體代理的能力。但是,這些在很大程度上還停留在理論層面,現(xiàn)實中還沒有明顯的證據(jù)。這可能也是目前該領域的研究還不夠成熟的體現(xiàn)。另外,自治也可能是代理再利用的先決條件。同樣,這一結(jié)論目前也沒有充分的證據(jù),許多代表性問題也沒有得到解決。 二、代理的范圍 為了以易處理的方式來劃分龐大數(shù)量的系統(tǒng),我們想象一個代理范圍。在這個范圍的一端(物理端),我們放置物理代理,其主要任務專注于虛擬環(huán)境中可信的物理行為。在這方面我們要討論的內(nèi)容包括現(xiàn)實運動、物理交互、肢體語言、手勢和面部表情。這些代理一般通過虛擬傳感器與VE進行互動。 在這個范圍的另一端(認知端),我們放置的代理將專注于人類認知行為,以及與使用該系統(tǒng)的用戶進行認知交互。這方面的主要內(nèi)容與自然語言和認知過程有關,如策劃。這些代理通常直接從VE中感知信號信息。 在這里我們談到了代理的范圍,是因為有更多的認知代理通常需要與VE進行一定程度的物理交互,因為更多的物理代理通常需要在認知層面進行某種控制。 “認知端”的工作屬于由認知向外輸出,而“物理端”的工作屬于身體向內(nèi)輸入。理想的情況下,虛擬代理應該具有完整的現(xiàn)實運動、物理交互和與人類一樣的認知能力。這兩端都涉及到解決許多復雜問題,因此研究人員通常專注于其中的一端。這兩端的不同在下文的“情感”章節(jié)中的許多特定問題中都得以體現(xiàn)。 三、情感 需要指出的是,虛擬代理方面的工作已經(jīng)賦予了整個代理動機和情感領域以新的發(fā)展動力。原因主要有兩方面:首先,與一個“無具體體現(xiàn)”的智能代理相比,虛擬環(huán)境中的一個“有具體體現(xiàn)”的虛擬代理能為情緒狀態(tài)的體現(xiàn)提供許多外部渠道,如凝視、面部表情、手勢和所有肢體語言。其次,在下文我們還會詳細闡述,在許多虛擬代理域中,情緒狀態(tài)的表達對應用至關重要。在這里,分布式多用戶環(huán)境中的化身使用已經(jīng)提供了一種驅(qū)動壓力。 代理范圍認知端工作的重點是將情感作為認知狀態(tài),而代理范圍物理端工作的重點是將情感作為身體狀態(tài)。這兩種方式也是心理學領域長期存在的一種爭論的體現(xiàn)。 相比之下,認知模式更加盛行,其優(yōu)勢是代理經(jīng)常處于一種明確定義的情緒狀態(tài),為外部情緒表現(xiàn)提供清晰的連接。但是,在物理或行為層面,情感是由低級別架構(gòu)工作生成的。在這樣的低級別層面,模擬情感的最簡單的方法是為代理配備“標尺”,能夠根據(jù)與環(huán)境、其他虛擬代理或人類用戶的互動情況來增加或減少。另一種相對復雜和現(xiàn)實的方法是模擬內(nèi)分泌系統(tǒng),這樣,情感作為代理與環(huán)境整體互動的一部分被體現(xiàn),而不是為視為認知狀態(tài)。第三章:物理代理
本節(jié),我們將講述物理代理,即物理行為被視為核心問題的虛擬代理。這樣的代理不必是人類的形象,它們可以是抽象或機械形象,可以是鳥、魚或海豚等動物,也可以虛構(gòu)形象,如天線寶寶。當然,人類形象也很常見,包括虛擬演員、虛擬人或化身。上述所有形象都會面臨同樣的問題。我們首先討論關于物理代理的一些比較普遍的問題;然后,我們用兩個案例來詳細闡述身體是如何動起來的;接下來,我們將討論與物理代理進行非語言交流的可能性;最后,我們討論物理代理與其所處環(huán)境進行交互式可能產(chǎn)生的一些問題。 一、物理問題 首先,身體運動和移動性問題必須要處理,這通常會引發(fā)了重要的身體結(jié)構(gòu)問題。其次,一旦代理擁有移動能力,它們必須要能夠避免與環(huán)境中的其他目標相撞。最后,還將涉及到控制問題。例如,要在哪個層面進行控制。這其中包括兩個層面的控制,一是通過個別肌肉進行控制,二是在整個行為動作層面進行控制,如走路和抓取。當然,有時可能需要在這兩個層面同時進行控制。 二、身體運動 物理代理的一部分推動力來自于電影動畫。手工制作動畫十分費力,且成本高昂。因此,利用計算機來制作是件很自然的事情。最初,計算機僅用于制作手繪幀之間的中間狀態(tài),因此工作量不是很龐大。 但是在微軟的AGENT編程環(huán)境中,計算機制作內(nèi)容得到了拓展。而且,程序人員還可以調(diào)用任何一部分內(nèi)容,按照需要的順序進行整合。IMPROV系統(tǒng)在“合成演員”時也采用了類似的方法,只不過變成了3D形式。在該過程中,演員被定義為一個“單一的原子或重復性活動”,不需要“明確的更高層次的意識或有意識的決定”。在IMPROV環(huán)境下,動作被分割成若干小組,同一小組的動作是相互排斥的。這允許幾個不同的動作同時進行。例如,一個虛擬演員可以在走路的同時嚼著口香糖。 指定整合順序是一件很復雜的事情。IMPROV提供了一個腳本機制,能夠在腳本內(nèi)引發(fā)另一個腳本,或者是針對用戶界面控制做出響應。在Persona項目中,這個問題是通過使用脫機AI線性規(guī)劃程序來解決的。該規(guī)劃程序以“偽編譯”的形式確定順序。這種方法的優(yōu)勢是代理的身體不需要復雜的結(jié)構(gòu),也正因為如此,所有這些項目中的代理都不能對環(huán)境進行自主控制。 第二種方法是通過物理世界中的人類來推動代理,這種方法被稱為“表演動畫”。此時,一個穿有特定標記的人會在重要節(jié)點上來執(zhí)行想要的動作。然后再將這些動作重新應用到虛擬代理的身體結(jié)構(gòu)中,從而讓虛擬代理來執(zhí)行動作。在《泰坦尼克》電影中,里面的“數(shù)字化輪船”就使用了這種動畫手段。這種方法的優(yōu)勢是可以利用計算機輕松地完成,但是需要對代理身體進行準備建模。與第一種方法相比,這種方法的靈活性較差,雖然我們也可以將這兩種方法結(jié)合起來使用。 一旦代理擁有了逼真的身體結(jié)構(gòu),下一步工作就是提供自主控制。這樣,代理的動作就是由其內(nèi)部身體結(jié)構(gòu)來控制,而不是外部的身體表面動畫。通過這種方法,特佐普羅斯及其位于多倫多的團隊制作了關于魚和其他水棲生物的動畫,而拜德勒及其位于賓州大學的團隊開發(fā)了類人模型JACK。 1、特佐普羅斯的魚 特佐普羅斯魚的結(jié)構(gòu)是由一套彈簧模型組成的基本架構(gòu),各種彈簧在不同的節(jié)點結(jié)合在一起,然后利用拉格朗日方程來決定結(jié)構(gòu)動作。當魚甩動尾巴時,就會帶動水的運動,而水的慣性就會對魚的身體產(chǎn)生反作用力。而魚的胸鰭被用于控制身體姿態(tài)和前進方向。這就會生成逼真的動作,但成本較高。在1998年的里斯本世博會上,引入了一種簡單、低成本的方法來制作海豚。這一次,人們通過模擬骨架引入了正弦波傳播技術(shù)。 初期版本的特佐普羅斯魚直接從數(shù)據(jù)結(jié)構(gòu)中調(diào)用感知信息,但在后來的版本中引入了生物感知系統(tǒng)。目前,這套感知系統(tǒng)被提議為制作人造動物時的通用系統(tǒng),雖然當前該領域大部分工作仍在使用相對簡單的感知系統(tǒng)。 2、類人模型JACK 在特佐普羅斯的魚被視為完全自治的代理時,JACK在其商業(yè)化應用中已針對人體工程學和工程設計應用。例如,人們可能會嘗試一個JACK模型,在一個虛擬的拖拉機駕駛艙內(nèi)分析各種控制器的布局。高級別的JACK控制可留給用戶,無論是通過直接操控,還是通過高級別的行為命令。如果需要,還可以通過編程語言C++或Lisp將JACK變成一個自治代理。 定向應用肯定需要一定的生物真實度,而JACK擁有68個節(jié)點,120個自由度可供驅(qū)動。雖然不能做到完全準確,但像肩膀等重要節(jié)點是可以準確模擬的。此外,JACK采用鉸接式眼球,可對視線進行定向。 三、非語言交流 如前文所述,復雜身體結(jié)構(gòu)的發(fā)展開啟了一個更廣泛的非語言交流領域,無論是通過目光、面部表情、手勢、姿態(tài),還是整體的肢體語言。該領域的許多工作都涉及到利用化身來代表用戶。 非語言交流的一種方式是專注于面部表情。這方面的相關工作不需要依靠一張真實的面孔,我們可以用表情符號來表達情緒。在這方面,在電子郵件中使用標準的鍵盤符號為我們提供了先例。 面部表情的一個最簡單的應用是利用目光來指示一個代理的關注對象。需要指出的是,對于一個使用虛擬傳感器的系統(tǒng),目光只是代理感知系統(tǒng)的一個副產(chǎn)品。但是,當代理的感知系統(tǒng)無法對某些事物做出判斷時,就會利用到目光,下文中的STEVE教育系統(tǒng)就是如此。同樣,完全依賴用戶驅(qū)動的化身也需要用戶目光的指導。 當然,最令人信服的代理或化身表現(xiàn)還是非語言交流與語音或語調(diào)的結(jié)合。目前,該領域的工作還處于早期階段,但已經(jīng)有研究人員在開發(fā)更加生動的會話系統(tǒng),該系統(tǒng)涉及到使用合成語音、聲調(diào)、面部表情和手勢等。 四、代理與世界結(jié)合 到目前為止,我們還沒有討論過物理代理感知世界、并對世界產(chǎn)生實質(zhì)影響方面的問題,這也是我們前面提到的對象與VE互動的一個特例。從抽象層面講,感知和行動決定著代理與世界的結(jié)合,下面我們分別討論這兩個方面。 在真實世界中,感知是一個相當困難的問題,如果研究過機器人就會感同身受。相比之下,在虛擬世界中,感知不會遇到模糊、噪音或冗長的處理過程等問題。即使是最簡單的虛擬傳感器也能從代理的眼中找到一絲線索,返回相關信息,給出代表對象身份或?qū)傩缘臄?shù)據(jù)結(jié)構(gòu)。 相比之下,如前文所述,已經(jīng)有一些研究工作在為虛擬代理開發(fā)貌似可行的生物感知系統(tǒng)。在該系統(tǒng)下,代理的視場被投射到模擬視網(wǎng)膜上,然后利用視覺算法將像素處理成一種代理能夠使用的形式。在這兩種形式之外,還有虛擬機器人系統(tǒng)。該系統(tǒng)在一定程度上模擬現(xiàn)實,為機器人配備了紅外線和超聲波傳感器。 排除虛擬傳感器任何特定系統(tǒng)的生物似真性,我們要知道,感知是一個代理與其所處環(huán)境的互動。例如,人們普遍會認為,與一個有燈光房間中的代理相比,在一個黑暗房間中的代理所能“看到”的內(nèi)容會比較少。要在代理和環(huán)境之間進行平衡,就需要用到“知識”。在代理功能級別一致情況下,代理感知系統(tǒng)越簡單,就需要從其所感知的對象中傳遞更多的知識。相反,一個模擬十分準確的魚的視覺系統(tǒng),只需要從環(huán)境中提取極少的知識。但于此同時,代理內(nèi)部的處理量會相應地增加。 說完“感知”,我們再說“行動”。感知是被動的,而行動會給世界帶來變化,這取決于代理的功能,以及世界的功能和狀態(tài)。例如,如果一個代理要抓取一個對象,它拿起這個目標的能力取決于該目標的形狀、尺寸和重量。而且,目標的重量也會受到其所處位置的影響,如是在地球表面,在太空,還是在海底深處。 從更精細的層面講,抓取對象等行動在視覺上還要令人信服。例如,手掌不能穿透所抓取的對象,它和被抓取對象的表面的位置看起來要逼真。在該層面下,交互的復雜程度取決多種因素,如力度和各種約束條件(如對象的表面硬度)是否要體現(xiàn)在交互中。第四章:認知代理
在早期的文章中,貝茨通過代理、表現(xiàn)和戲劇等方面的理論對虛擬環(huán)境中的內(nèi)容和結(jié)構(gòu)進行了細致的研究。這些研究對于VR實現(xiàn)其潛力至關重要。本章節(jié),我們將避開代理研究本身,專注于通過之前的研究工作來討論虛擬環(huán)境的內(nèi)容和結(jié)構(gòu),主要是娛樂和戲劇虛擬環(huán)境的發(fā)展。 與認知端代理的發(fā)展和建造相關的問題主要包括以下三方面。首先,必須要有傳統(tǒng)的(代理)建筑構(gòu)件,負責主要的認知功能,如推理、決策、計劃和學習等,無論代理是否處于虛擬環(huán)境中。 第二方面的問題關于代理在環(huán)境中的真實度,主要體現(xiàn)在行為方面,而不是渲染或視覺化。為了確保智能虛擬環(huán)境的實際性,它們必須要可信,無論是通過代理本身的行動,還是與其他代理的交互。第三方面的問題是在智能虛擬環(huán)境中表達情感影響。 一、藝術(shù)和娛樂虛擬環(huán)境 在這方面,我們首先談談貝茨及其同事在“Oz項目”上的研究工作。該項目試圖將當前的技術(shù),尤其是AI技術(shù)應用到虛擬環(huán)境中。“Oz項目”大部分工作是為非語言、可信代理開發(fā)一個廣泛的代理架構(gòu),被稱為“Tok”,以及響應架構(gòu)和情感架構(gòu)。在這里,可信度是非常重要,在處理一個實時動畫環(huán)境時會施加特定的限制。響應架構(gòu)允許在環(huán)境中迅速做出響應,在原始動作只持續(xù)100毫秒至150毫秒時,快速響應是必須的。 Tok已被用于創(chuàng)建棲息在智能世界中的多個特定代理。其中一個早期的成果是創(chuàng)建三個實時動畫代理,被稱為“woggles”。這三個代理各有特色,存在于一個動畫虛擬世界中。這三個代理相互互動(有時還通過由鼠標控制的第四個Woggle與用戶互動),包括游戲、探索和對抗等。從視覺上看,Woggles是一個簡單的圓形,擁有一雙極具表現(xiàn)力的眼睛。 此外,Tok還被用于制作Lyotard,一只模擬貓,用來展示情感與反應底物(reaction substrates,參與反應的物質(zhì))的結(jié)合。目前,該項目已經(jīng)在開發(fā)語言能力方面取得進展。 二、虛擬影院 談完貝茨的“Oz項目”,我們再來說說海耶斯?羅斯(Hayes-Roth)及其同事的虛擬影院項目。最初,羅斯希望為多代理系統(tǒng)開發(fā)一個新的范例?;凇癘z項目”的部分成果,羅斯的項目涉及到提供多媒體環(huán)境。在該環(huán)境下,用戶或代理履行各種角色,包括動畫角色。這項工作的動機源自HCI應用對智能代理的需求,旨在與用戶互動,實現(xiàn)這一目標的關鍵是基于情感、情緒和個性開發(fā)有效的代理模式。 這項工作已拓展到不同的領域,其中一項是開發(fā)復雜或相對簡單的計算機角色,另一項是開發(fā)特定環(huán)境。在第一項中,Tigrito就是一個典范。Tigrito是一只有情感的計算機玩具老虎,主要有三種交互模式。首先,Tigrito可作為一一個虛擬寵物。第二種交互模式涉及到第二只玩具虎(一個化身),它的行動可由用戶來決定。 第三種是“電影”模式,用戶只能調(diào)整老虎的情緒,觀看代理自身選擇自己的行動。 與專注于代理本身相比,另一項工作是開發(fā)一個動畫虛擬環(huán)境,允許代理展示智能行為。道爾和羅斯的工作基于人機互動,他們所創(chuàng)建的虛擬世界充滿注釋,包含了情緒響應、其他行動、特定角色功能、問題解決信息和玩游戲等方面的解釋,以此來適應特定的環(huán)境。這是一種生成虛擬世界中各種行為的一種有效方式,也是對智能虛擬環(huán)境的一個更直接的解釋。 三、游戲 在這方面,《Creatures》(外星生物)游戲是當之無愧的典范。這是一款非常成功的游戲產(chǎn)品,將該領域之前的研究成果與AL技術(shù)相結(jié)合。這款游戲中的人工代理居住在一個精心設計的2.5D世界中,這里擁有各種各樣的對象,可以與生物(名為“Norns”)以不同的方式進行互動。游戲里有許多自動化對象,如電梯,以及更傳統(tǒng)的食物與玩具,還可以下載和添加其他新設備。玩家可以通過鼠標與生物進行互動,如通過撫摸來獎賞它們,通過擊打來懲罰它們。 這款游戲之所以超越其他產(chǎn)品,是因為開發(fā)時使用了一個由1000個神經(jīng)元和5000個神經(jīng)鍵組成的神經(jīng)網(wǎng)絡,以及一個復雜的生物仿真模型。這些生物能夠感知光和聲音,雖然這些感知的模擬相對粗糙,但足以夠用。另外,這些生物還能學習簡單的語言。 《Creatures》是一款廣泛發(fā)行的商業(yè)化產(chǎn)品,在創(chuàng)建令人愉悅的虛擬環(huán)境時,使用到了AI和AL技術(shù)。正如格蘭德和克里夫所說,它可能是到目前為止智能虛擬環(huán)境中的最大單一體驗。 四、教學代理 除了前文所述的娛樂智能虛擬環(huán)境,約翰遜及其同事開發(fā)了虛擬教學代理的典范。這項研究基于之前的智能教學系統(tǒng)的研究工作,并結(jié)合了智能代理方面的研究,旨在創(chuàng)建出生動的代理,可以利用眼神和肢體語言與學生有效互動。 STEVE(面向虛擬環(huán)境的培訓專家)是一個教學代理,可以通過虛擬馬達行動來監(jiān)測和控制它。STEVE可以作為學生的導師或合作者,能監(jiān)測學生們的表現(xiàn),并為學生提供幫助。STEVE基于VET(虛擬培訓環(huán)境)軟件而開發(fā),人類與虛擬世界互動是通過頭戴式顯示屏和3D鼠標來進行的。STEVE包括一個認知組件,用于高級別處理;一個感覺運動組件,用于與虛擬世界交互,負責處理感知和馬達指令。STEVE可以被渲染成為一個無具體體現(xiàn)的代理(如虛擬手掌,可以抓取對象),也可以被渲染成為一個有具體體現(xiàn)的代理(如人體的局部,包括頭和軀干),這些都不會影響其認知水平。 Adele是另一個教學代理,與STEVE運行在一個沉浸式虛擬環(huán)境中不同,Adele被設計成運行萬維網(wǎng)之上。Adele包括一個推理引擎,一個基于Java程序的生動人物形象,能夠監(jiān)測學生們的表現(xiàn),并提供反饋。由于采用的是2D圖像界面,Adele與STEVE相比還有許多局限性。但不管怎樣,它還能是通過目光和手勢來改變面部表情,從而激發(fā)學生。第五章:虛擬世界
如果說VE領域的許多工作都轉(zhuǎn)向智能虛擬環(huán)境是為了添加特定功能,AI領域的工作考慮的是將虛擬環(huán)境作為創(chuàng)建更有趣的智能代理的一種手段,那么AL領域研究人員的野心似乎更大。這其中包括創(chuàng)造包含數(shù)字生活的虛擬世界,也可能包括一些物理定律,與真實世界類似。 有人將分布式交互虛擬環(huán)境,如Active Worlds,視為開發(fā)虛擬世界的基礎?!禨ims》(模擬人生)就是在該框架下開發(fā)的一款游戲產(chǎn)品。相比之下,《Technosphere》就采用了比較新的方式。Technosphere是一個在線虛擬世界,玩家可以建造生物,它們還可以跑動。這些生物故意建造很簡單,玩家可以從數(shù)據(jù)可中選擇它們的頭、身體和眼睛等,無論是食草動物,還是食肉動物。這些動物可以吃、睡、走動、打架和交配等,當死亡后(或被屠殺),它們的身體還會逐漸腐爛。調(diào)查結(jié)果顯示,在這個虛擬世界中,玩家更傾向于創(chuàng)建食肉動物,而不是食草動物,從而創(chuàng)造一個不穩(wěn)定的生態(tài)系統(tǒng)。 《Technosphere》的開發(fā)動機就是以藝術(shù)為主,而不是科學,因此大量工作被用于創(chuàng)造在視覺上極具吸引力的自然風光。但是,《Technosphere》不能被實時渲染來進行某種互動。 最后一個案例是《Nerve Garden》項目,這是一套主從式(client-server system,客戶端-服務器系統(tǒng))系統(tǒng),允許用戶利用Lindenmayer Systems系統(tǒng)生成3D植物模型。然后,用戶可以選擇一種特定植物,將其置于小島花園中,用戶可以欣賞和更新小島。用戶可以各種視角觀看這一虛擬世界,包括從一個飛行的昆蟲后背來動態(tài)觀看,且環(huán)繞整個小島。該項目還添加了聲音效果,包括打雷。由于不支持植物生長,以及植物與環(huán)境的互動,因此從AL的角度講,《Nerve Garden》還是一個相對初級的虛擬世界。但是,《Nerve Garden II 》將通過提供一個簡單、有效的花園生態(tài)系統(tǒng)來增加這些功能。第六章:方向與問題
作為結(jié)論部分,我們討論智能虛擬環(huán)境未來發(fā)展方向和可能出現(xiàn)的一些問題。我們先從自治說起,將其作為一個標準來闡述不同的控制級別。 一、自治 從前文的范例中可以得知,物理端的虛擬代理可以代表任何事物,從零自治到完全自治,貫穿各種中間狀態(tài)。這種自治范圍與認知端代理相比具有更高的自治性,雖然它們在所處環(huán)境中也可能有一些功能限制。 一個簡單的代理模型包括感知、反射和行動,感知和反射直接由用戶控制,那么只剩下行動需要自主完成。但是,隨著化身變得越來越復雜,代理還可能使用到面部表情、手勢和肢體語言,以作為額外的通信渠道。因此,通過鼠標和菜單等標準的方式來控制就顯得有些困難。正如人體的意識控制會導致認知超負荷,化身溝通方式的增加也會為用戶帶來超負荷問題。此時,我們需要更加靈活的直接控制界面,或者是將一些低級別的行為自治整合到化身中。 虛擬角色就是整合了低級別行為自治的代理的一個典范。此時,代理被用戶整合到一個被高級別指導環(huán)境中,由一名導師來開發(fā)一個培訓場景。目前,這種系統(tǒng)已經(jīng)構(gòu)建并被用于人質(zhì)釋放場景中,以及戰(zhàn)場的醫(yī)療救護中。在第一個場景中,虛擬演員被用來飾演恐怖分子和大量人質(zhì)。然后,受訓人員以化身的身份進入VE中,通常由耳機或數(shù)據(jù)手套(data glove,一種多模式的虛擬現(xiàn)實硬件)來驅(qū)動。導師通過預先開發(fā)的腳本來控制整個場景,而虛擬演員也支持低級別行為,用于執(zhí)行腳本中的行動,以及對行動作出實時響應。這樣,如果受訓者或恐怖分子開槍,虛擬人質(zhì)就會逃跑。 在戰(zhàn)場醫(yī)療救護場景中,受訓人員將再次驅(qū)動一個化身,為受傷的虛擬演員提供醫(yī)療救護,這是由腳本來決定的。但是,虛擬傷員必須要以現(xiàn)實生活中的實際方式來回應他們所受到的救護:例如,血流必須要停止,意識必須要恢復,面部顏色必須要改變。 相比之下,其他代理可能擁有高度的自治行為,但可能以不同的方式來執(zhí)行。因為擁有更多的物理代理,自治行動通常依賴于內(nèi)部駕馭和環(huán)境模擬之間的互動。既然代理的驅(qū)動(drives)影響其行為,而其行為又影響環(huán)境,這就形成了一個持續(xù)的反饋環(huán)路。 例如,特佐普羅斯的魚擁有饑餓、恐懼和性欲的內(nèi)部驅(qū)動,分別用來模擬喂食、逃離和交配行為。驅(qū)動本身由魚和所處環(huán)境的互動來生成,例如,上一次喂食時間,或者是視線中是否有捕食者。另外,《Virtual Teletubbies》(虛擬天線寶寶)和《Creatures》也采用了類似的方法,前者由饑餓、疲勞和好奇所驅(qū)動。 相比之下,在認知代理中可能出現(xiàn)與上文截然不同的方法。例如,STEVE就是任務驅(qū)動型,其自治主要基于目標擴張(通過一個AI計劃系統(tǒng))。其行為也根據(jù)環(huán)境狀態(tài)進行改變,例如,如果一個受訓者取消一項行動,STEVE就會計劃重新去做。同樣,如果一個受訓者沒有查看當前子任務的地理位置,STEVE就會要求他們?nèi)プ?。很明顯,我們可以將經(jīng)典的目標驅(qū)動方法與前文所說的驅(qū)動方法相結(jié)合,但目前還沒有人這樣做。除了這種結(jié)合所引發(fā)的概念問題,這樣做也需要更多的計算資源。 二、結(jié)合物理端與認知端 目前該領域的絕大部分工作都可以歸類為物理端或認知端這兩大范疇,但也有一些工作把二者結(jié)合在一起。一個典型的案例就是ALIVE系統(tǒng),它把物理端和認知端以有效、連貫的方式結(jié)合在一起。ALIVE允許人類和一個豐富的圖形世界(棲息著自主代理)進行毫無障礙的全身互動,這是通過“鏡像模式”來實現(xiàn)的。在該模式下,用戶能看到虛擬環(huán)境中的自己(代表)。 ALIVE系統(tǒng)的模型是以一種復雜的方式被創(chuàng)建的,通過一款開發(fā)工具包,能讓代理在做任何事情前都盡可能地去感知。一個代理的設計師可以指定傳感器去感知環(huán)境,通過釋放各種機制來識別行為上的明顯刺激(例如,一個人伸手去抓地上的小狗)。 一個3D代理被創(chuàng)建來代表用戶,其位置和狀態(tài)由一個視覺系統(tǒng)(基于攝像頭的用戶成像)來計算。然后通過視覺識別用戶的手、身體姿勢和代理內(nèi)部狀態(tài)的聽覺反饋,完成代理與用戶之間的交互。通過這種方式,人造代理能夠使用與檢測環(huán)境中其他對象的同一個虛擬傳感器來感知人類用戶,這樣用戶就可以和人造代理與環(huán)境一起被渲染。 基于ALIVE系統(tǒng)的應用案例包括一個木偶世界。在該世界中,一個木偶會根據(jù)用戶的指示來執(zhí)行面部表情,傳遞內(nèi)部狀態(tài)。在近期的工作中,還有一個虛擬世界包含一只虛擬狗,利用聽覺和視覺輸入來表達一系列行為,以交互或自主行動方式與用戶互動??傊珹LIVE系統(tǒng)代表著該領域的未來發(fā)展方向,凸顯了AI和AE結(jié)合的重要性和實用性。 三、發(fā)展前景 如文初所述,資源限制仍是智能虛擬環(huán)境所面臨的一個突出問題。某些研究中的物理建模方式(例如魚)需要大量的計算工作,成本昂貴,因為它依賴于強大的分析框架,對處理能力的需求較高。因此,成功的物理建模還需要一種基于本地計算的低成本方案,而引入AL技術(shù)可能會提供幫助。另一個方案可能需要從AI中引入定性物理應用,從而獲得一個準確的模型。從其他角度講,支持持續(xù)交互的實時渲染必須要以創(chuàng)建成功的虛擬環(huán)境為目標,尤其是對于許多娛樂應用。 本文所述的智能虛擬環(huán)境是一個新的領域,目前仍處于發(fā)展的初期階段,尚未成熟。但是,人們已經(jīng)通過許多令人興奮的創(chuàng)意證明了它的發(fā)展?jié)摿?。與此同時,這種不成熟也揭示了另一個問題,那就是目前仍缺乏一些高效的通用工具和架構(gòu)。很明顯,這會影響研究人員的創(chuàng)造能力。目前已經(jīng)有一些工作向這方面努力,如VRML’97標準的開發(fā)。但不管怎樣,該領域的巨大潛力已經(jīng)被證明。事實上,如果VR、AI和AL領域的研發(fā)人員能夠展開更緊密的合作,相關問題就能被更早地結(jié)解決,我們也就能更快地看到基于虛擬智能環(huán)境技術(shù)的新一波應用。 來源VR次元,整理孫實。投稿/爆料:tougao@youxituoluo.com
稿件/商務合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
元宇宙數(shù)字產(chǎn)業(yè)服務平臺
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息