前言
VR和人工智能(AI)是今年最火爆的兩大前沿科技,但這兩方面的研究工作很少有人拿到一起來(lái)說(shuō)。如今,這兩個(gè)領(lǐng)域的研究出現(xiàn)了融合,主要體現(xiàn)在那些不需要人為干預(yù)的應(yīng)用上,如虛擬人、計(jì)算機(jī)寵物等,都需要這兩項(xiàng)技術(shù)進(jìn)行深入整合,由此也誕生了一個(gè)新的名詞:智能虛擬環(huán)境,這份報(bào)告主要講述如何利用人工智能+虛擬現(xiàn)實(shí),打造一個(gè)智能虛擬環(huán)境。 報(bào)告作者系英國(guó)索爾福德大學(xué)虛擬環(huán)境中心魯思?艾利特、英國(guó)華威大學(xué)(全球排名第48,在英國(guó)僅次于牛津和劍橋)計(jì)算機(jī)科學(xué)系邁克爾?魯克。第一章:簡(jiǎn)介
當(dāng)一些前沿技術(shù)領(lǐng)域的研究得到公眾關(guān)注,并走出實(shí)驗(yàn)室,走進(jìn)人們的日常生活中時(shí),通常能夠獲得更廣泛的發(fā)展動(dòng)力。 事實(shí)上,其令人興奮的應(yīng)用潛力也正是本文所基于的一個(gè)前提的幕后推動(dòng)力:不同的先進(jìn)計(jì)算與研究團(tuán)隊(duì)開始整合其研究成果,例如,AI、人工生活(AL)和虛VR,或虛擬環(huán)境(VE)等方面的研究。這些智能技術(shù)的結(jié)合,體現(xiàn)在自主生物和各種代理上,再加上有效的展示方式和各種互動(dòng),正在形成一種新的環(huán)境,即智能虛擬環(huán)境。 當(dāng)前有許多條件允許人們?cè)贏I和AL的研究中使用虛擬環(huán)境。首先,計(jì)算機(jī)的性能越來(lái)越強(qiáng)大,在支持VR的同時(shí),還有足夠的計(jì)算能力來(lái)支持AI。其次,3D圖形軟件越來(lái)越成熟,應(yīng)用越來(lái)越廣泛。此外,自然語(yǔ)言處理等AI技術(shù)也已經(jīng)成熟,能夠被用于虛擬環(huán)境下的一種互動(dòng)方式。 與此同時(shí),虛擬環(huán)境和前沿圖形領(lǐng)域的研究人員也在尋求視覺(jué)吸引力之外的進(jìn)步,例如利用智能技術(shù)為一個(gè)“空的環(huán)境”整合物理世界的其他方方面面。這其中可能包括根據(jù)人口和交通規(guī)劃城市發(fā)展模式、虛擬人調(diào)查、虛擬生物創(chuàng)建等。 一、基本限制 VE與機(jī)器人技術(shù)至少擁有一處共同點(diǎn),那就是需要尊重實(shí)時(shí)處理限制。VE就是一套由渲染周期推動(dòng)的系統(tǒng),通常以50或60Hz的頻率運(yùn)行最理想,這能確保變化像動(dòng)畫片一樣順暢,不出現(xiàn)卡頓。如果幀率低于10Hz,就不能持續(xù)表達(dá)物理世界中的變化,無(wú)法讓用戶感受到自己身處VE中。 在給定的周期內(nèi),渲染算法貫穿于一個(gè)場(chǎng)景圖中——通常是一個(gè)遞階結(jié)構(gòu),VE所有的組成部分都通過(guò)連接在一起的不同類型的節(jié)點(diǎn)來(lái)代表。這種場(chǎng)景圖越復(fù)雜,渲染算法所需要的計(jì)算時(shí)間就越長(zhǎng),也就意味著維持這種高幀率就越困難。開發(fā)VE的研究人員已經(jīng)意識(shí)到該問(wèn)題,目前的解決方案是盡量利用通用機(jī)制來(lái)創(chuàng)建視覺(jué)元素。 與機(jī)器人技術(shù)一樣,添加智能元素將占用基本渲染周期的處理能力,因?yàn)樗{(diào)用同一個(gè)處理器。即使用額外的處理器,如果并行處理不能準(zhǔn)確地與渲染幀率同步,那同樣會(huì)影響渲染能力。 下文中將要討論的許多系統(tǒng)都不是實(shí)時(shí)渲染,大部分采用離線渲染,然后再像動(dòng)畫片一樣運(yùn)行。這種方式避免了正常的VE交互式使用。因此,雖然處理能力有了提升,渲染算法有了改善,讓我們有可能為VE添加智能元素,但是,當(dāng)前在實(shí)驗(yàn)室開發(fā)之中的許多系統(tǒng)還是顯得力不從心。 二、VE工具 在AI和VR整合過(guò)程中,工具和開發(fā)環(huán)境起著至關(guān)重要的角色。在這里,我們有一些不同的問(wèn)題需要考慮,包括支持級(jí)別、添加復(fù)雜功能等。 1、支持級(jí)別 智能VE的開發(fā)還將進(jìn)一步受到VE開發(fā)工具包限制,這些工具包通常趨向于VE的視覺(jué)和圖形支持,而不是傾向于添加智能元素。 例如,在最低級(jí)水平下,一套系統(tǒng)可能使用Open GL或3D系統(tǒng)和C++來(lái)開發(fā),但為了實(shí)現(xiàn)想要的功能,靈活性通常會(huì)受到影響。這種低級(jí)水平VE開發(fā)的案例就是AReVi開發(fā)工具包,提供一套基于代理編程語(yǔ)言oRis的C++工具包。 高級(jí)別的開發(fā)模式前文已經(jīng)闡述過(guò),該模式下的VE工具包使用場(chǎng)景圖表示法。這是表現(xiàn)物體圖形要素的一個(gè)比較方便的方法,因?yàn)閳?chǎng)景圖中的節(jié)點(diǎn)通常以一系列的多邊形來(lái)代表圖形基本對(duì)象。然后,再利用群組節(jié)點(diǎn)將這些基本圖形要素合成更加復(fù)雜的圖形對(duì)象。 2、整合知識(shí)表示 知識(shí)表示是指把知識(shí)客體中的知識(shí)因子與知識(shí)關(guān)聯(lián)起來(lái),便于人們識(shí)別和理解知識(shí)。如果我們要把知識(shí)添加到目標(biāo)對(duì)象中,尤其是從知識(shí)的層面操控目標(biāo),前文提及的場(chǎng)景圖形表示法就顯得不夠方便了,因?yàn)槲覀円膊磺宄卸嗌俑拍钅繕?biāo)能夠被映射到圖形要素中。因此有人認(rèn)為,VE工具開發(fā)包設(shè)計(jì)人員要整合顯性知識(shí)表示工具。在這方面,AI將起到幫助作用。 在大多數(shù)VE開發(fā)工具包中,代表VE用戶的目標(biāo)在系統(tǒng)中具有特權(quán)地位。例如,對(duì)于VRML’97(虛擬現(xiàn)實(shí)建模語(yǔ)言),用戶被提供自動(dòng)化功能來(lái)檢測(cè)與環(huán)境中其他部分是否沖突。另外還有動(dòng)畫支持功能,但它以設(shè)計(jì)師提前計(jì)算出的軌跡為導(dǎo)向,而不是基于虛擬傳感器所驅(qū)動(dòng)的物體自主運(yùn)動(dòng)。 其實(shí),許多VE開發(fā)工具包提供傳感器。這些傳感器雖然不同于機(jī)器人所攜帶的感知類傳感器,但卻能用于檢測(cè)用戶互動(dòng)。例如,撞墻后會(huì)發(fā)出警報(bào)。要想在AI場(chǎng)景中添加其他有趣行為,還需要通過(guò)工具包所支持的語(yǔ)言進(jìn)行直接編程。 VRML’97已經(jīng)將Script節(jié)點(diǎn)整合到了場(chǎng)景圖表示中,從而為用戶添加功能提供一個(gè)整潔的界面。這也是為VRML應(yīng)用添加復(fù)雜功能的標(biāo)準(zhǔn)模式,但也有批評(píng)者指出,這種方法的節(jié)點(diǎn)間流量過(guò)多。其中一個(gè)解決方案是,將一個(gè)神經(jīng)網(wǎng)絡(luò)整合到VRML節(jié)點(diǎn)中,從而減少節(jié)點(diǎn)間的流量加載,讓行為響應(yīng)更迅速。 3、與復(fù)雜功能互動(dòng) 如果我們希望在VE環(huán)境中添加更復(fù)雜的功能,還將遭遇與“目標(biāo)和VE互動(dòng)方式”相關(guān)的問(wèn)題。一般場(chǎng)景中,視覺(jué)互動(dòng)多發(fā)生在VE目標(biāo)和VE用戶之間,被用戶對(duì)目標(biāo)的整體視覺(jué)感受所包圍,包括質(zhì)地、燈光效果和細(xì)節(jié)程度等。在標(biāo)準(zhǔn)的VE環(huán)境中,對(duì)象只能在特定范圍內(nèi)相互作用,因?yàn)樵谟脩艨梢暦秶鷥?nèi),這些對(duì)象是相互隱藏的。但是,一旦添加了復(fù)雜功能,VE對(duì)象之間的相互影響,以及對(duì)象和VE本身的相互影響就會(huì)明顯增大。如今需要解決的問(wèn)題是:這些互動(dòng)應(yīng)該在多大程度上由對(duì)象來(lái)驅(qū)動(dòng),以及多大程度上由對(duì)象所處的環(huán)境來(lái)驅(qū)動(dòng)。 到目前為止,這一問(wèn)題還沒(méi)有明確的答案。其中一種解決方案是在對(duì)象中嵌入與環(huán)境互動(dòng)所需要的功能和知識(shí)。例如,IMPROV系統(tǒng)就采用了“逆因果”方法,在對(duì)象內(nèi)部存儲(chǔ)對(duì)象和虛擬演員之間的互動(dòng)動(dòng)畫,從而避免了虛擬演員的學(xué)習(xí)需求。因此,一名虛擬演員指向一個(gè)虛擬啤酒瓶,就直接被賦予喝酒的選項(xiàng),而無(wú)需學(xué)習(xí)這樣做所需要的動(dòng)作。 當(dāng)考慮到整合物理知識(shí)時(shí),例如將重力引入VE環(huán)境中,上述場(chǎng)景似乎違背直覺(jué)。更可取的方案應(yīng)該是讓VE環(huán)境中的所有對(duì)象都遵守物理定律,無(wú)論是重力條件下的下落,還是無(wú)重力情況下的飄動(dòng)。同一類型的案例包括:如果將一條魚置于并未裝滿水的VE環(huán)境中,這條魚應(yīng)該有怎樣的表現(xiàn)。一種方法是提供額外的元素,如外力,允許一個(gè)對(duì)象以合理的方式與其所處的VE環(huán)境進(jìn)行互動(dòng)。 總之,需要指出的是,VE開發(fā)工具包在設(shè)計(jì)之初從未考慮過(guò)支持本文所討論的類似功能。因此,如果說(shuō)本文中所列舉的一些問(wèn)題根本不存在,那基本上是不可能的。開發(fā)新一代VE工具需要AI和VE兩組開發(fā)人員的共同努力。目前,至少在VRML社區(qū)內(nèi)已經(jīng)取得進(jìn)展,他們正在考慮VRML的未來(lái)。第二章:自主代理
自主代理是指以物主名義運(yùn)行的智能代理,無(wú)需所有權(quán)實(shí)體的任何干預(yù)。AI與AL融合的同時(shí),VE在代理領(lǐng)域也是無(wú)處不在。作為AI領(lǐng)域的一個(gè)研究分支,自主代理在過(guò)去的5年中得到了長(zhǎng)足發(fā)展,越來(lái)越多的工廠、會(huì)議和研究團(tuán)體涉足該領(lǐng)域。在這里,我們要區(qū)分一下自主代理研究和更廣泛的多代理系統(tǒng)。后者包括分布式問(wèn)題解決應(yīng)用,如網(wǎng)絡(luò)管理,通常并不涉及VR或VE,而是專注于代理間通信和協(xié)商,而自主代理并不涉及這些。 本文中,我們專注于將VE作為一項(xiàng)技術(shù)來(lái)探索代理行為和代理可信度(將代理作為把VE拓展到新應(yīng)用領(lǐng)域的一種方式)。這其中包括人造代理、虛擬角色、虛擬人和化身。我們首先討論自治的屬性和作用,然后討論代理范圍,利用情感作為區(qū)分他們的手段。一、自治
對(duì)于那些在動(dòng)態(tài)環(huán)境中需要有效和獨(dú)立工作的代理,“自治”變得越來(lái)越重要。許多研究都在考慮代理自治方面的問(wèn)題,包括其屬性、需求,以及如何通過(guò)代理架構(gòu)來(lái)判斷等。具體而言,其中一個(gè)問(wèn)題是虛擬環(huán)境下的“自治”是否像其在物理世界中一樣實(shí)用,是否同樣適用于代理。在現(xiàn)實(shí)世界中,環(huán)境獨(dú)立于代理之外而運(yùn)作,代理之間的活動(dòng)也是相互獨(dú)立的。在這樣的條件下,預(yù)測(cè)世界很可能會(huì)出現(xiàn)錯(cuò)誤。而自治是一個(gè)適當(dāng)?shù)捻憫?yīng),因?yàn)樽尨頉Q定其行動(dòng),就允許其考慮到世界的現(xiàn)狀,而不是去預(yù)測(cè)。 在虛擬環(huán)境下,情況就完全不同了。設(shè)計(jì)師對(duì)環(huán)境和代理?yè)碛幸粋€(gè)“上帝視角”,根本不需要區(qū)別它們。更重要的是,整個(gè)環(huán)境都對(duì)代理開放,不需要對(duì)虛擬世界的模式進(jìn)行區(qū)分。從實(shí)用的角度講,自治看起來(lái)就沒(méi)有必要了。 但是,事實(shí)證明,用這種“上帝視角”對(duì)待虛擬代理所導(dǎo)致的結(jié)果就是效率低下。問(wèn)題是,如果虛擬代理以一種讓用戶信服的方式行動(dòng),并且在虛擬世界中維持這種存在感,那么它們就像物理世界中的代理一樣具有同樣的局限性。它們會(huì)收集信息,以一種看似可信的方式與對(duì)象互動(dòng)。 這種“上帝視角”的代理管理方式很快還會(huì)遇到一系列組合問(wèn)題,尤其是在必須記錄每個(gè)代理都掌握哪些內(nèi)容,能夠感知哪些內(nèi)容時(shí)。但是,為每個(gè)代理配備虛擬傳感器是件很容易的事情,然后利用這些傳感器自主地推動(dòng)其物理表現(xiàn)。因此,與虛擬代理相關(guān)的大部分工作都是采取自主模式。 使用這種自主模式還有其他執(zhí)行層面的優(yōu)勢(shì),尤其是在不同VE環(huán)境下代理再利用的潛力,以及在不同處理器上分布個(gè)體代理的能力。但是,這些在很大程度上還停留在理論層面,現(xiàn)實(shí)中還沒(méi)有明顯的證據(jù)。這可能也是目前該領(lǐng)域的研究還不夠成熟的體現(xiàn)。另外,自治也可能是代理再利用的先決條件。同樣,這一結(jié)論目前也沒(méi)有充分的證據(jù),許多代表性問(wèn)題也沒(méi)有得到解決。 二、代理的范圍 為了以易處理的方式來(lái)劃分龐大數(shù)量的系統(tǒng),我們想象一個(gè)代理范圍。在這個(gè)范圍的一端(物理端),我們放置物理代理,其主要任務(wù)專注于虛擬環(huán)境中可信的物理行為。在這方面我們要討論的內(nèi)容包括現(xiàn)實(shí)運(yùn)動(dòng)、物理交互、肢體語(yǔ)言、手勢(shì)和面部表情。這些代理一般通過(guò)虛擬傳感器與VE進(jìn)行互動(dòng)。 在這個(gè)范圍的另一端(認(rèn)知端),我們放置的代理將專注于人類認(rèn)知行為,以及與使用該系統(tǒng)的用戶進(jìn)行認(rèn)知交互。這方面的主要內(nèi)容與自然語(yǔ)言和認(rèn)知過(guò)程有關(guān),如策劃。這些代理通常直接從VE中感知信號(hào)信息。 在這里我們談到了代理的范圍,是因?yàn)橛懈嗟恼J(rèn)知代理通常需要與VE進(jìn)行一定程度的物理交互,因?yàn)楦嗟奈锢泶硗ǔP枰谡J(rèn)知層面進(jìn)行某種控制。 “認(rèn)知端”的工作屬于由認(rèn)知向外輸出,而“物理端”的工作屬于身體向內(nèi)輸入。理想的情況下,虛擬代理應(yīng)該具有完整的現(xiàn)實(shí)運(yùn)動(dòng)、物理交互和與人類一樣的認(rèn)知能力。這兩端都涉及到解決許多復(fù)雜問(wèn)題,因此研究人員通常專注于其中的一端。這兩端的不同在下文的“情感”章節(jié)中的許多特定問(wèn)題中都得以體現(xiàn)。 三、情感 需要指出的是,虛擬代理方面的工作已經(jīng)賦予了整個(gè)代理動(dòng)機(jī)和情感領(lǐng)域以新的發(fā)展動(dòng)力。原因主要有兩方面:首先,與一個(gè)“無(wú)具體體現(xiàn)”的智能代理相比,虛擬環(huán)境中的一個(gè)“有具體體現(xiàn)”的虛擬代理能為情緒狀態(tài)的體現(xiàn)提供許多外部渠道,如凝視、面部表情、手勢(shì)和所有肢體語(yǔ)言。其次,在下文我們還會(huì)詳細(xì)闡述,在許多虛擬代理域中,情緒狀態(tài)的表達(dá)對(duì)應(yīng)用至關(guān)重要。在這里,分布式多用戶環(huán)境中的化身使用已經(jīng)提供了一種驅(qū)動(dòng)壓力。 代理范圍認(rèn)知端工作的重點(diǎn)是將情感作為認(rèn)知狀態(tài),而代理范圍物理端工作的重點(diǎn)是將情感作為身體狀態(tài)。這兩種方式也是心理學(xué)領(lǐng)域長(zhǎng)期存在的一種爭(zhēng)論的體現(xiàn)。 相比之下,認(rèn)知模式更加盛行,其優(yōu)勢(shì)是代理經(jīng)常處于一種明確定義的情緒狀態(tài),為外部情緒表現(xiàn)提供清晰的連接。但是,在物理或行為層面,情感是由低級(jí)別架構(gòu)工作生成的。在這樣的低級(jí)別層面,模擬情感的最簡(jiǎn)單的方法是為代理配備“標(biāo)尺”,能夠根據(jù)與環(huán)境、其他虛擬代理或人類用戶的互動(dòng)情況來(lái)增加或減少。另一種相對(duì)復(fù)雜和現(xiàn)實(shí)的方法是模擬內(nèi)分泌系統(tǒng),這樣,情感作為代理與環(huán)境整體互動(dòng)的一部分被體現(xiàn),而不是為視為認(rèn)知狀態(tài)。第三章:物理代理
本節(jié),我們將講述物理代理,即物理行為被視為核心問(wèn)題的虛擬代理。這樣的代理不必是人類的形象,它們可以是抽象或機(jī)械形象,可以是鳥、魚或海豚等動(dòng)物,也可以虛構(gòu)形象,如天線寶寶。當(dāng)然,人類形象也很常見,包括虛擬演員、虛擬人或化身。上述所有形象都會(huì)面臨同樣的問(wèn)題。我們首先討論關(guān)于物理代理的一些比較普遍的問(wèn)題;然后,我們用兩個(gè)案例來(lái)詳細(xì)闡述身體是如何動(dòng)起來(lái)的;接下來(lái),我們將討論與物理代理進(jìn)行非語(yǔ)言交流的可能性;最后,我們討論物理代理與其所處環(huán)境進(jìn)行交互式可能產(chǎn)生的一些問(wèn)題。 一、物理問(wèn)題 首先,身體運(yùn)動(dòng)和移動(dòng)性問(wèn)題必須要處理,這通常會(huì)引發(fā)了重要的身體結(jié)構(gòu)問(wèn)題。其次,一旦代理?yè)碛幸苿?dòng)能力,它們必須要能夠避免與環(huán)境中的其他目標(biāo)相撞。最后,還將涉及到控制問(wèn)題。例如,要在哪個(gè)層面進(jìn)行控制。這其中包括兩個(gè)層面的控制,一是通過(guò)個(gè)別肌肉進(jìn)行控制,二是在整個(gè)行為動(dòng)作層面進(jìn)行控制,如走路和抓取。當(dāng)然,有時(shí)可能需要在這兩個(gè)層面同時(shí)進(jìn)行控制。 二、身體運(yùn)動(dòng) 物理代理的一部分推動(dòng)力來(lái)自于電影動(dòng)畫。手工制作動(dòng)畫十分費(fèi)力,且成本高昂。因此,利用計(jì)算機(jī)來(lái)制作是件很自然的事情。最初,計(jì)算機(jī)僅用于制作手繪幀之間的中間狀態(tài),因此工作量不是很龐大。 但是在微軟的AGENT編程環(huán)境中,計(jì)算機(jī)制作內(nèi)容得到了拓展。而且,程序人員還可以調(diào)用任何一部分內(nèi)容,按照需要的順序進(jìn)行整合。IMPROV系統(tǒng)在“合成演員”時(shí)也采用了類似的方法,只不過(guò)變成了3D形式。在該過(guò)程中,演員被定義為一個(gè)“單一的原子或重復(fù)性活動(dòng)”,不需要“明確的更高層次的意識(shí)或有意識(shí)的決定”。在IMPROV環(huán)境下,動(dòng)作被分割成若干小組,同一小組的動(dòng)作是相互排斥的。這允許幾個(gè)不同的動(dòng)作同時(shí)進(jìn)行。例如,一個(gè)虛擬演員可以在走路的同時(shí)嚼著口香糖。 指定整合順序是一件很復(fù)雜的事情。IMPROV提供了一個(gè)腳本機(jī)制,能夠在腳本內(nèi)引發(fā)另一個(gè)腳本,或者是針對(duì)用戶界面控制做出響應(yīng)。在Persona項(xiàng)目中,這個(gè)問(wèn)題是通過(guò)使用脫機(jī)AI線性規(guī)劃程序來(lái)解決的。該規(guī)劃程序以“偽編譯”的形式確定順序。這種方法的優(yōu)勢(shì)是代理的身體不需要復(fù)雜的結(jié)構(gòu),也正因?yàn)槿绱?,所有這些項(xiàng)目中的代理都不能對(duì)環(huán)境進(jìn)行自主控制。 第二種方法是通過(guò)物理世界中的人類來(lái)推動(dòng)代理,這種方法被稱為“表演動(dòng)畫”。此時(shí),一個(gè)穿有特定標(biāo)記的人會(huì)在重要節(jié)點(diǎn)上來(lái)執(zhí)行想要的動(dòng)作。然后再將這些動(dòng)作重新應(yīng)用到虛擬代理的身體結(jié)構(gòu)中,從而讓虛擬代理來(lái)執(zhí)行動(dòng)作。在《泰坦尼克》電影中,里面的“數(shù)字化輪船”就使用了這種動(dòng)畫手段。這種方法的優(yōu)勢(shì)是可以利用計(jì)算機(jī)輕松地完成,但是需要對(duì)代理身體進(jìn)行準(zhǔn)備建模。與第一種方法相比,這種方法的靈活性較差,雖然我們也可以將這兩種方法結(jié)合起來(lái)使用。 一旦代理?yè)碛辛吮普娴纳眢w結(jié)構(gòu),下一步工作就是提供自主控制。這樣,代理的動(dòng)作就是由其內(nèi)部身體結(jié)構(gòu)來(lái)控制,而不是外部的身體表面動(dòng)畫。通過(guò)這種方法,特佐普羅斯及其位于多倫多的團(tuán)隊(duì)制作了關(guān)于魚和其他水棲生物的動(dòng)畫,而拜德勒及其位于賓州大學(xué)的團(tuán)隊(duì)開發(fā)了類人模型JACK。 1、特佐普羅斯的魚 特佐普羅斯魚的結(jié)構(gòu)是由一套彈簧模型組成的基本架構(gòu),各種彈簧在不同的節(jié)點(diǎn)結(jié)合在一起,然后利用拉格朗日方程來(lái)決定結(jié)構(gòu)動(dòng)作。當(dāng)魚甩動(dòng)尾巴時(shí),就會(huì)帶動(dòng)水的運(yùn)動(dòng),而水的慣性就會(huì)對(duì)魚的身體產(chǎn)生反作用力。而魚的胸鰭被用于控制身體姿態(tài)和前進(jìn)方向。這就會(huì)生成逼真的動(dòng)作,但成本較高。在1998年的里斯本世博會(huì)上,引入了一種簡(jiǎn)單、低成本的方法來(lái)制作海豚。這一次,人們通過(guò)模擬骨架引入了正弦波傳播技術(shù)。 初期版本的特佐普羅斯魚直接從數(shù)據(jù)結(jié)構(gòu)中調(diào)用感知信息,但在后來(lái)的版本中引入了生物感知系統(tǒng)。目前,這套感知系統(tǒng)被提議為制作人造動(dòng)物時(shí)的通用系統(tǒng),雖然當(dāng)前該領(lǐng)域大部分工作仍在使用相對(duì)簡(jiǎn)單的感知系統(tǒng)。 2、類人模型JACK 在特佐普羅斯的魚被視為完全自治的代理時(shí),JACK在其商業(yè)化應(yīng)用中已針對(duì)人體工程學(xué)和工程設(shè)計(jì)應(yīng)用。例如,人們可能會(huì)嘗試一個(gè)JACK模型,在一個(gè)虛擬的拖拉機(jī)駕駛艙內(nèi)分析各種控制器的布局。高級(jí)別的JACK控制可留給用戶,無(wú)論是通過(guò)直接操控,還是通過(guò)高級(jí)別的行為命令。如果需要,還可以通過(guò)編程語(yǔ)言C++或Lisp將JACK變成一個(gè)自治代理。 定向應(yīng)用肯定需要一定的生物真實(shí)度,而JACK擁有68個(gè)節(jié)點(diǎn),120個(gè)自由度可供驅(qū)動(dòng)。雖然不能做到完全準(zhǔn)確,但像肩膀等重要節(jié)點(diǎn)是可以準(zhǔn)確模擬的。此外,JACK采用鉸接式眼球,可對(duì)視線進(jìn)行定向。 三、非語(yǔ)言交流 如前文所述,復(fù)雜身體結(jié)構(gòu)的發(fā)展開啟了一個(gè)更廣泛的非語(yǔ)言交流領(lǐng)域,無(wú)論是通過(guò)目光、面部表情、手勢(shì)、姿態(tài),還是整體的肢體語(yǔ)言。該領(lǐng)域的許多工作都涉及到利用化身來(lái)代表用戶。 非語(yǔ)言交流的一種方式是專注于面部表情。這方面的相關(guān)工作不需要依靠一張真實(shí)的面孔,我們可以用表情符號(hào)來(lái)表達(dá)情緒。在這方面,在電子郵件中使用標(biāo)準(zhǔn)的鍵盤符號(hào)為我們提供了先例。 面部表情的一個(gè)最簡(jiǎn)單的應(yīng)用是利用目光來(lái)指示一個(gè)代理的關(guān)注對(duì)象。需要指出的是,對(duì)于一個(gè)使用虛擬傳感器的系統(tǒng),目光只是代理感知系統(tǒng)的一個(gè)副產(chǎn)品。但是,當(dāng)代理的感知系統(tǒng)無(wú)法對(duì)某些事物做出判斷時(shí),就會(huì)利用到目光,下文中的STEVE教育系統(tǒng)就是如此。同樣,完全依賴用戶驅(qū)動(dòng)的化身也需要用戶目光的指導(dǎo)。 當(dāng)然,最令人信服的代理或化身表現(xiàn)還是非語(yǔ)言交流與語(yǔ)音或語(yǔ)調(diào)的結(jié)合。目前,該領(lǐng)域的工作還處于早期階段,但已經(jīng)有研究人員在開發(fā)更加生動(dòng)的會(huì)話系統(tǒng),該系統(tǒng)涉及到使用合成語(yǔ)音、聲調(diào)、面部表情和手勢(shì)等。 四、代理與世界結(jié)合 到目前為止,我們還沒(méi)有討論過(guò)物理代理感知世界、并對(duì)世界產(chǎn)生實(shí)質(zhì)影響方面的問(wèn)題,這也是我們前面提到的對(duì)象與VE互動(dòng)的一個(gè)特例。從抽象層面講,感知和行動(dòng)決定著代理與世界的結(jié)合,下面我們分別討論這兩個(gè)方面。 在真實(shí)世界中,感知是一個(gè)相當(dāng)困難的問(wèn)題,如果研究過(guò)機(jī)器人就會(huì)感同身受。相比之下,在虛擬世界中,感知不會(huì)遇到模糊、噪音或冗長(zhǎng)的處理過(guò)程等問(wèn)題。即使是最簡(jiǎn)單的虛擬傳感器也能從代理的眼中找到一絲線索,返回相關(guān)信息,給出代表對(duì)象身份或?qū)傩缘臄?shù)據(jù)結(jié)構(gòu)。 相比之下,如前文所述,已經(jīng)有一些研究工作在為虛擬代理開發(fā)貌似可行的生物感知系統(tǒng)。在該系統(tǒng)下,代理的視場(chǎng)被投射到模擬視網(wǎng)膜上,然后利用視覺(jué)算法將像素處理成一種代理能夠使用的形式。在這兩種形式之外,還有虛擬機(jī)器人系統(tǒng)。該系統(tǒng)在一定程度上模擬現(xiàn)實(shí),為機(jī)器人配備了紅外線和超聲波傳感器。 排除虛擬傳感器任何特定系統(tǒng)的生物似真性,我們要知道,感知是一個(gè)代理與其所處環(huán)境的互動(dòng)。例如,人們普遍會(huì)認(rèn)為,與一個(gè)有燈光房間中的代理相比,在一個(gè)黑暗房間中的代理所能“看到”的內(nèi)容會(huì)比較少。要在代理和環(huán)境之間進(jìn)行平衡,就需要用到“知識(shí)”。在代理功能級(jí)別一致情況下,代理感知系統(tǒng)越簡(jiǎn)單,就需要從其所感知的對(duì)象中傳遞更多的知識(shí)。相反,一個(gè)模擬十分準(zhǔn)確的魚的視覺(jué)系統(tǒng),只需要從環(huán)境中提取極少的知識(shí)。但于此同時(shí),代理內(nèi)部的處理量會(huì)相應(yīng)地增加。 說(shuō)完“感知”,我們?cè)僬f(shuō)“行動(dòng)”。感知是被動(dòng)的,而行動(dòng)會(huì)給世界帶來(lái)變化,這取決于代理的功能,以及世界的功能和狀態(tài)。例如,如果一個(gè)代理要抓取一個(gè)對(duì)象,它拿起這個(gè)目標(biāo)的能力取決于該目標(biāo)的形狀、尺寸和重量。而且,目標(biāo)的重量也會(huì)受到其所處位置的影響,如是在地球表面,在太空,還是在海底深處。 從更精細(xì)的層面講,抓取對(duì)象等行動(dòng)在視覺(jué)上還要令人信服。例如,手掌不能穿透所抓取的對(duì)象,它和被抓取對(duì)象的表面的位置看起來(lái)要逼真。在該層面下,交互的復(fù)雜程度取決多種因素,如力度和各種約束條件(如對(duì)象的表面硬度)是否要體現(xiàn)在交互中。第四章:認(rèn)知代理
在早期的文章中,貝茨通過(guò)代理、表現(xiàn)和戲劇等方面的理論對(duì)虛擬環(huán)境中的內(nèi)容和結(jié)構(gòu)進(jìn)行了細(xì)致的研究。這些研究對(duì)于VR實(shí)現(xiàn)其潛力至關(guān)重要。本章節(jié),我們將避開代理研究本身,專注于通過(guò)之前的研究工作來(lái)討論虛擬環(huán)境的內(nèi)容和結(jié)構(gòu),主要是娛樂(lè)和戲劇虛擬環(huán)境的發(fā)展。 與認(rèn)知端代理的發(fā)展和建造相關(guān)的問(wèn)題主要包括以下三方面。首先,必須要有傳統(tǒng)的(代理)建筑構(gòu)件,負(fù)責(zé)主要的認(rèn)知功能,如推理、決策、計(jì)劃和學(xué)習(xí)等,無(wú)論代理是否處于虛擬環(huán)境中。 第二方面的問(wèn)題關(guān)于代理在環(huán)境中的真實(shí)度,主要體現(xiàn)在行為方面,而不是渲染或視覺(jué)化。為了確保智能虛擬環(huán)境的實(shí)際性,它們必須要可信,無(wú)論是通過(guò)代理本身的行動(dòng),還是與其他代理的交互。第三方面的問(wèn)題是在智能虛擬環(huán)境中表達(dá)情感影響。 一、藝術(shù)和娛樂(lè)虛擬環(huán)境 在這方面,我們首先談?wù)勜惔募捌渫略凇癘z項(xiàng)目”上的研究工作。該項(xiàng)目試圖將當(dāng)前的技術(shù),尤其是AI技術(shù)應(yīng)用到虛擬環(huán)境中?!癘z項(xiàng)目”大部分工作是為非語(yǔ)言、可信代理開發(fā)一個(gè)廣泛的代理架構(gòu),被稱為“Tok”,以及響應(yīng)架構(gòu)和情感架構(gòu)。在這里,可信度是非常重要,在處理一個(gè)實(shí)時(shí)動(dòng)畫環(huán)境時(shí)會(huì)施加特定的限制。響應(yīng)架構(gòu)允許在環(huán)境中迅速做出響應(yīng),在原始動(dòng)作只持續(xù)100毫秒至150毫秒時(shí),快速響應(yīng)是必須的。 Tok已被用于創(chuàng)建棲息在智能世界中的多個(gè)特定代理。其中一個(gè)早期的成果是創(chuàng)建三個(gè)實(shí)時(shí)動(dòng)畫代理,被稱為“woggles”。這三個(gè)代理各有特色,存在于一個(gè)動(dòng)畫虛擬世界中。這三個(gè)代理相互互動(dòng)(有時(shí)還通過(guò)由鼠標(biāo)控制的第四個(gè)Woggle與用戶互動(dòng)),包括游戲、探索和對(duì)抗等。從視覺(jué)上看,Woggles是一個(gè)簡(jiǎn)單的圓形,擁有一雙極具表現(xiàn)力的眼睛。 此外,Tok還被用于制作Lyotard,一只模擬貓,用來(lái)展示情感與反應(yīng)底物(reaction substrates,參與反應(yīng)的物質(zhì))的結(jié)合。目前,該項(xiàng)目已經(jīng)在開發(fā)語(yǔ)言能力方面取得進(jìn)展。 二、虛擬影院 談完貝茨的“Oz項(xiàng)目”,我們?cè)賮?lái)說(shuō)說(shuō)海耶斯?羅斯(Hayes-Roth)及其同事的虛擬影院項(xiàng)目。最初,羅斯希望為多代理系統(tǒng)開發(fā)一個(gè)新的范例?;凇癘z項(xiàng)目”的部分成果,羅斯的項(xiàng)目涉及到提供多媒體環(huán)境。在該環(huán)境下,用戶或代理履行各種角色,包括動(dòng)畫角色。這項(xiàng)工作的動(dòng)機(jī)源自HCI應(yīng)用對(duì)智能代理的需求,旨在與用戶互動(dòng),實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵是基于情感、情緒和個(gè)性開發(fā)有效的代理模式。 這項(xiàng)工作已拓展到不同的領(lǐng)域,其中一項(xiàng)是開發(fā)復(fù)雜或相對(duì)簡(jiǎn)單的計(jì)算機(jī)角色,另一項(xiàng)是開發(fā)特定環(huán)境。在第一項(xiàng)中,Tigrito就是一個(gè)典范。Tigrito是一只有情感的計(jì)算機(jī)玩具老虎,主要有三種交互模式。首先,Tigrito可作為一一個(gè)虛擬寵物。第二種交互模式涉及到第二只玩具虎(一個(gè)化身),它的行動(dòng)可由用戶來(lái)決定。 第三種是“電影”模式,用戶只能調(diào)整老虎的情緒,觀看代理自身選擇自己的行動(dòng)。 與專注于代理本身相比,另一項(xiàng)工作是開發(fā)一個(gè)動(dòng)畫虛擬環(huán)境,允許代理展示智能行為。道爾和羅斯的工作基于人機(jī)互動(dòng),他們所創(chuàng)建的虛擬世界充滿注釋,包含了情緒響應(yīng)、其他行動(dòng)、特定角色功能、問(wèn)題解決信息和玩游戲等方面的解釋,以此來(lái)適應(yīng)特定的環(huán)境。這是一種生成虛擬世界中各種行為的一種有效方式,也是對(duì)智能虛擬環(huán)境的一個(gè)更直接的解釋。 三、游戲 在這方面,《Creatures》(外星生物)游戲是當(dāng)之無(wú)愧的典范。這是一款非常成功的游戲產(chǎn)品,將該領(lǐng)域之前的研究成果與AL技術(shù)相結(jié)合。這款游戲中的人工代理居住在一個(gè)精心設(shè)計(jì)的2.5D世界中,這里擁有各種各樣的對(duì)象,可以與生物(名為“Norns”)以不同的方式進(jìn)行互動(dòng)。游戲里有許多自動(dòng)化對(duì)象,如電梯,以及更傳統(tǒng)的食物與玩具,還可以下載和添加其他新設(shè)備。玩家可以通過(guò)鼠標(biāo)與生物進(jìn)行互動(dòng),如通過(guò)撫摸來(lái)獎(jiǎng)賞它們,通過(guò)擊打來(lái)懲罰它們。 這款游戲之所以超越其他產(chǎn)品,是因?yàn)殚_發(fā)時(shí)使用了一個(gè)由1000個(gè)神經(jīng)元和5000個(gè)神經(jīng)鍵組成的神經(jīng)網(wǎng)絡(luò),以及一個(gè)復(fù)雜的生物仿真模型。這些生物能夠感知光和聲音,雖然這些感知的模擬相對(duì)粗糙,但足以夠用。另外,這些生物還能學(xué)習(xí)簡(jiǎn)單的語(yǔ)言。 《Creatures》是一款廣泛發(fā)行的商業(yè)化產(chǎn)品,在創(chuàng)建令人愉悅的虛擬環(huán)境時(shí),使用到了AI和AL技術(shù)。正如格蘭德和克里夫所說(shuō),它可能是到目前為止智能虛擬環(huán)境中的最大單一體驗(yàn)。 四、教學(xué)代理 除了前文所述的娛樂(lè)智能虛擬環(huán)境,約翰遜及其同事開發(fā)了虛擬教學(xué)代理的典范。這項(xiàng)研究基于之前的智能教學(xué)系統(tǒng)的研究工作,并結(jié)合了智能代理方面的研究,旨在創(chuàng)建出生動(dòng)的代理,可以利用眼神和肢體語(yǔ)言與學(xué)生有效互動(dòng)。 STEVE(面向虛擬環(huán)境的培訓(xùn)專家)是一個(gè)教學(xué)代理,可以通過(guò)虛擬馬達(dá)行動(dòng)來(lái)監(jiān)測(cè)和控制它。STEVE可以作為學(xué)生的導(dǎo)師或合作者,能監(jiān)測(cè)學(xué)生們的表現(xiàn),并為學(xué)生提供幫助。STEVE基于VET(虛擬培訓(xùn)環(huán)境)軟件而開發(fā),人類與虛擬世界互動(dòng)是通過(guò)頭戴式顯示屏和3D鼠標(biāo)來(lái)進(jìn)行的。STEVE包括一個(gè)認(rèn)知組件,用于高級(jí)別處理;一個(gè)感覺(jué)運(yùn)動(dòng)組件,用于與虛擬世界交互,負(fù)責(zé)處理感知和馬達(dá)指令。STEVE可以被渲染成為一個(gè)無(wú)具體體現(xiàn)的代理(如虛擬手掌,可以抓取對(duì)象),也可以被渲染成為一個(gè)有具體體現(xiàn)的代理(如人體的局部,包括頭和軀干),這些都不會(huì)影響其認(rèn)知水平。 Adele是另一個(gè)教學(xué)代理,與STEVE運(yùn)行在一個(gè)沉浸式虛擬環(huán)境中不同,Adele被設(shè)計(jì)成運(yùn)行萬(wàn)維網(wǎng)之上。Adele包括一個(gè)推理引擎,一個(gè)基于Java程序的生動(dòng)人物形象,能夠監(jiān)測(cè)學(xué)生們的表現(xiàn),并提供反饋。由于采用的是2D圖像界面,Adele與STEVE相比還有許多局限性。但不管怎樣,它還能是通過(guò)目光和手勢(shì)來(lái)改變面部表情,從而激發(fā)學(xué)生。第五章:虛擬世界
如果說(shuō)VE領(lǐng)域的許多工作都轉(zhuǎn)向智能虛擬環(huán)境是為了添加特定功能,AI領(lǐng)域的工作考慮的是將虛擬環(huán)境作為創(chuàng)建更有趣的智能代理的一種手段,那么AL領(lǐng)域研究人員的野心似乎更大。這其中包括創(chuàng)造包含數(shù)字生活的虛擬世界,也可能包括一些物理定律,與真實(shí)世界類似。 有人將分布式交互虛擬環(huán)境,如Active Worlds,視為開發(fā)虛擬世界的基礎(chǔ)?!禨ims》(模擬人生)就是在該框架下開發(fā)的一款游戲產(chǎn)品。相比之下,《Technosphere》就采用了比較新的方式。Technosphere是一個(gè)在線虛擬世界,玩家可以建造生物,它們還可以跑動(dòng)。這些生物故意建造很簡(jiǎn)單,玩家可以從數(shù)據(jù)可中選擇它們的頭、身體和眼睛等,無(wú)論是食草動(dòng)物,還是食肉動(dòng)物。這些動(dòng)物可以吃、睡、走動(dòng)、打架和交配等,當(dāng)死亡后(或被屠殺),它們的身體還會(huì)逐漸腐爛。調(diào)查結(jié)果顯示,在這個(gè)虛擬世界中,玩家更傾向于創(chuàng)建食肉動(dòng)物,而不是食草動(dòng)物,從而創(chuàng)造一個(gè)不穩(wěn)定的生態(tài)系統(tǒng)。 《Technosphere》的開發(fā)動(dòng)機(jī)就是以藝術(shù)為主,而不是科學(xué),因此大量工作被用于創(chuàng)造在視覺(jué)上極具吸引力的自然風(fēng)光。但是,《Technosphere》不能被實(shí)時(shí)渲染來(lái)進(jìn)行某種互動(dòng)。 最后一個(gè)案例是《Nerve Garden》項(xiàng)目,這是一套主從式(client-server system,客戶端-服務(wù)器系統(tǒng))系統(tǒng),允許用戶利用Lindenmayer Systems系統(tǒng)生成3D植物模型。然后,用戶可以選擇一種特定植物,將其置于小島花園中,用戶可以欣賞和更新小島。用戶可以各種視角觀看這一虛擬世界,包括從一個(gè)飛行的昆蟲后背來(lái)動(dòng)態(tài)觀看,且環(huán)繞整個(gè)小島。該項(xiàng)目還添加了聲音效果,包括打雷。由于不支持植物生長(zhǎng),以及植物與環(huán)境的互動(dòng),因此從AL的角度講,《Nerve Garden》還是一個(gè)相對(duì)初級(jí)的虛擬世界。但是,《Nerve Garden II 》將通過(guò)提供一個(gè)簡(jiǎn)單、有效的花園生態(tài)系統(tǒng)來(lái)增加這些功能。第六章:方向與問(wèn)題
作為結(jié)論部分,我們討論智能虛擬環(huán)境未來(lái)發(fā)展方向和可能出現(xiàn)的一些問(wèn)題。我們先從自治說(shuō)起,將其作為一個(gè)標(biāo)準(zhǔn)來(lái)闡述不同的控制級(jí)別。 一、自治 從前文的范例中可以得知,物理端的虛擬代理可以代表任何事物,從零自治到完全自治,貫穿各種中間狀態(tài)。這種自治范圍與認(rèn)知端代理相比具有更高的自治性,雖然它們?cè)谒幁h(huán)境中也可能有一些功能限制。 一個(gè)簡(jiǎn)單的代理模型包括感知、反射和行動(dòng),感知和反射直接由用戶控制,那么只剩下行動(dòng)需要自主完成。但是,隨著化身變得越來(lái)越復(fù)雜,代理還可能使用到面部表情、手勢(shì)和肢體語(yǔ)言,以作為額外的通信渠道。因此,通過(guò)鼠標(biāo)和菜單等標(biāo)準(zhǔn)的方式來(lái)控制就顯得有些困難。正如人體的意識(shí)控制會(huì)導(dǎo)致認(rèn)知超負(fù)荷,化身溝通方式的增加也會(huì)為用戶帶來(lái)超負(fù)荷問(wèn)題。此時(shí),我們需要更加靈活的直接控制界面,或者是將一些低級(jí)別的行為自治整合到化身中。 虛擬角色就是整合了低級(jí)別行為自治的代理的一個(gè)典范。此時(shí),代理被用戶整合到一個(gè)被高級(jí)別指導(dǎo)環(huán)境中,由一名導(dǎo)師來(lái)開發(fā)一個(gè)培訓(xùn)場(chǎng)景。目前,這種系統(tǒng)已經(jīng)構(gòu)建并被用于人質(zhì)釋放場(chǎng)景中,以及戰(zhàn)場(chǎng)的醫(yī)療救護(hù)中。在第一個(gè)場(chǎng)景中,虛擬演員被用來(lái)飾演恐怖分子和大量人質(zhì)。然后,受訓(xùn)人員以化身的身份進(jìn)入VE中,通常由耳機(jī)或數(shù)據(jù)手套(data glove,一種多模式的虛擬現(xiàn)實(shí)硬件)來(lái)驅(qū)動(dòng)。導(dǎo)師通過(guò)預(yù)先開發(fā)的腳本來(lái)控制整個(gè)場(chǎng)景,而虛擬演員也支持低級(jí)別行為,用于執(zhí)行腳本中的行動(dòng),以及對(duì)行動(dòng)作出實(shí)時(shí)響應(yīng)。這樣,如果受訓(xùn)者或恐怖分子開槍,虛擬人質(zhì)就會(huì)逃跑。 在戰(zhàn)場(chǎng)醫(yī)療救護(hù)場(chǎng)景中,受訓(xùn)人員將再次驅(qū)動(dòng)一個(gè)化身,為受傷的虛擬演員提供醫(yī)療救護(hù),這是由腳本來(lái)決定的。但是,虛擬傷員必須要以現(xiàn)實(shí)生活中的實(shí)際方式來(lái)回應(yīng)他們所受到的救護(hù):例如,血流必須要停止,意識(shí)必須要恢復(fù),面部顏色必須要改變。 相比之下,其他代理可能擁有高度的自治行為,但可能以不同的方式來(lái)執(zhí)行。因?yàn)閾碛懈嗟奈锢泶?,自治行?dòng)通常依賴于內(nèi)部駕馭和環(huán)境模擬之間的互動(dòng)。既然代理的驅(qū)動(dòng)(drives)影響其行為,而其行為又影響環(huán)境,這就形成了一個(gè)持續(xù)的反饋環(huán)路。 例如,特佐普羅斯的魚擁有饑餓、恐懼和性欲的內(nèi)部驅(qū)動(dòng),分別用來(lái)模擬喂食、逃離和交配行為。驅(qū)動(dòng)本身由魚和所處環(huán)境的互動(dòng)來(lái)生成,例如,上一次喂食時(shí)間,或者是視線中是否有捕食者。另外,《Virtual Teletubbies》(虛擬天線寶寶)和《Creatures》也采用了類似的方法,前者由饑餓、疲勞和好奇所驅(qū)動(dòng)。 相比之下,在認(rèn)知代理中可能出現(xiàn)與上文截然不同的方法。例如,STEVE就是任務(wù)驅(qū)動(dòng)型,其自治主要基于目標(biāo)擴(kuò)張(通過(guò)一個(gè)AI計(jì)劃系統(tǒng))。其行為也根據(jù)環(huán)境狀態(tài)進(jìn)行改變,例如,如果一個(gè)受訓(xùn)者取消一項(xiàng)行動(dòng),STEVE就會(huì)計(jì)劃重新去做。同樣,如果一個(gè)受訓(xùn)者沒(méi)有查看當(dāng)前子任務(wù)的地理位置,STEVE就會(huì)要求他們?nèi)プ觥:苊黠@,我們可以將經(jīng)典的目標(biāo)驅(qū)動(dòng)方法與前文所說(shuō)的驅(qū)動(dòng)方法相結(jié)合,但目前還沒(méi)有人這樣做。除了這種結(jié)合所引發(fā)的概念問(wèn)題,這樣做也需要更多的計(jì)算資源。 二、結(jié)合物理端與認(rèn)知端 目前該領(lǐng)域的絕大部分工作都可以歸類為物理端或認(rèn)知端這兩大范疇,但也有一些工作把二者結(jié)合在一起。一個(gè)典型的案例就是ALIVE系統(tǒng),它把物理端和認(rèn)知端以有效、連貫的方式結(jié)合在一起。ALIVE允許人類和一個(gè)豐富的圖形世界(棲息著自主代理)進(jìn)行毫無(wú)障礙的全身互動(dòng),這是通過(guò)“鏡像模式”來(lái)實(shí)現(xiàn)的。在該模式下,用戶能看到虛擬環(huán)境中的自己(代表)。 ALIVE系統(tǒng)的模型是以一種復(fù)雜的方式被創(chuàng)建的,通過(guò)一款開發(fā)工具包,能讓代理在做任何事情前都盡可能地去感知。一個(gè)代理的設(shè)計(jì)師可以指定傳感器去感知環(huán)境,通過(guò)釋放各種機(jī)制來(lái)識(shí)別行為上的明顯刺激(例如,一個(gè)人伸手去抓地上的小狗)。 一個(gè)3D代理被創(chuàng)建來(lái)代表用戶,其位置和狀態(tài)由一個(gè)視覺(jué)系統(tǒng)(基于攝像頭的用戶成像)來(lái)計(jì)算。然后通過(guò)視覺(jué)識(shí)別用戶的手、身體姿勢(shì)和代理內(nèi)部狀態(tài)的聽覺(jué)反饋,完成代理與用戶之間的交互。通過(guò)這種方式,人造代理能夠使用與檢測(cè)環(huán)境中其他對(duì)象的同一個(gè)虛擬傳感器來(lái)感知人類用戶,這樣用戶就可以和人造代理與環(huán)境一起被渲染。 基于ALIVE系統(tǒng)的應(yīng)用案例包括一個(gè)木偶世界。在該世界中,一個(gè)木偶會(huì)根據(jù)用戶的指示來(lái)執(zhí)行面部表情,傳遞內(nèi)部狀態(tài)。在近期的工作中,還有一個(gè)虛擬世界包含一只虛擬狗,利用聽覺(jué)和視覺(jué)輸入來(lái)表達(dá)一系列行為,以交互或自主行動(dòng)方式與用戶互動(dòng)。總之,ALIVE系統(tǒng)代表著該領(lǐng)域的未來(lái)發(fā)展方向,凸顯了AI和AE結(jié)合的重要性和實(shí)用性。 三、發(fā)展前景 如文初所述,資源限制仍是智能虛擬環(huán)境所面臨的一個(gè)突出問(wèn)題。某些研究中的物理建模方式(例如魚)需要大量的計(jì)算工作,成本昂貴,因?yàn)樗蕾囉趶?qiáng)大的分析框架,對(duì)處理能力的需求較高。因此,成功的物理建模還需要一種基于本地計(jì)算的低成本方案,而引入AL技術(shù)可能會(huì)提供幫助。另一個(gè)方案可能需要從AI中引入定性物理應(yīng)用,從而獲得一個(gè)準(zhǔn)確的模型。從其他角度講,支持持續(xù)交互的實(shí)時(shí)渲染必須要以創(chuàng)建成功的虛擬環(huán)境為目標(biāo),尤其是對(duì)于許多娛樂(lè)應(yīng)用。 本文所述的智能虛擬環(huán)境是一個(gè)新的領(lǐng)域,目前仍處于發(fā)展的初期階段,尚未成熟。但是,人們已經(jīng)通過(guò)許多令人興奮的創(chuàng)意證明了它的發(fā)展?jié)摿ΑEc此同時(shí),這種不成熟也揭示了另一個(gè)問(wèn)題,那就是目前仍缺乏一些高效的通用工具和架構(gòu)。很明顯,這會(huì)影響研究人員的創(chuàng)造能力。目前已經(jīng)有一些工作向這方面努力,如VRML’97標(biāo)準(zhǔn)的開發(fā)。但不管怎樣,該領(lǐng)域的巨大潛力已經(jīng)被證明。事實(shí)上,如果VR、AI和AL領(lǐng)域的研發(fā)人員能夠展開更緊密的合作,相關(guān)問(wèn)題就能被更早地結(jié)解決,我們也就能更快地看到基于虛擬智能環(huán)境技術(shù)的新一波應(yīng)用。 來(lái)源VR次元,整理孫實(shí)。投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
元宇宙數(shù)字產(chǎn)業(yè)服務(wù)平臺(tái)
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息