文/VR陀螺 冉啟行
NeRF 技術(shù)可以加速元宇宙的發(fā)展,為 VR 和 AR 硬件設(shè)備提供獨(dú)特的三維內(nèi)容。
在 VR 游戲和虛擬世界(如《地平線 山之呼喚》)中展示的 3D 圖形通常由數(shù)百萬個相互連接的多邊形組成,每個對象都有相應(yīng)的顏色、陰影和紋理,以震撼的畫風(fēng)帶給用戶更加逼真的近眼體驗。
雖然多邊形建模(Polygon Modeling)是目前三維軟件中比較流行的建模方法,但實現(xiàn)部分偏寫實的畫風(fēng)卻具有一定挑戰(zhàn)性,譬如 VR 節(jié)奏射擊游戲《Pistol Whip》,它使用程式化的圖像來代替。
《Pistol Whip》游戲畫面(圖源:網(wǎng)絡(luò))
物理世界是由不完美、流動的形狀組成的,即使是一個簡單的紙板箱,它的邊緣也有圓形,而一個快速建模的 3D 盒子則是剛性的 90 度直角。另外,紙板箱的表面可能有微小的瑕疵、皺褶和折痕,盒子的紋理是不均勻的纖維狀,以漫反射的棕色色調(diào)反射光線,這是微妙的色調(diào)風(fēng)格,是更加貼近現(xiàn)實的風(fēng)格。
自然光在極其復(fù)雜的物體結(jié)構(gòu)中反射和反彈,這很難在計算機(jī)中模擬重現(xiàn)。光線追蹤通過模擬數(shù)百萬條光線在物體上彈跳和散射,以創(chuàng)建詳細(xì)逼真的圖像來解決這個問題。
然而,為 VR 游戲或虛擬元宇宙處理帶有實時光線追蹤的復(fù)雜渲染需要強(qiáng)大的圖形性能,這需要更加強(qiáng)大的獨(dú)立 CPU 或云渲染能力,這對于當(dāng)前量級的 VR 硬件市場來說成本過于高昂,跳脫現(xiàn)實。
一種新的解決方案以 NeRF 技術(shù)的形式出現(xiàn),這是一種解決在計算機(jī)內(nèi)重建真實世界對象問題的新方法。
NVIDIA Instant NeRF(圖源:英偉達(dá))
NeRF:從2D圖像中重建三維視覺
NeRF 是神經(jīng)輻射場(Neural Radiance Field)的首字母縮寫,它是一種基于神經(jīng)網(wǎng)絡(luò)的 3D 重建技術(shù),不同于傳統(tǒng)的三維重建方法把場景表示為點(diǎn)云、網(wǎng)格、體素等顯式的表達(dá),它獨(dú)辟蹊徑,將場景建模成一個連續(xù)的 5D 輻射場隱式存儲在神經(jīng)網(wǎng)絡(luò)中,只需輸入多角度的 2D 圖像,就可以通過訓(xùn)練得到一個神經(jīng)輻射場模型,根據(jù)這個模型可以渲染出任意視角下的清晰照片。
NeRF 提出的隱式表達(dá)以空間點(diǎn)的坐標(biāo)和觀察者的視角、位置作為輸入,輸出則是點(diǎn)的 RGB 信息和占用密度。占用密度這一點(diǎn)與占用函數(shù)相似,但沒有像占用函數(shù)那樣粗暴地用 0 和 1 表示一個點(diǎn)是否被占用,而是用 0~1 之間的數(shù)字表示點(diǎn)被占用的程度這樣可以大幅減少計算量。
圖源:CSDN
NeRF 從 2D 圖像中組建出 3D 畫面,從而實現(xiàn)對虛擬環(huán)境中物體的精確定位和跟蹤。NeRF 技術(shù)的核心思想是將場景中的每個像素都視為一個神經(jīng)元,然后使用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)這些神經(jīng)元之間的關(guān)系,這種方法可以有效地提高場景的精度和真實感。
要創(chuàng)建 NeRF,首先要從整個環(huán)境或物體周圍的不同角度拍攝一系列照片。在某些情況下,錄制視頻更方便。這允許設(shè)計師使用無人機(jī)捕獲的視頻或任何其他預(yù)先錄制的內(nèi)容制作 NeRF,甚至可以使用這項技術(shù)重新捕獲 3D 游戲內(nèi)容作為 NeRF。
為達(dá)到最佳模型,開發(fā)者在創(chuàng)建 NeRF 時,需要慢慢移動相機(jī),可以從上方、中間和下方繞圈。然后使用這些照片或視頻來訓(xùn)練人工智能模型,在你的電腦、手機(jī)或 VR 頭顯中重新創(chuàng)建虛擬物體。
圖源:CSDN
與許多計算機(jī)表示圖像一樣,通過 NeRF 生成的圖形質(zhì)量也各不相同,因此快速生成或原圖像較少的 NeRF 圖像可能會產(chǎn)生噪點(diǎn),撕裂等問題。不過,畫面整體來看,真實感依舊會表現(xiàn)得較好。
色斑和塊狀偽影降低了早期 JPEG 照片的質(zhì)量,第一波 NeRF 渲染也有類似的缺陷。隨著技術(shù)的成熟,這些問題將變得不那么常見。
RawNeRF:Google 的新圖像 AI 為黑暗帶來光明(圖源:Ben Mildenhall / Google)
渲染成本要求低,可達(dá)類“光線追蹤”圖形效果
除 3D 場景的建立,NeRF 的另一個優(yōu)勢在于它可以在低功耗的設(shè)備上進(jìn)行運(yùn)算渲染。多邊形光線追蹤以高幀率渲染高分辨率、逼真的場景,這需要昂貴的顯卡支撐,但高質(zhì)量的 NeRF 可以在手機(jī)甚至網(wǎng)絡(luò)瀏覽器上渲染。
在圖像渲染方面, NeRF 采用了光線追蹤的方法將隱式表示渲染為二維圖像,光線追蹤法就是沿著觀察者眼里發(fā)射出光線,對光線進(jìn)行采樣取得每個采樣點(diǎn)的 RGB 和密度信息,并使用體繪制技術(shù)將這些值合成圖像。
所以,NeRF 技術(shù)又一衍生出的優(yōu)點(diǎn)是它可以處理復(fù)雜的光照和陰影效果,使得虛擬環(huán)境更加真實。此外,它還可以處理透明和反射材料,使得虛擬環(huán)境中的物體更加逼真。
用手機(jī)拍了段視頻,5秒訓(xùn)練自己的NeRF
(來源:B站up主——文森特秦)
NeRF 快速生成逼真 3D 圖像視覺的能力,以及低廉的硬件適配成本,對于尚處于前期發(fā)展階段的 XR 硬件,無疑具備強(qiáng)大的吸引力。NeRF 在 XR 領(lǐng)域的開發(fā)仍處于早期階段,但是使用 NeRF 來構(gòu)建某些 VR/AR 游戲內(nèi)容或元宇宙世界未來是必然的應(yīng)用趨勢。
在 VR 和 AR 技術(shù)中,NeRF 可以用來創(chuàng)建更加真實的虛擬環(huán)境。例如,在 VR 游戲或元宇宙世界中,NeRF 可以用來創(chuàng)建高度精細(xì)的 3D 場景,增強(qiáng)沉浸式體驗。在 AR 應(yīng)用中,NeRF 可以用來創(chuàng)建更加逼真的虛擬物體,還原文物等模型。
在上文提及一個小小的紙板箱也有復(fù)雜的形狀、紋理和燈光效果,那想象一個充滿珠寶、枝形吊燈、彩色玻璃、多盞掛燈和鏡子的場景——這種復(fù)雜的光線環(huán)境即使用昂貴 GPU 的計算機(jī)也會不堪重負(fù),從而導(dǎo)致幀速率受到影響,更別提性能幾乎落后 PC、手機(jī) 3-4 年的 VR 一體機(jī),以及采用穿戴式移動平臺的 AR 眼鏡。
為設(shè)計一個更接近自然世界,細(xì)節(jié)詳實、對象逼真、包含光線、陰影僅有細(xì)微差別的虛擬元宇宙,需要一種更先進(jìn)的解決方案,它比光線追蹤數(shù)百萬束光線穿過充滿數(shù)百萬個多邊形的場景要求更低,這就是 NeRF 的意義所在。
圖源:網(wǎng)絡(luò)
對比攝影測量和激光雷達(dá),NeRF“性價比”更高
在 3D 圖形的生成過程中,NeRF 需要大量的照片和視頻,這一記錄方法與“攝影測量”和“激光雷達(dá)”類似。
攝影測量是從圖像進(jìn)行測量的過程,對獲取的重疊圖像進(jìn)行處理以生成精確的空間模型,它的主要目的是數(shù)字化現(xiàn)實以進(jìn)行測繪。激光雷達(dá)主要用于激光測量距離,它的工作原理是用激光照亮目標(biāo)物體或空間,并記錄激光返回傳感器所需的時間,以高精度測量距離。
激光雷達(dá)可以用于執(zhí)行與攝影測量類的任務(wù),并可以加強(qiáng)其輸出,一些攝影測量應(yīng)用程序也使用激光來加快處理速度。雖然攝影測量+激光雷達(dá)的捕獲技術(shù)與 NeRF 類似,但攝影測量以數(shù)學(xué)方式對齊圖像以創(chuàng)建稱為點(diǎn)云(Point Cloud)的 3D 對象表示。
根據(jù)激光測量原理得到的點(diǎn)云,包括三維坐標(biāo)(XYZ)和激光反射強(qiáng)度(Intensity);根據(jù)攝影測量原理得到的點(diǎn)云,包括三維坐標(biāo)(XYZ)和顏色信息(RGB);結(jié)合激光測量和攝影測量原理得到點(diǎn)云,包括三維坐標(biāo)(XYZ)、激光反射強(qiáng)度(Intensity)和顏色信息(RGB)。
Robert Morris 的虛擬現(xiàn)實珍品柜展示了數(shù)百件通過攝影測量數(shù)字化的稀有奇妙物品(圖源:Mechanical Whispers)
由于采集數(shù)據(jù)信息龐大,雖然點(diǎn)云可以準(zhǔn)確捕捉對象的顏色和紋理,但其關(guān)鍵的一點(diǎn)是無法重現(xiàn)光線細(xì)節(jié)。這些傳統(tǒng)的技術(shù)非常適合捕獲的第一階段,若要生成逼真的模型,需要將點(diǎn)云轉(zhuǎn)換為多邊形模型,由 3D 藝術(shù)家手動調(diào)整,并使用光線追蹤進(jìn)行渲染。
與傳統(tǒng)的 3D 重建方法不同,NeRF 不需要人工標(biāo)注或手動建模。相反,它可以從單張或多張圖像中自動學(xué)習(xí)場景的 3D 形狀和光照,準(zhǔn)確地捕捉場景中的細(xì)節(jié)和光線傳播,并且能夠快速地進(jìn)行場景渲染。
AI浪潮下,NeRF加速
事實上,NeRF 技術(shù)已經(jīng)存在多年。1936 年,物理學(xué)家 Andrey Gershun 首次描述了光場的概念。在過去幾年中,神經(jīng)處理作為應(yīng)對許多計算挑戰(zhàn)的解決方案呈爆炸式增長。圖像和文本生成、計算機(jī)視覺和語音識別等 AI 進(jìn)步依賴于神經(jīng)處理來解決自然世界的復(fù)雜性,以及幾乎不可預(yù)測的未來性。
Nvidia 的研究人員展示了一種新的 AI 方法,旨在使人工智能在計算機(jī)圖形學(xué)中得到有效利用(圖源:英偉達(dá))
在早期,神經(jīng)渲染非常耗時。現(xiàn)在,計算機(jī)、移動設(shè)備和 VR 一體機(jī)在其中央處理器和圖形芯片中包含專用神經(jīng)核心,顯示 NeRF 變得快速而簡單。Nvidia 的 Instant-NGP 展示了立竿見影的效果,幾乎可以在瞬間編譯照片和訓(xùn)練 NeRF——時代雜志還將 NVIDIA Instant NeRF 評為2022 年最佳發(fā)明之一。
即使是 iPhone 也可以使用 Luma AI 應(yīng)用程序捕獲和創(chuàng)建 NeRF,Google 的最新進(jìn)展使 NeRF 技術(shù)更快。隨著 NeRF 技術(shù)不斷進(jìn)步并變得更加通用,神經(jīng)渲染可能會在構(gòu)建充滿元宇宙的虛擬對象和環(huán)境方面發(fā)揮重要作用,并可能使 VR 一體機(jī)和 AR 眼鏡在未來成為必需品。
在常見的三維表示中,相比于點(diǎn)云的高成本,NeRF 是一種近似的方法,適用于部分不需要編輯或交互的 XR 靜態(tài)內(nèi)容,這是一個可探索的方向。
NeRF 現(xiàn)在的缺點(diǎn)是不能做結(jié)構(gòu)數(shù)據(jù),也就是 Mesh,所以現(xiàn)階段用 NeRF 來開發(fā)像《地平線 山之呼喚》這種多資產(chǎn)的游戲不大可能。NeRF 做出的 VR 內(nèi)容是體積數(shù)據(jù),屬于靜態(tài)的無法交互。不過,動態(tài)的經(jīng)濟(jì)效益就會很高,NeRF 未來極具商業(yè)價值。
最后附六種常見三維表示方法:
圖源:CSDN
參考文獻(xiàn):
https://mixed-news.com/en/what-is-a-nerf-and-how-can-this-technology-help-vr-ar-and-the-metaverse/
https://blog.csdn.net/laziji/article/details/103826781
https://blog.csdn.net/I_m_Gagaga/article/details/128274742
https://www.sohu.com/a/535910791_120857167
文中部分技術(shù)概念、案例應(yīng)用等段落由 ChatGPT 3.5 提供生成支持,最后感謝楊同學(xué)對于本文前期相關(guān)技術(shù)的建議。
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
元宇宙數(shù)字產(chǎn)業(yè)服務(wù)平臺
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息