游戲評(píng)測(cè)

推廣

行業(yè)應(yīng)用

高效低成本構(gòu)建元宇宙場(chǎng)景：NeRF神經(jīng)輻射場(chǎng)

發(fā)布時(shí)間：2023-04-03 10:24 | 標(biāo)簽： NeRF 神經(jīng)輻射場(chǎng)

微信掃一掃：分享

微信里點(diǎn)“發(fā)現(xiàn)”，掃一下
二維碼便可將本文分享至朋友圈

文/VR陀螺冉啟行

NeRF 技術(shù)可以加速元宇宙的發(fā)展，為 VR 和 AR 硬件設(shè)備提供獨(dú)特的三維內(nèi)容。

在 VR 游戲和虛擬世界（如《地平線山之呼喚》）中展示的 3D 圖形通常由數(shù)百萬(wàn)個(gè)相互連接的多邊形組成，每個(gè)對(duì)象都有相應(yīng)的顏色、陰影和紋理，以震撼的畫風(fēng)帶給用戶更加逼真的近眼體驗(yàn)。

雖然多邊形建模（Polygon Modeling）是目前三維軟件中比較流行的建模方法，但實(shí)現(xiàn)部分偏寫實(shí)的畫風(fēng)卻具有一定挑戰(zhàn)性，譬如 VR 節(jié)奏射擊游戲《Pistol Whip》，它使用程式化的圖像來(lái)代替。

《Pistol Whip》游戲畫面（圖源：網(wǎng)絡(luò)）

物理世界是由不完美、流動(dòng)的形狀組成的，即使是一個(gè)簡(jiǎn)單的紙板箱，它的邊緣也有圓形，而一個(gè)快速建模的 3D 盒子則是剛性的 90 度直角。另外，紙板箱的表面可能有微小的瑕疵、皺褶和折痕，盒子的紋理是不均勻的纖維狀，以漫反射的棕色色調(diào)反射光線，這是微妙的色調(diào)風(fēng)格，是更加貼近現(xiàn)實(shí)的風(fēng)格。

自然光在極其復(fù)雜的物體結(jié)構(gòu)中反射和反彈，這很難在計(jì)算機(jī)中模擬重現(xiàn)。光線追蹤通過模擬數(shù)百萬(wàn)條光線在物體上彈跳和散射，以創(chuàng)建詳細(xì)逼真的圖像來(lái)解決這個(gè)問題。

然而，為 VR 游戲或虛擬元宇宙處理帶有實(shí)時(shí)光線追蹤的復(fù)雜渲染需要強(qiáng)大的圖形性能，這需要更加強(qiáng)大的獨(dú)立 CPU 或云渲染能力，這對(duì)于當(dāng)前量級(jí)的 VR 硬件市場(chǎng)來(lái)說成本過于高昂，跳脫現(xiàn)實(shí)。

一種新的解決方案以 NeRF 技術(shù)的形式出現(xiàn)，這是一種解決在計(jì)算機(jī)內(nèi)重建真實(shí)世界對(duì)象問題的新方法。

NVIDIA Instant NeRF（圖源：英偉達(dá)）

NeRF：從2D圖像中重建三維視覺

NeRF 是神經(jīng)輻射場(chǎng)（Neural Radiance Field）的首字母縮寫，它是一種基于神經(jīng)網(wǎng)絡(luò)的 3D 重建技術(shù)，不同于傳統(tǒng)的三維重建方法把場(chǎng)景表示為點(diǎn)云、網(wǎng)格、體素等顯式的表達(dá)，它獨(dú)辟蹊徑，將場(chǎng)景建模成一個(gè)連續(xù)的 5D 輻射場(chǎng)隱式存儲(chǔ)在神經(jīng)網(wǎng)絡(luò)中，只需輸入多角度的 2D 圖像，就可以通過訓(xùn)練得到一個(gè)神經(jīng)輻射場(chǎng)模型，根據(jù)這個(gè)模型可以渲染出任意視角下的清晰照片。

NeRF 提出的隱式表達(dá)以空間點(diǎn)的坐標(biāo)和觀察者的視角、位置作為輸入，輸出則是點(diǎn)的 RGB 信息和占用密度。占用密度這一點(diǎn)與占用函數(shù)相似，但沒有像占用函數(shù)那樣粗暴地用 0 和 1 表示一個(gè)點(diǎn)是否被占用，而是用 0~1 之間的數(shù)字表示點(diǎn)被占用的程度這樣可以大幅減少計(jì)算量。

圖源：CSDN

NeRF 從 2D 圖像中組建出 3D 畫面，從而實(shí)現(xiàn)對(duì)虛擬環(huán)境中物體的精確定位和跟蹤。NeRF 技術(shù)的核心思想是將場(chǎng)景中的每個(gè)像素都視為一個(gè)神經(jīng)元，然后使用神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)這些神經(jīng)元之間的關(guān)系，這種方法可以有效地提高場(chǎng)景的精度和真實(shí)感。

要?jiǎng)?chuàng)建 NeRF，首先要從整個(gè)環(huán)境或物體周圍的不同角度拍攝一系列照片。在某些情況下，錄制視頻更方便。這允許設(shè)計(jì)師使用無(wú)人機(jī)捕獲的視頻或任何其他預(yù)先錄制的內(nèi)容制作 NeRF，甚至可以使用這項(xiàng)技術(shù)重新捕獲 3D 游戲內(nèi)容作為 NeRF。

為達(dá)到最佳模型，開發(fā)者在創(chuàng)建 NeRF 時(shí)，需要慢慢移動(dòng)相機(jī)，可以從上方、中間和下方繞圈。然后使用這些照片或視頻來(lái)訓(xùn)練人工智能模型，在你的電腦、手機(jī)或 VR 頭顯中重新創(chuàng)建虛擬物體。

圖源：CSDN

與許多計(jì)算機(jī)表示圖像一樣，通過 NeRF 生成的圖形質(zhì)量也各不相同，因此快速生成或原圖像較少的 NeRF 圖像可能會(huì)產(chǎn)生噪點(diǎn)，撕裂等問題。不過，畫面整體來(lái)看，真實(shí)感依舊會(huì)表現(xiàn)得較好。

色斑和塊狀偽影降低了早期 JPEG 照片的質(zhì)量，第一波 NeRF 渲染也有類似的缺陷。隨著技術(shù)的成熟，這些問題將變得不那么常見。

RawNeRF：Google 的新圖像 AI 為黑暗帶來(lái)光明（圖源：Ben Mildenhall / Google）

渲染成本要求低，可達(dá)類“光線追蹤”圖形效果

除 3D 場(chǎng)景的建立，NeRF 的另一個(gè)優(yōu)勢(shì)在于它可以在低功耗的設(shè)備上進(jìn)行運(yùn)算渲染。多邊形光線追蹤以高幀率渲染高分辨率、逼真的場(chǎng)景，這需要昂貴的顯卡支撐，但高質(zhì)量的 NeRF 可以在手機(jī)甚至網(wǎng)絡(luò)瀏覽器上渲染。

在圖像渲染方面， NeRF 采用了光線追蹤的方法將隱式表示渲染為二維圖像，光線追蹤法就是沿著觀察者眼里發(fā)射出光線，對(duì)光線進(jìn)行采樣取得每個(gè)采樣點(diǎn)的 RGB 和密度信息，并使用體繪制技術(shù)將這些值合成圖像。

所以，NeRF 技術(shù)又一衍生出的優(yōu)點(diǎn)是它可以處理復(fù)雜的光照和陰影效果，使得虛擬環(huán)境更加真實(shí)。此外，它還可以處理透明和反射材料，使得虛擬環(huán)境中的物體更加逼真。

用手機(jī)拍了段視頻，5秒訓(xùn)練自己的NeRF

(來(lái)源：B站up主——文森特秦）

NeRF 快速生成逼真 3D 圖像視覺的能力，以及低廉的硬件適配成本，對(duì)于尚處于前期發(fā)展階段的 XR 硬件，無(wú)疑具備強(qiáng)大的吸引力。NeRF 在 XR 領(lǐng)域的開發(fā)仍處于早期階段，但是使用 NeRF 來(lái)構(gòu)建某些 VR/AR 游戲內(nèi)容或元宇宙世界未來(lái)是必然的應(yīng)用趨勢(shì)。

在 VR 和 AR 技術(shù)中，NeRF 可以用來(lái)創(chuàng)建更加真實(shí)的虛擬環(huán)境。例如，在 VR 游戲或元宇宙世界中，NeRF 可以用來(lái)創(chuàng)建高度精細(xì)的 3D 場(chǎng)景，增強(qiáng)沉浸式體驗(yàn)。在 AR 應(yīng)用中，NeRF 可以用來(lái)創(chuàng)建更加逼真的虛擬物體，還原文物等模型。

在上文提及一個(gè)小小的紙板箱也有復(fù)雜的形狀、紋理和燈光效果，那想象一個(gè)充滿珠寶、枝形吊燈、彩色玻璃、多盞掛燈和鏡子的場(chǎng)景——這種復(fù)雜的光線環(huán)境即使用昂貴 GPU 的計(jì)算機(jī)也會(huì)不堪重負(fù)，從而導(dǎo)致幀速率受到影響，更別提性能幾乎落后 PC、手機(jī) 3-4 年的 VR 一體機(jī)，以及采用穿戴式移動(dòng)平臺(tái)的 AR 眼鏡。

為設(shè)計(jì)一個(gè)更接近自然世界，細(xì)節(jié)詳實(shí)、對(duì)象逼真、包含光線、陰影僅有細(xì)微差別的虛擬元宇宙，需要一種更先進(jìn)的解決方案，它比光線追蹤數(shù)百萬(wàn)束光線穿過充滿數(shù)百萬(wàn)個(gè)多邊形的場(chǎng)景要求更低，這就是 NeRF 的意義所在。

圖源：網(wǎng)絡(luò)

對(duì)比攝影測(cè)量和激光雷達(dá)，NeRF“性價(jià)比”更高

在 3D 圖形的生成過程中，NeRF 需要大量的照片和視頻，這一記錄方法與“攝影測(cè)量”和“激光雷達(dá)”類似。

攝影測(cè)量是從圖像進(jìn)行測(cè)量的過程，對(duì)獲取的重疊圖像進(jìn)行處理以生成精確的空間模型，它的主要目的是數(shù)字化現(xiàn)實(shí)以進(jìn)行測(cè)繪。激光雷達(dá)主要用于激光測(cè)量距離，它的工作原理是用激光照亮目標(biāo)物體或空間，并記錄激光返回傳感器所需的時(shí)間，以高精度測(cè)量距離。

激光雷達(dá)可以用于執(zhí)行與攝影測(cè)量類的任務(wù)，并可以加強(qiáng)其輸出，一些攝影測(cè)量應(yīng)用程序也使用激光來(lái)加快處理速度。雖然攝影測(cè)量+激光雷達(dá)的捕獲技術(shù)與 NeRF 類似，但攝影測(cè)量以數(shù)學(xué)方式對(duì)齊圖像以創(chuàng)建稱為點(diǎn)云（Point Cloud）的 3D 對(duì)象表示。

根據(jù)激光測(cè)量原理得到的點(diǎn)云，包括三維坐標(biāo)（XYZ）和激光反射強(qiáng)度（Intensity）；根據(jù)攝影測(cè)量原理得到的點(diǎn)云，包括三維坐標(biāo)（XYZ）和顏色信息（RGB）；結(jié)合激光測(cè)量和攝影測(cè)量原理得到點(diǎn)云，包括三維坐標(biāo)（XYZ）、激光反射強(qiáng)度（Intensity）和顏色信息（RGB）。

Robert Morris 的虛擬現(xiàn)實(shí)珍品柜展示了數(shù)百件通過攝影測(cè)量數(shù)字化的稀有奇妙物品（圖源：Mechanical Whispers）

由于采集數(shù)據(jù)信息龐大，雖然點(diǎn)云可以準(zhǔn)確捕捉對(duì)象的顏色和紋理，但其關(guān)鍵的一點(diǎn)是無(wú)法重現(xiàn)光線細(xì)節(jié)。這些傳統(tǒng)的技術(shù)非常適合捕獲的第一階段，若要生成逼真的模型，需要將點(diǎn)云轉(zhuǎn)換為多邊形模型，由 3D 藝術(shù)家手動(dòng)調(diào)整，并使用光線追蹤進(jìn)行渲染。

與傳統(tǒng)的 3D 重建方法不同，NeRF 不需要人工標(biāo)注或手動(dòng)建模。相反，它可以從單張或多張圖像中自動(dòng)學(xué)習(xí)場(chǎng)景的 3D 形狀和光照，準(zhǔn)確地捕捉場(chǎng)景中的細(xì)節(jié)和光線傳播，并且能夠快速地進(jìn)行場(chǎng)景渲染。

AI浪潮下，NeRF加速

事實(shí)上，NeRF 技術(shù)已經(jīng)存在多年。1936 年，物理學(xué)家 Andrey Gershun 首次描述了光場(chǎng)的概念。在過去幾年中，神經(jīng)處理作為應(yīng)對(duì)許多計(jì)算挑戰(zhàn)的解決方案呈爆炸式增長(zhǎng)。圖像和文本生成、計(jì)算機(jī)視覺和語(yǔ)音識(shí)別等 AI 進(jìn)步依賴于神經(jīng)處理來(lái)解決自然世界的復(fù)雜性，以及幾乎不可預(yù)測(cè)的未來(lái)性。

Nvidia 的研究人員展示了一種新的 AI 方法，旨在使人工智能在計(jì)算機(jī)圖形學(xué)中得到有效利用（圖源：英偉達(dá)）

在早期，神經(jīng)渲染非常耗時(shí)?，F(xiàn)在，計(jì)算機(jī)、移動(dòng)設(shè)備和 VR 一體機(jī)在其中央處理器和圖形芯片中包含專用神經(jīng)核心，顯示 NeRF 變得快速而簡(jiǎn)單。Nvidia 的 Instant-NGP 展示了立竿見影的效果，幾乎可以在瞬間編譯照片和訓(xùn)練 NeRF——時(shí)代雜志還將 NVIDIA Instant NeRF 評(píng)為2022 年最佳發(fā)明之一。

即使是 iPhone 也可以使用 Luma AI 應(yīng)用程序捕獲和創(chuàng)建 NeRF，Google 的最新進(jìn)展使 NeRF 技術(shù)更快。隨著 NeRF 技術(shù)不斷進(jìn)步并變得更加通用，神經(jīng)渲染可能會(huì)在構(gòu)建充滿元宇宙的虛擬對(duì)象和環(huán)境方面發(fā)揮重要作用，并可能使 VR 一體機(jī)和 AR 眼鏡在未來(lái)成為必需品。

在常見的三維表示中，相比于點(diǎn)云的高成本，NeRF 是一種近似的方法，適用于部分不需要編輯或交互的 XR 靜態(tài)內(nèi)容，這是一個(gè)可探索的方向。

NeRF 現(xiàn)在的缺點(diǎn)是不能做結(jié)構(gòu)數(shù)據(jù)，也就是 Mesh，所以現(xiàn)階段用 NeRF 來(lái)開發(fā)像《地平線山之呼喚》這種多資產(chǎn)的游戲不大可能。NeRF 做出的 VR 內(nèi)容是體積數(shù)據(jù)，屬于靜態(tài)的無(wú)法交互。不過，動(dòng)態(tài)的經(jīng)濟(jì)效益就會(huì)很高，NeRF 未來(lái)極具商業(yè)價(jià)值。

最后附六種常見三維表示方法：