文/VR陀螺
歷經(jīng)七年沉淀,蘋(píng)果終于在2023 WWDC大會(huì)上正式推出其第一代空間計(jì)算平臺(tái)終端——Vision Pro,敲響了進(jìn)軍XR消費(fèi)端的戰(zhàn)鼓,而后蘋(píng)果在各地開(kāi)設(shè)的開(kāi)發(fā)者實(shí)驗(yàn)室也讓開(kāi)發(fā)者們得以從產(chǎn)品窺探蘋(píng)果對(duì)空間計(jì)算的理解。
從蘋(píng)果Vision Pro展示所有場(chǎng)景中,不得不說(shuō)3D拍攝是其中最讓人印象深刻的一個(gè)功能。演示視頻中,一位用戶(hù)佩戴著Vision Pro頭顯來(lái)觀看一條空間視頻,可以看到視頻的“空間感”,畫(huà)面運(yùn)鏡從右到左更是可以看到視頻中人物的不同角度。
而在另一個(gè)片段中,用戶(hù)按下頭顯上方的按鍵后,便開(kāi)始錄制Vision Pro前方的畫(huà)面,同時(shí)Vision Pro的正面還會(huì)有光效變化來(lái)表示用戶(hù)正在錄制空間視頻或照片。
如今拍照、拍視頻已經(jīng)成為普通消費(fèi)用戶(hù)最為高頻及常用的功能,更誕生了龐大的視頻內(nèi)容市場(chǎng)。如今蘋(píng)果著重推出的3D拍攝功能,是否會(huì)變成“下一個(gè)計(jì)算平臺(tái)”的主流拍攝形式,謎底將在本文揭曉。
傳感器更迭帶來(lái)的時(shí)代機(jī)遇,正悄然來(lái)臨
傳感器是消費(fèi)電子產(chǎn)品中的核心零部件,而基于傳感器不同的屬性和功能,帶來(lái)了眾多不同的應(yīng)用場(chǎng)景和商業(yè)模式的延伸。
如基于GPS,讓滴滴、美團(tuán)、餓了么實(shí)現(xiàn)精準(zhǔn)定位;基于激光雷達(dá)等傳感器,讓掃地機(jī)器人、服務(wù)機(jī)器人擁有“眼睛“;基于結(jié)構(gòu)光傳感器,讓面部解鎖、面容支付成為可能;基于手機(jī)的高清攝像頭,讓人人都可成為時(shí)代的記錄者;基于毫米波雷達(dá)、超聲波、毫米波以及GPS、IMU等,讓汽車(chē)自動(dòng)駕駛成為可能……
甚至可以說(shuō),每一代計(jì)算平臺(tái)的變革,都離不開(kāi)傳感器的更迭。
被譽(yù)為“空間計(jì)算”開(kāi)拓者的蘋(píng)果Vision Pro,其機(jī)身上設(shè)有12個(gè)攝像頭,5個(gè)傳感器(其中1*LiDAR、2*結(jié)構(gòu)光深度傳感、2*IR紅外傳感),這些傳感器分別用來(lái)處理空間環(huán)境感知、手勢(shì)識(shí)別、三維建模和眼動(dòng)追蹤等功能,其攝像頭和傳感器的數(shù)量也比市面上的其他VR頭顯多得多,為的就是更好地實(shí)現(xiàn)3D空間感知和3D掃描功能,以及3D照片和視頻的拍攝。
所有人都在暢想,蘋(píng)果的Vision Pro將帶來(lái)哪些新的場(chǎng)景,這些場(chǎng)景會(huì)帶來(lái)哪些新的生態(tài)和商業(yè)模式。
拋開(kāi)游戲、社交、3D影視等常見(jiàn)的場(chǎng)景之外,Vision Pro與之前的所有VR或者M(jìn)R終端,其獨(dú)有的場(chǎng)景創(chuàng)新莫過(guò)于“3D拍攝”,視頻中所呈現(xiàn)出來(lái)的空間感,讓人仿佛置身其中,這種方式區(qū)別于之前的全景照片/視頻,其強(qiáng)調(diào)的并不是拍攝范圍的擴(kuò)大,而是空間深度信息的復(fù)現(xiàn)。
但視頻中僅展示了使用頭顯拍攝,如果要將一種新的視頻形式、格式推向廣泛大眾,用UGC來(lái)形成一個(gè)品類(lèi)的內(nèi)容生態(tài),誕生諸如3D視頻的Bilibili、抖音,顯然僅靠頭顯是不夠的。
畢竟售價(jià)3499美元(約人民幣25515元)的蘋(píng)果Vision Pro,在初期也注定會(huì)成為一部分人的“新鮮玩意兒”,以及一部分創(chuàng)作者的“生產(chǎn)力工具”,難以在短時(shí)間內(nèi)讓所有消費(fèi)者欣然買(mǎi)單。
除了蘋(píng)果Vision Pro,現(xiàn)有的終端設(shè)備如智能手機(jī)等能否實(shí)現(xiàn)3D拍攝,來(lái)填補(bǔ)內(nèi)容生產(chǎn)力不足的空白?
帶著以上疑問(wèn),VR陀螺與一位3D內(nèi)容生產(chǎn)專(zhuān)家,KIRI Innovations的創(chuàng)始人Jack進(jìn)行一次深度交流,探索3D拍攝的技術(shù)原理以及手機(jī)作為載體的可行性。
蓄謀已久的LiDAR傳感器,究竟用來(lái)做什么?
很多人或許已經(jīng)注意到,早在2020年發(fā)布的iPad Pro以及iPhone 12 Pro上,蘋(píng)果悄悄增加了一個(gè)新的傳感器——LiDAR。根據(jù)釋義,這是一種通過(guò)激光的發(fā)射和接收返回信號(hào)的時(shí)間差進(jìn)行距離測(cè)算的傳感器,用于獲得點(diǎn)云數(shù)據(jù)并生成數(shù)字化三維模型。
LiDAR這項(xiàng)技術(shù)主要利用脈沖激光來(lái)測(cè)量目標(biāo)的距離,常應(yīng)用于測(cè)繪學(xué)、考古學(xué)、地理學(xué)等領(lǐng)域,而蘋(píng)果2020年推出iPad Pro、iPhone 12 Pro等產(chǎn)品之時(shí),將這項(xiàng)技術(shù)落地到了消費(fèi)電子領(lǐng)域。而且它既不像攝像頭像素提升帶來(lái)的清晰度提升,也不像廣角帶來(lái)了角度擴(kuò)大那般顯性,如果不是專(zhuān)業(yè)用戶(hù),根本感知不到LiDAR的功能和價(jià)值。
為什么蘋(píng)果要將LiDAR應(yīng)用到移動(dòng)設(shè)備上?Jack進(jìn)行了詳細(xì)的解讀。
首先,LiDAR對(duì)蘋(píng)果來(lái)說(shuō)最直接的益處就是改善拍照的對(duì)焦方式及其效果,因?yàn)槠淇梢詫?shí)現(xiàn)5米以?xún)?nèi)的距離檢測(cè)。自動(dòng)對(duì)焦或許看上去是平平無(wú)奇的功能,實(shí)際上在夜間或暗處是難以做到準(zhǔn)確對(duì)焦的,而通過(guò)LiDAR能比光學(xué)對(duì)焦更快、更準(zhǔn)確,無(wú)需手動(dòng)對(duì)焦,從而進(jìn)一步提升拍攝能力。
Polycam
其次,LiDAR的測(cè)距能力也能應(yīng)用到空間掃描和定位上,例如ARKit SDK中所調(diào)用的深度信息也包括LiDAR所獲取的信息,相對(duì)于其他平面攝像頭傳感器,LiDAR可獲得更為精準(zhǔn)的定位信息,精確到毫米級(jí)。
如2020年發(fā)布的ARKit 3.5,新的Scene Geometry API就是使用激光雷達(dá)掃描創(chuàng)建空間的3D地圖,以區(qū)分地板、墻壁、天花板、窗戶(hù)、門(mén)和座椅。該掃描儀能夠在長(zhǎng)達(dá)五米的距離內(nèi)快速測(cè)量物體的長(zhǎng)度、寬度、深度,從而使用戶(hù)能夠快速創(chuàng)建可用于物體遮擋的數(shù)字傳真機(jī)-使數(shù)字物體看起來(lái)像在部分場(chǎng)景中融入了場(chǎng)景真實(shí)的對(duì)象。得益于“即時(shí)AR”支持,這些數(shù)字對(duì)象可以自動(dòng)放置在空間中,而無(wú)需在平板電腦上晃來(lái)晃去并使相機(jī)具有空間感。
除了空間定位之外,LiDAR還可以輔助3D建模。但是由于LiDAR精度約5mm,當(dāng)用于空間定位時(shí)可以實(shí)現(xiàn)精準(zhǔn)的效果,但用于3D重建,特別是小的靜態(tài)物體的重建時(shí),其精度是不夠的,并且僅用LiDAR無(wú)法實(shí)現(xiàn)色彩信息獲取。所以也就衍生出一種搭配——使用LiDAR獲取深度信息,結(jié)合RGB攝像頭獲取高精圖片并貼合,而這就是蘋(píng)果推出的Object Capture API的模式,3D建模應(yīng)用《KIRI Engine》、《Polycam》和《Scanniverse》等應(yīng)用都調(diào)用了該API。
關(guān)于該傳感器在AR領(lǐng)域的應(yīng)用,可參見(jiàn)當(dāng)時(shí)VR陀螺的實(shí)測(cè):《LiDAR效果實(shí)測(cè)!對(duì)蘋(píng)果AR生態(tài)與AR眼鏡有何意義?》
但由于其精度不夠,所以Jack的3D平臺(tái)應(yīng)用《Kiri Engine》雖然也調(diào)用了LiDAR,不過(guò)其不但僅僅是用LiDAR來(lái)獲取景深信息,還用其來(lái)獲取相機(jī)的位姿(位置和姿態(tài))定位,轉(zhuǎn)而使用普通相機(jī)拍攝多角度照片,融合NERF和MVS混合算法來(lái)實(shí)現(xiàn)3D建模,該技術(shù)相比LumaAI所生成的mesh質(zhì)量精度更高,且能夠直接用AI實(shí)現(xiàn)模型三角面轉(zhuǎn)四角面用于開(kāi)發(fā)。
最后一項(xiàng)功能,也是本文將要討論的最核心的功能,蘋(píng)果的3D拍攝,實(shí)際學(xué)術(shù)名稱(chēng)為體三維視頻(Volumetric 3D Video)。
Jack表示,蘋(píng)果Vision Pro演示出來(lái)的這種帶景深的3D視頻實(shí)際上不需要3D重建技術(shù),它也不是3D模型,因?yàn)檫@類(lèi)內(nèi)容是體三維視頻,反過(guò)來(lái)這類(lèi)內(nèi)容無(wú)法直接應(yīng)用到UE和Unity。而體三維(Volumetric 3D)是一種立體顯示技術(shù),通過(guò)這項(xiàng)技術(shù)可以直接看到具有物理景深的三維圖像。
普通的視頻主要有X軸和Y軸兩個(gè)維度構(gòu)成,而體三維在X軸和Y軸的基礎(chǔ)上多了個(gè)Z軸,相當(dāng)于景深軸。一般我們用像素(Pixel)來(lái)作為2D圖片或視頻的單位,而在體三維中會(huì)用到體素(Voxel)這個(gè)單位。
Jack進(jìn)一步說(shuō)明道:“要拍攝有景深效果的3D視頻,就需要用到之前說(shuō)的LiDAR+RGB攝像頭的方法,但還有幾個(gè)前提條件,一是需要視差,即需要至少兩個(gè)有相同焦段的RGB攝像頭,二是攝像頭之間要保持一定的距離,就像蘋(píng)果Vision Pro那樣。”
如果是iPhone手機(jī)中的2個(gè)攝像頭,結(jié)合LiDAR能否實(shí)現(xiàn)體三維視頻拍攝?Jack表示,很早之前學(xué)術(shù)界一直在嘗試,但并未獲得很好的效果。其認(rèn)為這也是蘋(píng)果技術(shù)最為厲害之處,能實(shí)現(xiàn)別人做不到的事情。
此外,Jack還表示,體三維視頻不同于2D圖片或視頻,3D形式文件的大小還要計(jì)算XYZ軸以外的通道,比如阿爾法通道(是指一張圖片的透明和半透明度),例如蘋(píng)果就有RGBA這種用于計(jì)算RGB和Alpha色彩空間的文件格式,體三維視頻的文件一定會(huì)是4通道以上的,文件大小也將是倍數(shù)級(jí)的增長(zhǎng)。所以蘋(píng)果Vision Pro的內(nèi)存以1T起步,而據(jù)了解從iPhone 15起,手機(jī)內(nèi)存將從256GB起步。
LiDAR空間檢測(cè)的內(nèi)容量增加也會(huì)對(duì)體三維視頻的內(nèi)容體積和算力帶來(lái)挑戰(zhàn)。在對(duì)話(huà)中,Jack推測(cè)蘋(píng)果的3D體三維視頻在錄制時(shí)可能會(huì)出現(xiàn)算力不足的問(wèn)題,從而影響畫(huà)質(zhì)和幀率。其舉例說(shuō)明,如果平面畫(huà)面的像素是4K,景深像素是1000pixel,相當(dāng)于要渲染1000層4K畫(huà)面,這對(duì)于算力的要求是指數(shù)級(jí)提升。因?yàn)樵隗w三維視頻中,每一層的深度信息都要渲染一次,LiDAR深度距離的渲染對(duì)算力有著非常大的需求,所以推測(cè)蘋(píng)果可能會(huì)將體三維視頻的像素進(jìn)行壓縮。
如果去掉LiDAR功能,單純用RGB攝像頭能否實(shí)現(xiàn)景深效果?
Jack認(rèn)為理論上可以做到這個(gè)效果,但攝像頭的距離限制取決于LiDAR。LiDAR可以測(cè)得5-15m距離,有了LiDAR,呈現(xiàn)出的景深效果質(zhì)感表現(xiàn)上會(huì)更好。
由此可知,蘋(píng)果在MR中實(shí)現(xiàn)的3D視頻形式主要是體三維視頻,而LiDAR在體三維視頻拍攝中的空間感知方面發(fā)揮著重要作用。它作為在體三維視頻中實(shí)現(xiàn)深度測(cè)量的工具,還能在未來(lái)的3D內(nèi)容生產(chǎn)中帶來(lái)革新,推測(cè)蘋(píng)果將針對(duì)3D拍攝方面帶來(lái)進(jìn)一步的優(yōu)化和突破。
結(jié)語(yǔ)
9月13日,蘋(píng)果即將召開(kāi)秋季新品發(fā)布會(huì),此次蘋(píng)果將帶來(lái)全新的iPhone 15,也有業(yè)內(nèi)人士稱(chēng),蘋(píng)果或?qū)⒃谑謾C(jī)端支持3D拍攝,也就是上文提到的體三維視頻拍攝的功能。
VR陀螺很早之前也提到了同樣的觀點(diǎn),而Jack也側(cè)面證明了基于手機(jī)傳感器的可行性,不過(guò),將手機(jī)作為輸入端可以大幅拓展內(nèi)容生產(chǎn)效率,畢竟無(wú)論是短視頻興起還是滴滴打車(chē)普及,都離不開(kāi)搭載了傳感器的終端設(shè)備的普世化。
蘋(píng)果的體三維視頻將照片以一種新的呈現(xiàn)方式展現(xiàn)出來(lái),刷新了人們對(duì)平面2D照片和視頻的固有認(rèn)知,3D視頻未來(lái)有望成為新的主流圖像顯示形式。
現(xiàn)階段人們?cè)谌粘I钪薪佑|到的信息已經(jīng)在從2D轉(zhuǎn)向3D,無(wú)論是藝術(shù)作品的3D化,游戲中對(duì)電影級(jí)3D資產(chǎn)的追求,還是影視作品在沉浸式音效和3D視效的提升等等,人們對(duì)有深度的、有沉浸感、有空間感的交互需求正在提升。
不管結(jié)論如何,發(fā)布會(huì)即將來(lái)臨。蘋(píng)果作為給3D視頻“下定義”的角色,是否真的有新的驚喜,VR陀螺也將持續(xù)關(guān)注。
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
版權(quán)申明:本文為VR陀螺原創(chuàng),任何第三方未經(jīng)授權(quán)不得轉(zhuǎn)載。如需轉(zhuǎn)載請(qǐng)聯(lián)系微信:vrtuoluo233 申請(qǐng)授權(quán),并在轉(zhuǎn)載時(shí)保留轉(zhuǎn)載來(lái)源、作者以及原文鏈接信息,不得擅自更改內(nèi)容,違規(guī)轉(zhuǎn)載法律必究。文中有圖片、視頻素材來(lái)自互聯(lián)網(wǎng)或無(wú)法核實(shí)出處,如涉及版權(quán)問(wèn)題,請(qǐng)聯(lián)系本網(wǎng)站協(xié)商處理。
元宇宙數(shù)字產(chǎn)業(yè)服務(wù)平臺(tái)
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息