文/VR陀螺
Sora 的問世,將接近尾聲的春節(jié)假期推向高潮,讓互聯(lián)網(wǎng)的帕魯們提前進(jìn)入“工作狀態(tài)”。
當(dāng)?shù)貢r間 2 月 16 日,OpenAI 宣布推出首個文生視頻大模型——Sora,該模型可以“根據(jù)文本指令創(chuàng)建逼真且富有想象力的場景”,并且最長可達(dá)一分鐘。
Prompt:一位時尚女性走在充滿溫暖霓虹燈和動畫城市標(biāo)牌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子,拎著黑色錢包。她戴著太陽鏡,涂著紅色口紅,她走路自信又隨意。街道潮濕且反光,在彩色燈光的照射下形成鏡面效果,許多行人走來走去。
圖源:網(wǎng)絡(luò)
在官方展示的宣傳視頻中,很難想象這是 AI 大模型生成的效果,如此極具時尚風(fēng)格的人物、光影交錯的街道背景,熙熙攘攘的行人,仿佛從大制作的電影中走出來一般。
圍繞 Sora 的話題討論不絕,在其生成內(nèi)容的基礎(chǔ)上,有 github 網(wǎng)友@AndrewMayne 將 OpenAI 案例視頻轉(zhuǎn)化成了適用 Vision Pro 的空間視頻。
github 視頻下載地址:https://github.com/AndrewMayneProjects/Spatial
通過雙目視差轉(zhuǎn)換,用Sora彌補(bǔ)空間視頻空白
AndrewMayne 創(chuàng)建了兩個視頻軌道,一個用于左眼,一個用于右眼,并根據(jù)視頻移動的方向稍微改變了軌道的時間。這會創(chuàng)建模擬立體 3D 效果,并且僅適用于存在橫向運動的視頻。
為了將視頻轉(zhuǎn)換為適用于 Vision Pro 的 Apple Spatial 視頻格式,其使用了 Mike Swansons 的空間視頻轉(zhuǎn)換工具( https: //blog.mikeswanson.com/spatial)
據(jù)介紹,Spatial 是一款免費的 macOS 命令行工具,用于處理 MV-HEVC 視頻文件(目前由 iPhone 15 Pro 和 Apple Vision Pro 拍攝形成)。它將 MV-HEVC 文件導(dǎo)出為常見立體格式(例如上/下、左右以及單獨的左眼和右眼視頻),可與標(biāo)準(zhǔn)立體/3D 播放器和視頻編輯器一起使用。它還可以制作相同立體格式的 MV-HEVC 視頻,以便在 Apple Vision Pro 和 Meta Quest 等 XR 硬件設(shè)備上播放。
圖源:網(wǎng)絡(luò)
在 Apple Vision Pro 上的實際體驗也相當(dāng)不錯,雙目視差帶來的立體感,在海浪的沖擊中帶來更加身臨其境的體驗。在不追求非常細(xì)致的視覺效果下,憑借批量化、高效率的 Sora 生成的 AI 視頻可以有效填補(bǔ)空間視頻的空白市場。
目前,在大多數(shù)體驗 Apple Vision Pro 的用戶中,公認(rèn)的最熱門,甚至說是殺手級應(yīng)用,其實是附帶 3D 深度效果的“空間視頻”。比如:蘋果一方應(yīng)用:《遇見恐龍》(Encounter Dinosaurs) ,3D 深度內(nèi)容+混合現(xiàn)實的場景,帶來了一聲聲“哇哦”。這種區(qū)別于傳統(tǒng)文字、圖片、視頻的新內(nèi)容形式,正在得到大家喜愛。
空間視頻體驗截圖(圖源:VR陀螺)
目前,Sora 的 AI 生成視頻還處于較為早期的階段。OpenAI 也承認(rèn)當(dāng)前模型存在弱點,例如混淆左右或因果等空間細(xì)節(jié)。例如,一個人可能咬了一口餅干,但之后餅干可能沒有咬痕。在擴(kuò)展普通左右視差的空間視頻方面,理論上僅僅只是時間問題。
對于三維信息的視頻內(nèi)容,OpenAI 在官網(wǎng)的 Sora 中也有相關(guān)的介紹:
我們發(fā)現(xiàn),視頻模型在大規(guī)模訓(xùn)練時表現(xiàn)出許多有趣的新興功能。這些功能使 Sora 能夠模擬現(xiàn)實世界中人、動物和環(huán)境的某些方面。這些屬性的出現(xiàn)對 3D、物體等沒有任何明確的歸納偏差——它們純粹是尺度現(xiàn)象。其中包括:3D 一致性。Sora 可以生成帶有動態(tài)攝像機(jī)運動的視頻。隨著攝像機(jī)的移動和旋轉(zhuǎn),人和場景元素在三維空間中一致移動。
事實上,這種類似于第一人稱的拍攝手法,可以帶來更深層次的“空間感”,即使在轉(zhuǎn)換空間視頻之前的 2D 視頻,依舊擁有一定沉浸感。
iPhone、Vision Pro、AIGC,誰是空間視頻最佳工具?
雖然 Sora 生成的 AI 視頻通過轉(zhuǎn)換后可適用于 Vision Pro,不過仔細(xì)對比之下,可以發(fā)現(xiàn)其于蘋果官方支持的拍攝工具之間,還是存在些許差異。
分辨率方面:Vision Pro 與 iPhone 15 Pro 拍攝的空間視頻為特定分辨率,分別為 2200×2200(方屏)、1920×1080(寬屏),而 Sora 可以采樣寬屏 1920x1080p 視頻、垂直 1080x1920 視頻以及介于兩者之間的所有視頻。
幀率方面:可以發(fā)現(xiàn)蘋果官方拍攝的兩種工具的空間視頻皆為動態(tài)幀率(VFR),即擁有最低幀率與最高幀率。用 iPhone 拍攝的普通 HDR 視頻,以及 Sora 轉(zhuǎn)換后的空間視頻都是恒定幀率(CFR)。
相關(guān)資料顯示:靜態(tài)幀率是指固定的幀率,即每秒顯示的圖像幀數(shù)。這意味著在每一幀之間的時間間隔是固定的,并且不會隨著畫面的復(fù)雜度和性能的變化而變化。動態(tài)幀率則相反,它是可變的。它根據(jù)畫面的復(fù)雜度和當(dāng)前的硬件配置進(jìn)行調(diào)整,以確保每秒顯示的幀數(shù)始終保持在一個可接受的范圍內(nèi)。動態(tài)幀率可以提高視頻的流暢度,減少視頻的文件大小和傳輸帶寬要求。
當(dāng)然,即使空間視頻采用動態(tài)幀率,因為深度信息等原因,內(nèi)存占用方面依舊對比普通視頻多兩倍左右。
圖源:VR陀螺
視差體驗方面:參考 reddit 部分用戶,以及陀螺君的實際體驗來看,Vision Pro 拍攝的空間視頻似乎更具“空間感”。
除上述圖片對比中的基礎(chǔ)信息外,有觀點認(rèn)為這還與拍攝設(shè)備的兩顆鏡頭距離相關(guān)。
iPhone 15 Pro 的鏡頭間距約為 20 毫米,僅為成人瞳距的三分之一左右。因此,理論上使用 iPhone 15 Pro 拍攝的空間視頻,只能獲得與小狗類似的視差和深度感知。(不排除蘋果通過算法改善,以形成更大視差的空間視頻)
而 Vision Pro 的攝像頭間距更接近成人 IPD,可能約為 60-65 毫米,因此事物將具有與成人現(xiàn)實生活相似的深度和視角。再加之頭戴式“第一人稱”拍攝視角,在實際觀看中,也就更加身臨其境了。
圖源:網(wǎng)絡(luò)
單從空間視頻相關(guān)參數(shù)、以及實際觀影 3D 深度、清晰度效果來看,作為原生工具的 Vision Pro 顯然更勝一籌。雖是方形,但是其視覺深度效果好于 iPhone 15 Pro 拍攝與 Sora 等普通視頻轉(zhuǎn)換后的空間視頻,似乎相比之下,層次感更多一些(僅肉眼感知)。
而 iPhone 15 Pro 的優(yōu)勢則主要體現(xiàn)在其便攜性上,隨時隨地可以拍攝空間視頻。實際在 Vision Pro 上觀看的沉浸感效果與清晰度也相當(dāng)不錯,遠(yuǎn)遠(yuǎn)大于在手機(jī)上直接觀看的形式,層次感也比較分明。并且通過 AirDrop 還能一鍵投送到 Vision Pro 上,傳輸方式暴力簡單。
Sora 等 AI 大模型生成的視頻、普通視頻通過轉(zhuǎn)換后,雖然也有一定層次與深度感,但在實際觀看時,總有一種說不出的違和感,就像是你在看 3D 電影那樣,有一定沉浸感,但放大后并不是很特別清晰與沉浸。當(dāng)然,這可能取決于不同的視頻內(nèi)容,它們會產(chǎn)生不同的觀感。正如前面說到的第一人稱視角那樣,也許更適合做空間視頻。AI 大模型生成視頻,是一個大趨勢,特別是在市場空白的空間視頻上,AI 使之能夠具備量產(chǎn)化、定制化、低門檻的賦能。
P.s.:由于空間視頻在 2D 平面上較難展示三維信息,所以下方圖片僅供參考,用于展示三種形式拍攝的視頻在 Vision Pro 上的播放:
Vision Pro拍攝的空間視頻截圖(圖源:VR陀螺)
iPhone 15 Pro拍攝的空間視頻截圖(圖源:VR陀螺)
Sora 生成視頻空間版(圖源:VR陀螺)
結(jié)語
時代變革的鐘聲,似乎已經(jīng)敲響。
Apple Vision Pro 帶來了空間計算革命的全新愿景,將人們的現(xiàn)實體驗提升到了一個全新的層次。通過結(jié)合 3D 空間場景與混合現(xiàn)實的內(nèi)容展示形式,它不斷地挑戰(zhàn)和刷新人們對于視覺認(rèn)知的界限。
從生成式人工智能文字對話工具 ChatGPT、圖像生成器 DALL-E,到視頻生成的王炸 Sora,OpenAI 正在重塑互聯(lián)網(wǎng)內(nèi)容生產(chǎn)形式。
硬件+內(nèi)容之間變革,正在加速走向交融的十字路口。
參考來源:
https://zhuanlan.zhihu.com/p/648353681
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
版權(quán)申明:本文為VR陀螺原創(chuàng),任何第三方未經(jīng)授權(quán)不得轉(zhuǎn)載。如需轉(zhuǎn)載請聯(lián)系微信:vrtuoluo233 申請授權(quán),并在轉(zhuǎn)載時保留轉(zhuǎn)載來源、作者以及原文鏈接信息,不得擅自更改內(nèi)容,違規(guī)轉(zhuǎn)載法律必究。文中有圖片、視頻素材來自互聯(lián)網(wǎng)或無法核實出處,如涉及版權(quán)問題,請聯(lián)系本網(wǎng)站協(xié)商處理。
元宇宙數(shù)字產(chǎn)業(yè)服務(wù)平臺
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息