文/VR陀螺 冉啟行
在眾多的 AI 創(chuàng)業(yè)公司中,“World Labs”可能是最特別的一個。
被譽為“AI 教母”的知名華裔計算機科學家李飛飛創(chuàng)立了一家名為 World Labs 的初創(chuàng)公司。近日,據(jù)英國《金融時報》消息,這家公司僅僅成立四個月,估值已超過 10 億美元。
World Labs 希望利用類似人類的視覺數(shù)據(jù)處理能力,使 AI 能夠進行高級推理,這項研究旨在使 AI 像人類一樣,類似于 ChatGPT 在生成式 AI 中所做的那樣。
李飛飛將其目前所研究的工作稱之為「空間智能」——值得注意的是,這與蘋果推出的「空間計算」設備 Vision Pro 在命名上有著異曲同工之妙,是商業(yè)策略上的巧合,還是技術(shù)演進的必然趨勢?基于李飛飛的過往履歷,TED 演講以及最新爆料,World Labs 極有可能引領一場新的 XR 技術(shù)革命。
「AI教母」李飛飛的傳奇履歷
“AI 教母”的傳奇履歷,是超級學霸,更是技術(shù)奠基先驅(qū)。
李飛飛,1976 年出生于中國,后隨父母移居美國,畢業(yè)于普林斯頓大學(學士)、加州理工學院(博士)。在校期間,堪稱學霸級別,成績十分優(yōu)異,在普林斯頓大學獲得了物理學學士學位(主修),并獲得應用和計算數(shù)學以及工程物理學證書,后在加州理工學院拿下電氣工程博士學位。
李飛飛以其在計算機視覺和人工智能領域的杰出貢獻而享譽全球。她最為人所知的成就之一,是創(chuàng)建了 ImageNet 數(shù)據(jù)庫,該項目花費數(shù)年時間整理了 1500 萬張圖像,極大地推動了 21 世紀 10 年代計算機視覺技術(shù)的迅猛發(fā)展。李飛飛的研究工作不僅在學術(shù)界產(chǎn)生了深遠影響,也為業(yè)界帶來了革命性的變革。
目前,李飛飛擔任斯坦福大學紅杉資本計算機科學教授。在斯坦福大學,她擔任人工智能研究所的聯(lián)席主任,同時也是視覺與學習實驗室的聯(lián)席主任,期間她引領了多項創(chuàng)新項目,為人工智能領域的理論與實踐做出了重要貢獻。當然,她也曾涉足商業(yè)巨頭,曾是 Twitter 董事會的一員,也曾在谷歌云擔任過人工智能/機器學習首席科學家兼副總裁。
2017 年,李飛飛與合作伙伴共同創(chuàng)立了 AI4ALL,這是一個致力于促進人工智能領域多樣性和包容性的非營利組織。該項目是與梅琳達·弗朗西絲·蓋茨(美國慈善家、比爾蓋茨前妻)和黃仁勛(NVIDIA 創(chuàng)始人)合作創(chuàng)建,進一步擴大了其在 AI 領域的影響力。
李飛飛的研究領域涵蓋了人工智能、機器學習、深度學習、計算機視覺以及認知神經(jīng)科學,她的工作橫跨多個學科,其研究成果主要發(fā)表于《自然》《美國國家科學院院刊》《神經(jīng)科學雜志》《國際計算機視覺會議》《歐洲計算機視覺會議》等知名期刊。
她在學術(shù)研究上取得了非常多顯著成果,還因其卓越的貢獻獲得了諸多榮譽,包括「國家級」的認可。李飛飛先后于 2020 年當選為美國國家工程院院士和美國國家醫(yī)學院院士,2021 年當選美國藝術(shù)與科學學院院士;2023 年,她還接受聯(lián)合國秘書長安東尼奧·古特雷斯的邀請,成為聯(lián)合國科學顧問委員會的成員;2023 年,她榮登《時代》雜志評選的年度 100 位人工智能最具影響力人物榜單,并在同一年內(nèi)榮獲英特爾終身成就創(chuàng)新獎,表彰她對人工智能領域做出的突出貢獻......
李飛飛在 AI 上的一系列貢獻和影響力,讓其被稱之為“AI 教母”,可謂當之無愧。此外,從李飛飛的過往履歷與研究涉及「計算機視覺」技術(shù)的范疇也非常之多,這是 AI 的一條重要分支,也為其在“大模型時代”創(chuàng)業(yè)(World Labs)奠定了基礎。
空間智能:理解與行動的三維世界AI大模型
與大多數(shù) AI 創(chuàng)業(yè)公司不同,World Labs 的「空間智能」大模型并非局限于簡單的文字、圖片和視頻的生成與交互。
“空間智能是人工智能拼圖中的重要一環(huán)。這是我 2024 年的 TED 演講,講述從進化到人工智能的歷程,以及我們?nèi)绾螛?gòu)建空間智能。視覺變成了洞察力,洞察力變成了理解力,理解力導致了行動,所有這些都產(chǎn)生了智能。”李飛飛在社交平臺上如此寫道。
在李飛飛看來,拍照并不等同于觀察和理解,并且僅僅觀察也是不夠的,觀察還要意味著行動和學習。當我們在三維空間和時間的世界中行動時,我們會不斷學習,學會更好地觀察和行動,而大自然創(chuàng)造了一個由“空間智能”驅(qū)動的良性循環(huán)。”
李飛飛在 TED 上曾表示:“我們在空間智能上取得了令人興奮的進展??臻g智能方面最近的里程碑是教會計算機看、學、做,并學會更好地看和做。這并不容易。大自然花了數(shù)百萬年的時間才進化出空間智能,它依賴于眼睛接收光線,將二維圖像投射到視網(wǎng)膜上,然后大腦將這些數(shù)據(jù)轉(zhuǎn)換成三維信息。”
她舉例說道:“谷歌的一組研究人員開發(fā)了一種算法,可以將一堆照片轉(zhuǎn)換成三維圖像。我的學生和合作者更進一步,創(chuàng)建了一種可以從單個輸入圖像生成 3D 形狀的算法?;叵胍幌?,我們討論過可以將人類語言轉(zhuǎn)換成視頻的計算機程序,密歇根大學的一組研究人員找到了一種將文字轉(zhuǎn)換成三維空間的方法。而我在斯坦福大學的同事和他們的學生已經(jīng)開發(fā)出一種算法,可以從一張圖像中生成無限數(shù)量的可能空間供觀眾探索。”
李飛飛的演講也透露了她的 AI 創(chuàng)業(yè)方向——即「空間智能」,正如 World Labs 這個品牌名字一樣,這是關(guān)于三維世界的 AI 大模型的研究實驗。而在四個月后的《金融時報》中,一位知情的 VC 人士也表示:“World Labs 正在開發(fā)一種能夠理解三維物理世界的模型,本質(zhì)上是物體的尺寸、位置和功能。”
這實際上關(guān)乎的是一種先進的算法能力,它能夠?qū)D像和文本信息精準地映射至三維空間,并據(jù)此做出相應的行動決策。筆者堅信,這一大型模型所帶來的影響,遠不止于對生成式 AI 產(chǎn)出的圖片與視頻內(nèi)容進行“物體空間”層面的優(yōu)化調(diào)整。
更為重要的是,它可能還預示著一場革命性的躍升,尤其是在那些深度依賴“計算機視覺”技術(shù)的領域,如機器人的智能化、自動駕駛技術(shù)的精進,以及 XR 設備交互效能的提升。這些領域都將因這一技術(shù)的「AI大模型化」而獲得更為深刻的識別、理解與行動力。
CV:XR硬件中最能「差異化」的技術(shù)
讓每臺 XR 設備的 CV 算法都能“Vision Pro”化?
計算機視覺(Computer Vision,簡稱CV)是指使用機器學習來處理、分析和理解現(xiàn)實世界中的數(shù)字圖像或視頻,從而得出有意義的決策并據(jù)此采取行動。簡而言之,計算機視覺使機器能夠像人類一樣識別和理解世界。
CV 技術(shù)在 XR 中應用廣泛,推動了早期設備在交互能力上的多元化,并且降低了設備使用門檻和成本。如早期使用激光定位技術(shù)的 HTC VIVE 頭顯,不僅頭顯成本高,基站的部署也十分麻煩,使用成本較高;而在采用基于 CV 的光學定位技術(shù)之后,大大降低了整機成本以及使用門檻。
通常帶有一個或多個攝像頭模組,或擁有 6DoF 、手眼交互能力的 VR/AR 設備,幾乎都用到了計算機視覺技術(shù),代表產(chǎn)品包括 Apple Vision Pro、Quest 3、Magic Leap 2、HoloLens 2、PICO 4 系列、雷鳥 X2 等。當然,由于各家 CV 算法存在一定差異,交互方式與邏輯上也因各種專利限制,所以最終體驗也不大相同。
目前的 XR 設備中,CV 扮演著人機交互核心的角色,直接影響用戶到用戶的近眼顯示綜合體驗,它的關(guān)鍵應用包括:
第一,同步定位與地圖構(gòu)建(SLAM):SLAM 技術(shù)使得 XR 設備能夠在未知環(huán)境中實時構(gòu)建地圖,同時確定自身在該環(huán)境中的位置。這是 XR 技術(shù)能夠提供無縫體驗的關(guān)鍵所在。SLAM 確保了 XR 虛擬內(nèi)容在現(xiàn)實世界中的精確放置,即使在設備或用戶移動時也能維持穩(wěn)定的空間關(guān)系。
在以往的 VR 體驗中,如 Quest、PICO 等產(chǎn)品在開機后常常要求我們繪制安全邊界,而此過程中,虛擬地圖也會與現(xiàn)實世界地圖進行貼合,通常誤差越小,越能增強用戶沉浸式體驗,減少暈動癥的產(chǎn)生,這是該技術(shù)在 XR 中的一項基礎性應用。
第二,物體檢測與識別: CV 技術(shù)能夠分析和解讀視覺數(shù)據(jù),識別出場景中的特定物體。這在 XR 應用中尤為重要,因為它允許虛擬內(nèi)容與現(xiàn)實世界的物體進行智能交互。同樣以 Quest 的安全邊界劃定舉例,CV 可以幫助識別邊界內(nèi)周圍的家具,從而提醒用戶,避免用戶在游戲時與實際障礙物發(fā)生沖突。
第三,物體跟蹤:物體跟蹤是 CV 的另一個重要功能,它不僅限于靜態(tài)物體,還涉及對運動中的物體進行持續(xù)監(jiān)測。在 XR 環(huán)境中,物體跟蹤有助于理解物體的動態(tài)變化,如位置、方向和速度。這對于多人互動游戲尤其重要,其中每個參與者的動作都需要被準確捕捉和反映,以保持游戲的流暢性和真實性。
第四,手勢和面部識別:CV 在 XR 中的另一個重要應用是對手勢和面部表情的識別。這使得用戶可以通過自然的動作與虛擬環(huán)境互動,而無需物理控制器。例如,用戶可以通過點頭或揮手來控制 AR 應用,或者通過面部表情來調(diào)整虛擬角色的反應。
第五,環(huán)境理解:CV 技術(shù)幫助AR設備理解其所在的空間結(jié)構(gòu),包括墻壁、地面和天花板的位置。這使得虛擬內(nèi)容可以適應環(huán)境的三維布局,從而創(chuàng)造出更加逼真的體驗。
目前,Vision Pro 的交互算法毋庸置疑,無論是 SLAM、手勢、眼動或是其他,都屬業(yè)內(nèi)一絕。而在「空間智能」的加持下,其他 XR 硬件設備或能彌補這一算法上的差距,讓每臺 XR 設備的 CV 算法都能“Vision Pro”化。
此外,定位輕薄的 AR 智能眼鏡或許也能在「空間智能」的賦能下,通過單目 SLAM 技術(shù)實現(xiàn)更好的三維感知。傳統(tǒng)的單目 SLAM 技術(shù)僅依靠一個攝像頭來感知環(huán)境,往往難以獲取全面且深度的物理世界信息,這限制了AR 眼鏡在復雜場景下的表現(xiàn)力和交互精度。
屆時,交互整體性能上去了,傳感算法研發(fā)成本下去了,既會是 XR 技術(shù)的革新時代,也會是 XR 的從千萬臺向上進一步突破的歷史性一刻。
投稿/爆料:tougao@youxituoluo.com
稿件/商務合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
版權(quán)申明:本文為VR陀螺原創(chuàng),任何第三方未經(jīng)授權(quán)不得轉(zhuǎn)載。如需轉(zhuǎn)載請聯(lián)系微信:vrtuoluo233 申請授權(quán),并在轉(zhuǎn)載時保留轉(zhuǎn)載來源、作者以及原文鏈接信息,不得擅自更改內(nèi)容,違規(guī)轉(zhuǎn)載法律必究。文中有圖片、視頻素材來自互聯(lián)網(wǎng)或無法核實出處,如涉及版權(quán)問題,請聯(lián)系本網(wǎng)站協(xié)商處理。
元宇宙數(shù)字產(chǎn)業(yè)服務平臺
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息