游戲評測

推廣

AI教母的「空間智能」，或掀起XR第一次大模型技術(shù)革命

發(fā)布時間：2024-07-30 09:45 | 標簽： AI 計算機視覺李飛飛 World Labs 空間智能

微信掃一掃：分享

微信里點“發(fā)現(xiàn)”，掃一下
二維碼便可將本文分享至朋友圈

文/VR陀螺冉啟行

在眾多的 AI 創(chuàng)業(yè)公司中，“World Labs”可能是最特別的一個。

被譽為“AI 教母”的知名華裔計算機科學家李飛飛創(chuàng)立了一家名為 World Labs 的初創(chuàng)公司。近日，據(jù)英國《金融時報》消息，這家公司僅僅成立四個月，估值已超過 10 億美元。

World Labs 希望利用類似人類的視覺數(shù)據(jù)處理能力，使 AI 能夠進行高級推理，這項研究旨在使 AI 像人類一樣，類似于 ChatGPT 在生成式 AI 中所做的那樣。

李飛飛將其目前所研究的工作稱之為「空間智能」——值得注意的是，這與蘋果推出的「空間計算」設備 Vision Pro 在命名上有著異曲同工之妙，是商業(yè)策略上的巧合，還是技術(shù)演進的必然趨勢？基于李飛飛的過往履歷，TED 演講以及最新爆料，World Labs 極有可能引領一場新的 XR 技術(shù)革命。

「AI教母」李飛飛的傳奇履歷

“AI 教母”的傳奇履歷，是超級學霸，更是技術(shù)奠基先驅(qū)。

李飛飛，1976 年出生于中國，后隨父母移居美國，畢業(yè)于普林斯頓大學（學士）、加州理工學院（博士）。在校期間，堪稱學霸級別，成績十分優(yōu)異，在普林斯頓大學獲得了物理學學士學位（主修），并獲得應用和計算數(shù)學以及工程物理學證書，后在加州理工學院拿下電氣工程博士學位。

李飛飛以其在計算機視覺和人工智能領域的杰出貢獻而享譽全球。她最為人所知的成就之一，是創(chuàng)建了 ImageNet 數(shù)據(jù)庫，該項目花費數(shù)年時間整理了 1500 萬張圖像，極大地推動了 21 世紀 10 年代計算機視覺技術(shù)的迅猛發(fā)展。李飛飛的研究工作不僅在學術(shù)界產(chǎn)生了深遠影響，也為業(yè)界帶來了革命性的變革。

目前，李飛飛擔任斯坦福大學紅杉資本計算機科學教授。在斯坦福大學，她擔任人工智能研究所的聯(lián)席主任，同時也是視覺與學習實驗室的聯(lián)席主任，期間她引領了多項創(chuàng)新項目，為人工智能領域的理論與實踐做出了重要貢獻。當然，她也曾涉足商業(yè)巨頭，曾是 Twitter 董事會的一員，也曾在谷歌云擔任過人工智能/機器學習首席科學家兼副總裁。

2017 年，李飛飛與合作伙伴共同創(chuàng)立了 AI4ALL，這是一個致力于促進人工智能領域多樣性和包容性的非營利組織。該項目是與梅琳達·弗朗西絲·蓋茨（美國慈善家、比爾蓋茨前妻）和黃仁勛（NVIDIA 創(chuàng)始人）合作創(chuàng)建，進一步擴大了其在 AI 領域的影響力。

李飛飛的研究領域涵蓋了人工智能、機器學習、深度學習、計算機視覺以及認知神經(jīng)科學，她的工作橫跨多個學科，其研究成果主要發(fā)表于《自然》《美國國家科學院院刊》《神經(jīng)科學雜志》《國際計算機視覺會議》《歐洲計算機視覺會議》等知名期刊。

她在學術(shù)研究上取得了非常多顯著成果，還因其卓越的貢獻獲得了諸多榮譽，包括「國家級」的認可。李飛飛先后于 2020 年當選為美國國家工程院院士和美國國家醫(yī)學院院士，2021 年當選美國藝術(shù)與科學學院院士；2023 年，她還接受聯(lián)合國秘書長安東尼奧·古特雷斯的邀請，成為聯(lián)合國科學顧問委員會的成員；2023 年，她榮登《時代》雜志評選的年度 100 位人工智能最具影響力人物榜單，并在同一年內(nèi)榮獲英特爾終身成就創(chuàng)新獎，表彰她對人工智能領域做出的突出貢獻......

李飛飛在 AI 上的一系列貢獻和影響力，讓其被稱之為“AI 教母”，可謂當之無愧。此外，從李飛飛的過往履歷與研究涉及「計算機視覺」技術(shù)的范疇也非常之多，這是 AI 的一條重要分支，也為其在“大模型時代”創(chuàng)業(yè)（World Labs）奠定了基礎。

空間智能：理解與行動的三維世界AI大模型

與大多數(shù) AI 創(chuàng)業(yè)公司不同，World Labs 的「空間智能」大模型并非局限于簡單的文字、圖片和視頻的生成與交互。

“空間智能是人工智能拼圖中的重要一環(huán)。這是我 2024 年的 TED 演講，講述從進化到人工智能的歷程，以及我們?nèi)绾螛?gòu)建空間智能。視覺變成了洞察力，洞察力變成了理解力，理解力導致了行動，所有這些都產(chǎn)生了智能。”李飛飛在社交平臺上如此寫道。

在李飛飛看來，拍照并不等同于觀察和理解，并且僅僅觀察也是不夠的，觀察還要意味著行動和學習。當我們在三維空間和時間的世界中行動時，我們會不斷學習，學會更好地觀察和行動，而大自然創(chuàng)造了一個由“空間智能”驅(qū)動的良性循環(huán)。”

李飛飛在 TED 上曾表示：“我們在空間智能上取得了令人興奮的進展?？臻g智能方面最近的里程碑是教會計算機看、學、做，并學會更好地看和做。這并不容易。大自然花了數(shù)百萬年的時間才進化出空間智能，它依賴于眼睛接收光線，將二維圖像投射到視網(wǎng)膜上，然后大腦將這些數(shù)據(jù)轉(zhuǎn)換成三維信息。”

她舉例說道：“谷歌的一組研究人員開發(fā)了一種算法，可以將一堆照片轉(zhuǎn)換成三維圖像。我的學生和合作者更進一步，創(chuàng)建了一種可以從單個輸入圖像生成 3D 形狀的算法?；叵胍幌?，我們討論過可以將人類語言轉(zhuǎn)換成視頻的計算機程序，密歇根大學的一組研究人員找到了一種將文字轉(zhuǎn)換成三維空間的方法。而我在斯坦福大學的同事和他們的學生已經(jīng)開發(fā)出一種算法，可以從一張圖像中生成無限數(shù)量的可能空間供觀眾探索。”

李飛飛的演講也透露了她的 AI 創(chuàng)業(yè)方向——即「空間智能」，正如 World Labs 這個品牌名字一樣，這是關(guān)于三維世界的 AI 大模型的研究實驗。而在四個月后的《金融時報》中，一位知情的 VC 人士也表示：“World Labs 正在開發(fā)一種能夠理解三維物理世界的模型，本質(zhì)上是物體的尺寸、位置和功能。”

這實際上關(guān)乎的是一種先進的算法能力，它能夠?qū)D像和文本信息精準地映射至三維空間，并據(jù)此做出相應的行動決策。筆者堅信，這一大型模型所帶來的影響，遠不止于對生成式 AI 產(chǎn)出的圖片與視頻內(nèi)容進行“物體空間”層面的優(yōu)化調(diào)整。

更為重要的是，它可能還預示著一場革命性的躍升，尤其是在那些深度依賴“計算機視覺”技術(shù)的領域，如機器人的智能化、自動駕駛技術(shù)的精進，以及 XR 設備交互效能的提升。這些領域都將因這一技術(shù)的「AI大模型化」而獲得更為深刻的識別、理解與行動力。

CV：XR硬件中最能「差異化」的技術(shù)

讓每臺 XR 設備的 CV 算法都能“Vision Pro”化？

計算機視覺（Computer Vision，簡稱CV）是指使用機器學習來處理、分析和理解現(xiàn)實世界中的數(shù)字圖像或視頻，從而得出有意義的決策并據(jù)此采取行動。簡而言之，計算機視覺使機器能夠像人類一樣識別和理解世界。

CV 技術(shù)在 XR 中應用廣泛，推動了早期設備在交互能力上的多元化，并且降低了設備使用門檻和成本。如早期使用激光定位技術(shù)的 HTC VIVE 頭顯，不僅頭顯成本高，基站的部署也十分麻煩，使用成本較高；而在采用基于 CV 的光學定位技術(shù)之后，大大降低了整機成本以及使用門檻。

通常帶有一個或多個攝像頭模組，或擁有 6DoF 、手眼交互能力的 VR/AR 設備，幾乎都用到了計算機視覺技術(shù)，代表產(chǎn)品包括 Apple Vision Pro、Quest 3、Magic Leap 2、HoloLens 2、PICO 4 系列、雷鳥 X2 等。當然，由于各家 CV 算法存在一定差異，交互方式與邏輯上也因各種專利限制，所以最終體驗也不大相同。

目前的 XR 設備中，CV 扮演著人機交互核心的角色，直接影響用戶到用戶的近眼顯示綜合體驗，它的關(guān)鍵應用包括：

第一，同步定位與地圖構(gòu)建（SLAM）：SLAM 技術(shù)使得 XR 設備能夠在未知環(huán)境中實時構(gòu)建地圖，同時確定自身在該環(huán)境中的位置。這是 XR 技術(shù)能夠提供無縫體驗的關(guān)鍵所在。SLAM 確保了 XR 虛擬內(nèi)容在現(xiàn)實世界中的精確放置，即使在設備或用戶移動時也能維持穩(wěn)定的空間關(guān)系。

在以往的 VR 體驗中，如 Quest、PICO 等產(chǎn)品在開機后常常要求我們繪制安全邊界，而此過程中，虛擬地圖也會與現(xiàn)實世界地圖進行貼合，通常誤差越小，越能增強用戶沉浸式體驗，減少暈動癥的產(chǎn)生，這是該技術(shù)在 XR 中的一項基礎性應用。

第二，物體檢測與識別： CV 技術(shù)能夠分析和解讀視覺數(shù)據(jù)，識別出場景中的特定物體。這在 XR 應用中尤為重要，因為它允許虛擬內(nèi)容與現(xiàn)實世界的物體進行智能交互。同樣以 Quest 的安全邊界劃定舉例，CV 可以幫助識別邊界內(nèi)周圍的家具，從而提醒用戶，避免用戶在游戲時與實際障礙物發(fā)生沖突。

第三，物體跟蹤：物體跟蹤是 CV 的另一個重要功能，它不僅限于靜態(tài)物體，還涉及對運動中的物體進行持續(xù)監(jiān)測。在 XR 環(huán)境中，物體跟蹤有助于理解物體的動態(tài)變化，如位置、方向和速度。這對于多人互動游戲尤其重要，其中每個參與者的動作都需要被準確捕捉和反映，以保持游戲的流暢性和真實性。

第四，手勢和面部識別：CV 在 XR 中的另一個重要應用是對手勢和面部表情的識別。這使得用戶可以通過自然的動作與虛擬環(huán)境互動，而無需物理控制器。例如，用戶可以通過點頭或揮手來控制 AR 應用，或者通過面部表情來調(diào)整虛擬角色的反應。

第五，環(huán)境理解：CV 技術(shù)幫助AR設備理解其所在的空間結(jié)構(gòu)，包括墻壁、地面和天花板的位置。這使得虛擬內(nèi)容可以適應環(huán)境的三維布局，從而創(chuàng)造出更加逼真的體驗。

目前，Vision Pro 的交互算法毋庸置疑，無論是 SLAM、手勢、眼動或是其他，都屬業(yè)內(nèi)一絕。而在「空間智能」的加持下，其他 XR 硬件設備或能彌補這一算法上的差距，讓每臺 XR 設備的 CV 算法都能“Vision Pro”化。

此外，定位輕薄的 AR 智能眼鏡或許也能在「空間智能」的賦能下，通過單目 SLAM 技術(shù)實現(xiàn)更好的三維感知。傳統(tǒng)的單目 SLAM 技術(shù)僅依靠一個攝像頭來感知環(huán)境，往往難以獲取全面且深度的物理世界信息，這限制了AR 眼鏡在復雜場景下的表現(xiàn)力和交互精度。

屆時，交互整體性能上去了，傳感算法研發(fā)成本下去了，既會是 XR 技術(shù)的革新時代，也會是 XR 的從千萬臺向上進一步突破的歷史性一刻。

投稿/爆料：tougao@youxituoluo.com

稿件/商務合作：六六（微信 13138755620）

加入行業(yè)交流群：六六（微信 13138755620）

版權(quán)申明：本文為VR陀螺原創(chuàng)，任何第三方未經(jīng)授權(quán)不得轉(zhuǎn)載。如需轉(zhuǎn)載請聯(lián)系微信：vrtuoluo233 申請授權(quán)，并在轉(zhuǎn)載時保留轉(zhuǎn)載來源、作者以及原文鏈接信息，不得擅自更改內(nèi)容，違規(guī)轉(zhuǎn)載法律必究。文中有圖片、視頻素材來自互聯(lián)網(wǎng)或無法核實出處，如涉及版權(quán)問題，請聯(lián)系本網(wǎng)站協(xié)商處理。