本文來自微信公眾號:王智遠,作者:王智遠,頭圖來自:視覺中國
A16Z 兩位合伙人 Martin Casado 和 Eric Torenberg 對李飛飛進行一次深度訪談。
網上搜索,會看到片段式的觀點,整體比較跳躍,難以系統理解。因此,我吸收後,重新梳理脈絡,試圖彙報給關注空間智能、世界模型的朋友聽聽:
李飛飛到底在關注什麼?她創辦的新公司 World Labs,究竟想做什麼?這是否預示著 AI 發展的一個新方向?
一
很多人不知道這家公司,2024年,著名人工智慧專家、斯坦福大學教授李飛飛創辦了初創公司 World Labs;這家公司正在探索一個極具前瞻性的方向:開發具備「空間智能」的下一代 AI 系統。
短短三個月內,World Labs 完成兩輪融資,累計籌集資金約 2.3億美元,估值迅速突破 10億美元,成為 AI 領域最新的獨角獸企業。
投資方陣容也非常的強大,包括 a16z、Radical Ventures、NEA、英偉達 NVentures、AMD Ventures 和 Intel Capital 等科技與風投界的重量級玩家。
這些投資機構,國內市場有些你可能沒聽過,不過,不重要;關鍵是:李飛飛首次在這場 A16Z 的訪談中,公開講述了 World Labs 創立背後的理念構建、研究方向和她的宏大願景。
那麼,她到底說了什麼?首先,她回答了一個很尖銳的問題:AI 是否正在從語言模型邁向世界建模?
李飛飛說,是的。
自己不是特別迷戀大語言模型。因為自己以前做過法律工作,那段經歷讓她意識到:光靠說話和寫東西,很難真正理解這個世界。
但這並不意味著,語言模型不重要。
像 GPT、BERT 這些大模型取得的進步,反而讓她更加確信:我們正在走向一個更高級的 AI 階段:這個世界不再只是靠文字描述出來的,是可以被 AI 真正「看到」、「理解」和「重建」的三維空間。
她還引用了馬丁(Martin Casado) 一個觀點:
人類之所以聰明,不只是因為我們會說話,更重要的是我們會「看」,會「動」,會「操作」這個三維世界。
談到這裡,她舉例子說:
DNA 的結構(雙螺旋),是典型的三維結構。如果你只靠文字去想像它長什麼樣,根本想不明白,只有當你真的把它「建出來」,才能理解它的美和複雜性。
還有碳分子,那個富勒烯,長得像個足球一樣的結構,也得靠空間上的想像和建模才能搞清楚。
所以,語言模型雖然重要,但它是一個壓縮過的信息版本;遠遠不能代表真實世界的全貌。真正的智能,要能理解和構建這個三維世界才行。
二
既然這樣,我們不禁要問:世界模型為什麼這麼重要?
李飛飛說,很多人第一次聽到這個詞,覺得有點抽象、很高深。你可以把它理解成:AI 對現實世界的三維理解能力。
什麼意思呢?
就像我們人一樣,會說話、會思考,會看、會動、能感知這個世界的空間結構。
你看一張桌子,知道它是平的,知道上面有什麼東西,還能繞過去、搬起來、放東西上去……這些動作背後,是大腦在構建一個對這個世界的「模型」。
而所謂「世界模型」,是 AI 在嘗試做這件事:把視覺、空間感、動作等多個維度的信息結合起來,真正模擬出一個接近真實的世界。
她打了個特別形象的比方:
遊戲里的場景生成。遊戲設計師不會直接寫一段話告訴你「這裡有一座山、一條河、一座橋」,而會在遊戲引擎里把這些元素真的「建出來」,讓你可以走、可以跳、可以繞路。
AI 的世界模型,在試圖做類似的事:要「理解」它的形狀、位置、與其他物體的關係,甚至它的動態變化,並能預測和操作它。
接著她說了一個特別有意思的設想:
如果一個機器人只能看到二維畫面,那它就像是在一個紙片世界裡生活。它不知道前面的東西是近還是遠,也不知道自己能不能穿過那扇門;只有當它有了三維的理解,才能真正開始在這個世界中自由行動。
所以,世界模型並不僅是技術概念,它是在回答一個更根本的問題:AI 怎樣才能真正理解物理世界。
這也正是李飛飛強調的一點:
語言是高度壓縮的信息,但它丟失了很多細節。要還原真實世界,必須要有空間建模的能力;換句話說,世界模型,才是 AI 實現「通用智能」的關鍵一步。
說到這兒,她還分享了一個親身經歷:
五年前,角膜受傷,好幾個月失去了立體視覺。結果她發現,自己連開車都變得特別困難;明明知道自己車有多大、路邊的車停得多近,但就是判斷不了距離,不得不開得特別慢,生怕蹭到別人。
她說:那一刻才真正體會到,人類對世界的理解,是多麼依賴空間感;這也讓她更加確信,AI 如果沒有這種空間理解能力,那就永遠只能停留在「看得見」但「看不懂」的階段。
二
理論終究要落到實處。問題是,構建一個世界模型,要哪些技術?
李飛飛說,要讓 AI 真正理解、重構三維世界,是一個非常複雜的過程,目前來看,有幾個關鍵的技術方向正在被重點探索。
首先,是從二維圖像到三維重建的能力。
通俗點講,你給 AI 幾張照片,它能還原出一個立體的世界。比如,你從不同角度拍幾張桌子的照片,AI 就能推斷出這張桌子在空間里是怎麼擺放的,甚至能「補全」你看不到的那一面。
這項技術叫 NeRF,全稱是 Neural Radiance Fields,聽起來有點學術,你可以把它想像成一個「會魔法的相機」;它就像你在拼圖,給它幾塊碎片,它就能猜出整幅畫面是什麼樣子的。
有了這個還不夠。
NeRF 雖然重建得准,但它有個問題:計算量太大,運行起來很慢,不適合實時應用。於是,另一個技術就出現了,叫做高斯平面表示法。
什麼是高斯平面表示法(Gaussian Splatting)?
簡單講:把空間中的每一個點看作是一個個小圓球,然後通過小球的位置和顏色,來快速描繪出整個場景的樣子。
你可以想像一下,小時候玩的積木,每個積木都很小,但放在一起就能搭出一座房子。只不過這裡的「積木」,是可以自由變形、移動的小光點。
這個方法的好處是速度快,渲染效率高,特別適合用來做實時交互,比如遊戲、VR 或者機器人導航。
不過,這還不是全部。
還有一個特別火的技術,也在為世界模型提供支撐,那就是常聽說的擴散模型(Diffusion Models)。
擴散模型最開始用於圖像生成,比如你現在看到的很多 AI 繪畫工具,背後都有它的影子;但它的能力不止於此。它也可以幫助 AI 更好地理解和生成三維空間內容。
舉個例子:假如你有一張模糊不清的照片,擴散模型可以通過不斷「去噪」的方式,逐步還原出清晰的畫面。同樣的道理,它也能幫 AI 把一些粗糙的空間數據變得更精細、更真實。
當然,除了模型本身的技術突破之外,還有一點也很重要:多視角的數據融合。
也就是說,AI 不應該只靠一張照片或者一個鏡頭看世界,而是要像人一樣,能從多個角度觀察同一個物體,再綜合判斷它的形狀、位置和運動方式。
這就像,你站在房間的不同位置看一個杯子,每次看到的角度不一樣,但你的大腦會自動把這些信息整合起來,形成一個完整的認知。
AI 也要做到這一點,才能真正理解它所處的環境。所以你看,技術是在一步步地讓 AI 擁有類似人類的空間感知能力。
不過,這些都還是基礎能力。
如果我們想讓 AI 不僅看得見、建得出,還能預測這個世界的變化,那就還得引入另一個重要的方向:物理模擬與動態建模。
也就是說,不只是知道一個物體現在在哪裡,還要能推測它接下來會怎麼動,比如:風一吹樹葉會搖擺,門被推開之後會彈回來,或者一個球滾下樓梯時會發生什麼。
看似簡單的常識,對 AI 來說都是巨大的挑戰。
所以,構建一個世界模型,要多種方法協同工作,包括 NeRF、高斯表示法、擴散模型、多視角融合,以及物理建模等多個方向的共同推進。
聽完後,我才明白,原來 AI 要理解這個世界,得像人一樣,能從多個角度觀察、拼接信息、推理關係、預測變化,這背後是一整套複雜的技術組合拳。
三
既然 AI 已經開始理解三維世界,那能力能落地嗎?它現在已經使用了嗎?
李飛飛說:是的。應用場景遠比我們想像得多。
比如,遊戲行業;很多遊戲公司,不再靠程序員一行行寫代碼來建模場景了,直接讓 AI 根據幾張照片或者一段視頻,自動生成一個逼真的三維世界。
再比如建築行業。
以前設計師畫一張效果圖,可能要幾天時間來建模渲染,現在藉助世界模型的技術,AI 可以在幾分鐘內生成整個空間的立體結構,甚至還能模擬陽光從不同角度照進來時的效果。
還有機器人領域;如果一個機器人只有二維視覺,那就像是在一個紙片世界裡生活,根本不知道前面的東西是近還是遠,能不能穿過那扇門。
還有嗎?當然。
數字孿生,也在為現實世界建立一個虛擬劇本;一座工廠、一棟大樓,甚至是一座城市,都可以通過 AI 建立出一個對應的數字世界,用來做預測、測試和優化。
比如:我們可以先在這個虛擬世界裡模擬一場火災疏散,看看哪裡會出問題,然後再去現實中改進,而不是等到事情發生了才補救。
另外,她特別提到的方向是創意產業。
創造力本質上是視覺化的。很多藝術家、設計師、建築師的靈感,是來自於他們對空間的理解和想像,而當 AI 也能擁有這種能力時,它就不僅僅是工具,而是創作者的夥伴。
所以你看,應用不只是停留在技術論文里,它們正在悄悄地改變很多行業的運作方式;李飛飛也提到,這就像是一場新的生產力革命:
過去我們靠語言描述世界,現在我們能讓 AI 直接「看到」並「重建」這個世界。
四
看來世界模型應用前景比較廣闊,那離真正的廣泛應用還有多遠?目前還面臨哪些挑戰?李飛飛說,方向是對的,目前還有不少難題沒有解決。
關鍵有三點。第一是數據問題。
你要讓 AI 理解三維世界,它得看到足夠多的真實場景,還要有深度信息、空間結構、光照變化等等。
換句話說,AI 要「看懂」這個世界,前提是你得給它提供足夠清晰、足夠全面的「教材」。但現在這些數據要麼很難獲取,要麼成本太高。
其二,算力還是個大問題。
現在的很多技術,比如 NeRF 或者高斯表示法,效果不錯,但對計算資源的要求非常高;跑一個模型要花很長時間、要很貴的顯卡。這在實驗室里可以接受,但要大規模落地應用,顯然不太現實。
還有一個挑戰是泛化能力。什麼意思呢?
現在大多數 AI 模型只能在特定環境下工作得很好,一旦換到陌生的場景中,就容易「看不懂」、「認錯人」或者「走錯路」。
就像你訓練一隻狗只認紅色球,結果換了藍色球,它就不認識了一樣;AI 也一樣,它需要更強的適應性,才能真正走進千家萬戶。
另外,光靠某個厲害的演算法還不夠,得把硬體、軟體、數據、應用場景全都打通才行;這不是一個人、一家公司能完成的事,而是需要整個行業共同推動的一場變革。
所以,雖然世界模型的方向沒錯,前景也很誘人,但現在更像是剛起步的新手,離真正的成熟和廣泛應用,還有一段不短的路要走。
既然世界模型還在路上,那憑什麼你們(World Labs)能推動它往前走?
李飛飛說,要一個能融合多種能力的團隊,而這也是她創辦 World Labs 的初衷之一。
目前團隊成員來自五湖四海,包括計算機視覺專家、圖形學研究者、擴散模型開發者,還有做物理模擬和機器人控制的人才。
她還提到,AI 發展到現在,已經不是「單打獨鬥」就能突破的。過去是一個人寫出一個演算法就火了,現在要做世界模型這種系統工程,必須要有不同背景的人一起干。
她舉了個例子:
團隊里有一位叫 Manu 的研究人員,在 NeRF 和高斯表示法方面有很深的積累;另一位同事叫 Christophor,在擴散模型和生成式 AI 上也非常有經驗。
他們不是在複製別人做過的事,是在探索一條全新的路,這條路沒有現成的地圖,只有靠大家邊走邊畫。
也正是因為這樣,她更加確信:未來的 AI 研究範式,正在從「單一學科」走向「多學科融合」,從「個體英雄」走向「集體智慧」。
五
有這樣一個多元背景的團隊,也意味著在看待 AI 的方式上,會有更多元的視角。
李飛飛作為一個科學家、創業者,同時也曾經從事過法律工作,她也談到一些關於 AI 和人文之間的關係、AI 和教育之間的影響、以及它如何和法律、倫理這些社會系統一起演進的看法。
她說:在過去很長一段時間裡,大家一提到 AI,就想到技術本身,類似於怎麼訓練模型、怎麼提升準確率、怎麼優化演算法。
但其實,真正決定 AI 能走多遠、走多穩的,不只是技術,還有它和社會之間的關係。
拿教育來說:很多學校教 AI 的方式,還停留在「教學生怎麼寫代碼」、「怎麼調參」的階段。她認為,未來的 AI 教育,應該更注重培養學生的批判性思維和社會責任感。
因為 AI 不只是工具,它會影響人的決策、改變社會結構、甚至重塑就業形態。
因此,我們要培養的不只是會寫模型的人,更是能思考這個模型該不該被訓練、它的影響是什麼的人;換句話說,AI 教育不能只教「怎麼做」,還要教「為什麼做」和「應不應該做」。
對於法律方面,她認為:AI 正在越來越多地參與到現實世界的判斷中。比如:說招聘篩選、信用評估、甚至司法判決。那問題就來了:如果 AI 做出了錯誤的決定,誰來負責?
是開發者?使用者?還是 AI 本身?或許,我們必須提前為 AI 設計好規則邊界,否則等到出問題了再補救,可能就來不及了。
最後,她還談到一個特別有意思的點:很多人覺得 AI 是冷冰冰的數學和演算法,她覺得,AI是人類價值觀和技術能力的結合體;我們造出什麼樣的AI,反映的就是我們想成為什麼樣的社會。
所以,AI 發展到今天,它要哲學家、歷史學家、社會學者、教育者、立法者的共同參與。
既然AI是整個社會系統的一場變革,那我們忍不住要問:李飛飛眼中的「空間智能」和「世界模型」,最終會走向哪裡?對未來 AI 發展,又抱有什麼樣的願景?
她說,內心有很多很多想法,早在做計算機視覺研究的時候就埋下了種子。
那時候就在想:
如果有一天,AI 真的能理解這個三維世界,它會怎麼用這種能力?是僅僅用來玩遊戲、建地圖,還是可以做得更多?
她相信,未來AI 不只是「看得到」,還要「看得懂」;不只是「重建世界」,還要「參與世界」;不只是「執行任務」,還要「與人協作」。
換句話說:AI 終極目標,不是替代人類,而是成為人類在物理世界中的智能延伸。
她打了個比方:就像眼鏡讓我們看得更清楚,輪椅幫助我們移動得更遠,而 AI 將成為我們理解和操作這個世界的新工具。
比如:
醫療領域,AI 可以幫助醫生更準確地判斷手術路徑;在建築行業,它可以協助設計師快速搭建虛擬模型。
教育中,它可以成為一個能「走進去」的知識空間,讓學生真正「看到」分子結構、歷史場景、甚至宇宙演化;這不是科幻,而是正在發生的技術演進。
關於 AGI,她也提到一個很關鍵的觀點:
我們今天討論的世界模型,是未來通用人工智慧(AGI)的第一步;真正的 AGI,不只靠語言或文字來理解世界,而是要有空間感知、動態推理、交互能力和創造能力。
這些,才是世界模型所代表的方向。
所以,空間智能、世界模型,不僅是一場技術探索,更是一次關於人機關係、社會進步、以及未來生活方式的重新定義。
從語言到世界,從二維到三維,李飛飛所描繪一個 AI 更懂人、更貼近現實、更能與我們一起生活和工作的時代。
這一切,聽起來宏觀,實現起來難嗎?
從上往下看,確實不容易。如果我們換個角度,從下往上看呢?在中國,像位元組、騰訊、阿里、百度這些領先的企業,已經在嘗試給自己的 AI ToC 產品加上一雙眼睛。
當AI開了天眼之後,會不會倒逼空間智能的加速呢?換句話說,與其構建,不如先讓AI先讀懂世界,何嘗不是一種選擇?有意思的問題,我還在觀察。
你怎麼看?
資料參考:
[1]. a16z. (2025, June 4). How Fei-Fei Li is rebuilding AI for the real world ;YouTube:https://youtu.be/fQGu016AlVo?si=RRZe7RbVsjr3EPHF
本文來自微信公眾號:王智遠,作者:王智遠
本內容為作者獨立觀點,不代表虎嗅立場。未經允許不得轉載,授權事宜請聯繫 hezuo@huxiu.com
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4432422.html?f=jinritoutiao