當AI開始“理解”空間:世界模型能否重新定義AI的未來?

2025年11月13日17:30:18 科學 5037

文 | 山自

在位於斯坦福大學附近的world labs實驗室內,李飛飛團隊展示了這個令人驚訝的演示。“現在的ai系統能識別圖像、生成文本,但它們不理解世界是如何運作的,”這位ai領域的先驅者解釋道,“如果一個機器人無法預測杯子從桌上掉下會發生什麼,它就無法在真實世界中有效工作。”

11月12日,李飛飛創立的world labs公司正式推出了其首款商用產品——世界模型marble,引發了ai界的地震。這是世界模型競賽中的一次重大加速,也可能是通向更通用人工智能的關鍵一步。

從識別到理解:世界模型為何成為ai聖杯?

在世界模型的學術論文中,有一個經典例子:當一個人類孩子看到積木塔被推倒,他不僅能描述眼前發生的現象,還能預測類似情況在其他物體上的結果——比如沙堡被踢倒,或者多米諾骨牌被推倒。

這種將物理規則抽象化、泛化的能力,正是當前ai系統所缺乏的。

深度學習在過去十年取得了驚人進步,但大多數系統仍停留在‘模式識別’層面,”一位國內ai實驗室負責人評價道,“它們可以識別貓、生成圖片,但並不真正理解貓有體積、有重量,會受到重力影響。”

世界模型的概念並非全新。早在2018年,deepmind就提出了類似構想,將其描述為“一種能夠理解環境動態並預測未來的模型”。但直到最近,隨着算力增長和理論突破,這一概念才從學術論文走向商業應用。

李飛飛在採訪中闡述了她的願景:“人類通過內心模擬來理解世界。當你看到烏雲密布,你會預測可能要下雨;當你看到一個人朝你揮手,你會預測他是在打招呼。這種預測能力是人類智能的核心。”

world labs的創立正是為了將這一願景變為現實。據techcrunch報道,這家由李飛飛聯合創立的初創公司已籌集了大量資金,投資者包括硅谷頂級風投和戰略技術公司。

marble亮相:世界模型的首個商業產品有何不同?

marble作為world labs的首個商業產品,展示了世界模型技術的成熟度。與傳統的ai系統相比,marble的核心突破在於其能夠從有限的視覺輸入中預測未來的場景狀態

當AI開始“理解”空間:世界模型能否重新定義AI的未來? - 天天要聞

在技術演示中,marble展示了幾種令人印象深刻的能力:

物理預測:給定一個簡單場景——如桌面上擺放的積木,marble能夠準確預測如果推動其中一塊積木,整個結構將如何反應。更驚人的是,它能夠處理訓練數據中未見過的新形狀物體。

不確定性量化:與給出單一預測的傳統模型不同,marble能夠明確表示預測中的不確定性。當場景模糊或結果具有多種可能性時,模型會給出概率分布,而非武斷的單一答案。

多時間尺度推理:marble能夠進行從幾毫秒到幾分鐘不同時間跨度的預測,適應不同應用場景的需求。

“marble不是另一個生成漂亮視頻的工具,”world labs cto強調,“它是理解世界因果結構的嘗試。當我們展示一個球從桌上滾落時,marble不僅預測球會掉下去,還理解這是因為重力作用,並且能夠將這一理解推廣到其他類似場景。”

當AI開始“理解”空間:世界模型能否重新定義AI的未來? - 天天要聞

從已公布的技術細節來看,marble很可能建立在視覺-語言聯合表徵的基礎上。這意味着它不僅僅處理像素數據,還構建了關於物體屬性、物理規則和因果關係的內部表示。

全球實驗室的世界模型已經開始布局

world labs並非唯一覬覦世界模型這一聖杯的玩家。在全球範圍內,一場無聲的競賽早已展開。

openai早在gpt-4時期就開始探索世界模型的集成。據泄露信息顯示,他們正在開發名為“project stella”的世界模型項目,旨在為下一代ai系統提供物理推理能力。

deepmind作為世界模型的早期探索者,其最新產品“genie”已能夠從單張圖像生成交互式環境。雖然目前主要應用於遊戲領域,但其技術框架具有向通用世界模型擴展的潛力。

meta則選擇了不同的路徑——通過超大規模視頻訓練構建隱式世界模型。yann lecun團隊一直倡導自監督學習路徑,認為通過觀察海量視頻數據,ai可以自發學習世界運作的基本原理。

在中國,字節跳動阿里巴巴百度等科技巨頭也紛紛布局相關研究。字節跳動的ai lab據傳正在開發專註於視頻預測的世界模型,而百度則更關注世界模型在自動駕駛領域的應用。蘑菇車聯將自己的mogomind大模型,部署在了一套名為“ai網絡”的系統中。這個網絡並非存在於雲端,而是像“神經元”一樣,分布在城市道路的每一個智能基站、每一輛智能網聯汽車之中。mogomind並非一個靜態的“地圖”,它是一個活的、會呼吸的“世界模型”。它實時吸收着每一輛車的行駛軌跡、每一條道路的擁堵狀況、每一個路口的信號燈狀態,甚至每一滴雨、每一陣風對路況的影響。它讓道路上的每一台設備、每一輛車,都變成了一個能夠“理解”空間、參與協作的智能體

世界模型已成為下一代ai競爭的分水嶺,擁有強大世界模型的ai系統,將可能在機器人、自動駕駛、虛擬現實等需要與現實世界交互的領域建立決定性優勢。

從實驗室到市場:世界模型能解決哪些實際問題?

世界模型看似抽象,但其商業應用前景十分廣闊。marble作為首款商用產品,瞄準了幾個關鍵領域:

自動駕駛:當前自動駕駛系統主要基於模式識別——識別車輛、行人、交通標誌。但如果遇到訓練數據中未見過的情況,系統就容易失效。世界模型可以使自動駕駛車輛理解物理規則,預測其他道路使用者的行為,從而提高在邊緣情況下的安全性。

機器人技術:工業機器人在結構化環境中表現出色,但 struggle 適應動態變化的環境。通過集成世界模型,機器人能夠預測自身動作的後果,進行更複雜的規劃和工作。

“想象一個家庭機器人看到水杯靠近桌邊,它應該能預測水杯可能掉落,從而主動將其推到安全位置,”一位機器人公司ceo描繪道,“這種預見性是目前機器人完全不具備的。”

醫療診斷:世界模型在醫療影像分析中也有潛力。通過理解人體器官隨時間的變化規律,ai可以更準確地預測疾病 progression,為個性化治療提供參考。

娛樂與內容創作:在遊戲和影視行業,世界模型可以創建更加逼真的物理模擬,生成符合物理規律的動畫效果,大幅降低內容製作成本。

工業數字孿生:世界模型能夠創建更加準確的工業過程模擬,幫助企業優化生產流程,預測設備故障。

值得注意的是,world labs選擇了企業市場作為marble的首發陣地,而非消費者應用。這一策略既反映了當前技術成熟度的限制,也顯示了其對商業化路徑的清晰思考。

世界模型面臨的三座大山

儘管前景誘人,世界模型的發展仍面臨重大技術挑戰。

複雜性挑戰:真實世界的物理規則極其複雜。從剛性體動力學到軟物質物理,從流體力學到空氣動力學,構建一個統一的世界模型需要整合大量物理知識。更不必說還要模擬人類行為的社會規則和心理動機。

計算成本:世界模型的訓練和推理需要巨大的計算資源。實時預測高保真度視覺場景的未來狀態,對目前最先進的硬件也是嚴峻挑戰。

評估難題:如何評估世界模型的性能?與圖像分類或對象檢測不同,世界模型的預測質量難以用簡單指標衡量。一個預測可能在像素級別準確,但語義級別錯誤,反之亦然。

李飛飛在採訪中承認這些挑戰的存在:“我們正在攀登一座高山,目前可能只到達了山腳。但每一步進步都會開啟新的可能性。”

world labs採用了一種務實策略——不追求一次性解決所有問題,而是聚焦特定領域的可行應用,通過解決實際問題逐步改進技術。

世界模型將把ai帶向何方?

世界模型的發展可能重新定義ai與人類的關係。

短期來看,世界模型將增強現有ai系統在複雜環境中的表現。從更可靠的自動駕駛到更靈活的家庭機器人,這些進步可能在3-5年內改變多個行業。

中期來看,世界模型可能成為實現通用人工智能(agi)的關鍵組件。理解世界運作規律、能夠進行因果推理的ai系統,將更接近人類智能的核心特徵。

長期而言,世界模型可能改變人類認識世界的方式。就像望遠鏡擴展了我們對宇宙的認識,顯微鏡揭示了微觀世界,世界模型可能成為人類理解複雜系統的新工具——從氣候變化到經濟發展,從疾病傳播到社會動態。

這或許正是世界模型最令人興奮的前景:ai不僅能在已知任務中表現出色,還能將理解遷移到未知領域,像人類一樣靈活地適應新環境。

世界模型競賽的發令槍已經響起,而李飛飛和她的團隊無疑是最先衝出起跑線的選手之一。無論最終誰率先衝線,這場比賽的結果都將深刻塑造ai——乃至人類社會的未來。

更多精彩內容,關注鈦媒體微信號(id:taimeiti),或者下載鈦媒體app

科學分類資訊推薦

首張嗅覺圖譜問世 或重塑嗅覺形成認知 - 天天要聞

首張嗅覺圖譜問世 或重塑嗅覺形成認知

研究人員以前所未有的細節繪製了小鼠鼻腔中的嗅覺受體分布圖譜。這一成果顛覆了人們對鼻子如何產生嗅覺的認知。△小鼠鼻腔的顯微鏡橫截面圖像,顯示了鼻腔上皮的解剖結構。圖片來源:Datta Lab4月28日發表於《細胞》的一項研究,揭示了感覺神經元上表達的約1100個嗅覺受體是如何在鼻腔內壁上皮組織中受到嚴格調控的空間位置...
心臟為什麼不會得癌症? - 天天要聞

心臟為什麼不會得癌症?

心臟為什麼不會得癌症?心肌細胞會進行有節律的搏動,並在個體出生後停止增殖,因此,心臟沒有再生能力。近日,意大利的里雅斯特大學醫學院Serena Zacchigna團隊完成的體內癌症模型和離體工程心臟組織實驗表明,心肌細胞搏動所產生的機械力負
暴雨、冰雹要來,廣東天氣明起大反轉!珠海接下來…… - 天天要聞

暴雨、冰雹要來,廣東天氣明起大反轉!珠海接下來……

【來源:珠海發布】“五一”假期前兩天, 珠海天氣晴好,大家都去哪裡玩了?不過天氣馬上要反轉再反轉了! 廣東明天好天氣要暫時“下線”,局部有大暴雨、小冰雹;珠海明天午後也將有雷雨+10級大風…… 這場雨會持續多久?假期接下來的天氣會怎樣?趕緊
河北衡水:假日邂逅飛行 低空魅力引遊人 - 天天要聞

河北衡水:假日邂逅飛行 低空魅力引遊人

5月2日,位於河北省衡水市的中國航協衡水航空飛行營地,各類飛行表演和低空飛行器展示吸引市民遊客觀賞。中國桃城第四屆“翱翔中國”全國低空無人飛行器大賽暨第二屆京津冀低空飛行器集采會於5月1日至2日在此舉行。圖為遊客近距離參觀飛行器。
可拍原子運動過程 揭秘地下30米的“國之重器” - 天天要聞

可拍原子運動過程 揭秘地下30米的“國之重器”

來源:央視新聞客戶端坐落在上海張江的硬X射線自由電子激光裝置是“十三五”國家重大科技基礎設施建設規劃優先啟動項目,也是上海(長三角)國際科技創新中心核心空間載體——張江科學城重大科技基礎設施集群的旗艦裝置,是我國實現2035年建成科技強國戰