楊立昆親自發布:Meta最強世界模型開源

2025年06月12日11:00:26 科技 6056

智東西(公眾號:zhidxcom)

編譯 | 雲鵬

編輯 | 漠影

智東西6月12日消息,剛剛,meta發布了最新的開源世界模型v-jepa 2,稱其在物理世界中實現了最先進的視覺理解和預測,從而提高了ai agents的物理推理能力。

楊立昆親自發布:Meta最強世界模型開源 - 天天要聞

meta副總裁、首席ai科學家楊立昆(yann lecun)在官方視頻中提到,在世界模型的幫助下,ai不再需要數百萬次的訓練才能掌握一項新的能力,世界模型直接告訴了ai世界是怎樣運行的,這可以極大提升效率。

比如ai會預測我們舀出一勺東西是要放入另一個容器中:

楊立昆親自發布:Meta最強世界模型開源 - 天天要聞

ai甚至可以理解運動員的複雜跳水動作,並進行動作拆解:

楊立昆親自發布:Meta最強世界模型開源 - 天天要聞

據meta測試數據,v-jepa 2在測試任務中每一步的規劃用時縮短至英偉達cosmos模型的三十分之一,同時成功率還更高。據稱v-jepa 2使用了一百多萬小時的視頻來進行自監督學習訓練。

楊立昆親自發布:Meta最強世界模型開源 - 天天要聞

在meta看來,物理推理能力對於構建在現實世界中運作的ai agents、實現高級機器智能(ami)非常重要,可以讓ai agents真正可以「三思而後行(think before acts)」。

楊立昆親自發布:Meta最強世界模型開源 - 天天要聞

此外,meta還發布了三個新的基準測試,用於評估現有模型從視頻中推理物理世界的能力。

昨天meta剛剛曝出要成立新ai實驗室、招攬28歲華裔天才少年,並豪擲148億美元(約合人民幣1061億元)收購scale ai 49%股份的消息,今天meta發布新世界模型,並讓楊立昆出來大講meta ai重點研究方向和願景做法,頗有些要為招兵買馬「打廣告」的意味。

論文地址:

https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/

一、世界模型讓ai有「類人直覺」,強化ai agents理解、預測、規劃能力

理解世界物理規律聽起來並不複雜,但這是ai與人類差距非常大的一個方面。

比如你把球拋向空中時,知道重力會將其拉回地面;當你穿過一個陌生的擁擠區域時,你會一邊朝目的地移動,一邊避免撞到沿途的行人或障礙物;打曲棍球時,你會滑向冰球即將到達的位置,而非它當前的位置。

楊立昆親自發布:Meta最強世界模型開源 - 天天要聞

▲判斷籃球的運動軌跡

但ai很難掌握這種能力,很難構建這種理解物理世界的「心理模型」。

楊立昆親自發布:Meta最強世界模型開源 - 天天要聞

meta的世界模型,主要會強化ai agents的理解、預測、規劃三項核心能力。

二、關鍵架構創新大幅提升學習效率,高性能同時兼顧準確率

meta使用視頻來訓練 v-jepa 2,幫助模型學習物理世界中的重要規律,包括人類如何與物體互動、物體在物理世界中的運動方式,以及物體之間的相互作用。

據稱v-jepa 2通過自監督學習,訓練了超過1百萬小時的視頻。

v-jepa 2是一種聯合嵌入預測架構(joint embedding predictive architecture)模型,這也是「jepa」的名稱由來。

楊立昆親自發布:Meta最強世界模型開源 - 天天要聞

模型包括兩個主要組成部分:

一個編碼器,負責接收原始視頻,並輸出包含對於觀察世界狀態語義上有用的內容的嵌入(embeddings)。

楊立昆親自發布:Meta最強世界模型開源 - 天天要聞

一個預測器,負責接收視頻嵌入和關於要預測的額外內容,並輸出預測的嵌入。

楊立昆親自發布:Meta最強世界模型開源 - 天天要聞

v-jepa 2跟傳統預測像素的生成式模型有很大性能差異,根據meta測試數據,v-jepa 2執行任務時每個步驟的規劃用時縮短至cosmos模型的三十分之一,不僅用時短,v-jepa 2的成功率還更高。

v-jepa 2的能力對現實世界agents理解複雜運動和時間動態(temporal dynamics),以及根據上下文線索預測動作都非常關鍵。

基於這種預測能力,世界模型對於規劃給定目標的動作順序非常有用,比如從一個杯子在桌子上的狀態到杯子在桌子邊上的狀態,中間要經歷怎樣的動作。

楊立昆親自發布:Meta最強世界模型開源 - 天天要聞

如今大部分ai都需要專業的訓練去解決特定的任務,而v-jepa這種自監督的方式,只需要為數不多的案例,就可以掌握新的能力,在不同的任務和領域中實現更高的性能表現。

楊立昆親自發布:Meta最強世界模型開源 - 天天要聞

模型可以部署在機械臂上,去執行物體操作類的任務,比如觸碰(reach)、抓取(grasp)、選擇和擺放物體(pick-and-place),而不需要大量的機器人數據或者針對性的任務訓練。

楊立昆親自發布:Meta最強世界模型開源 - 天天要聞

根據測試數據,v-jepa 2在執行這三類任務時的成功率分為100%、45%和73%。

三、楊立昆展示世界模型應用場景,首發三個專項基準測試

世界模型可能會有哪些應用場景,楊立昆也給大家做了一些展示。

世界模型加持下的ai agents,可以幫助視障人群更好的認知世界;

楊立昆親自發布:Meta最強世界模型開源 - 天天要聞

mr頭顯中的ai agents可以給更複雜的任務提供指導,比如讓教育更加的個性化;

楊立昆親自發布:Meta最強世界模型開源 - 天天要聞

ai編程助手可以真正理解一行新的代碼會如何改變程序的狀態或變數;

楊立昆親自發布:Meta最強世界模型開源 - 天天要聞

世界模型對自動化系統同樣非常重要,比如自動駕駛汽車和機器人;

楊立昆親自發布:Meta最強世界模型開源 - 天天要聞

meta認為世界模型會為機器人開啟一個新的時代,讓現實世界中的ai agents不需要學習天文數字的訓練數據就可以做家務或體力勞動。

除了發布v-jepa 2,meta還分享了三個新基準測試,用來幫助研究界評估現有模型通過視頻學習和推理世界的能力:

1、intphys 2:用於測試模型在複雜合成環境中的直觀物理理解能力(benchmarking intuitive physics understanding in complex synthetic environments)。

2、一種基於最小視頻對的、感知捷徑的物理理解視頻問答基準測試(a shortcut-aware video-qa benchmark for physical understanding via minimal video pairs)。

3、causalvqa:面向視頻模型的物理基礎因果推理基準測試(a physically grounded causal reasoning benchmark for video models)。

基準測試地址:

intphys 2:

https://ai.meta.com/research/publications/intphys-2-benchmarking-intuitive-physics-understanding-in-complex-synthetic-environments/

causalvqa :

https://ai.meta.com/research/publications/causalvqa-a-physically-grounded-causal-reasoning-benchmark-for-video-models/

shortcut-aware video-qa benchmark:

https://ai.meta.com/research/publications/a-shortcut-aware-video-qa-benchmark-for-physical-understanding-via-minimal-video-pairs/

結語:ai認知世界提速,ai從數字世界加速走向物理世界

meta二代世界模型的發布進一步優化了模型的性能和準確率,讓物理世界的ai agents可以更高效地執行任務,而不需要海量的數據訓練,這一方向可以說是目前ai圈關注的焦點賽道之一。

隨著數據瓶頸問題越來越凸顯,如何在底層技術層面實現突破顯得更為關鍵,meta在模型架構層面的創新是其世界模型的核心優勢。

隨著如今越來越多的視頻模型發布,ai逐漸從文本、圖像走向動態的視頻,ai理解世界、認識世界的速度不斷加快,從英偉達、meta、谷歌這樣巨頭到各路創企,都對打造世界模型饒有興緻,世界模型之戰,或許將成為後續ai產業技術競爭的關鍵看點。

來源:meta官網

科技分類資訊推薦

蘋果降價又如何?小米618霸榜+央視背書,閉眼入! - 天天要聞

蘋果降價又如何?小米618霸榜+央視背書,閉眼入!

今年618的數碼圈簡直是神仙打架!蘋果iPhone16降價攪局,這波操作直接給咱國產手機來了個下馬威。不過咱國產手機也不是吃素的,尤其是小米,這次618那表現,屬實是「殺瘋了」!看看某東手機競速榜,截止6月11號晚上7點28分,小米直接斷層
K8s 集群部署原來可以這麼簡單 - 天天要聞

K8s 集群部署原來可以這麼簡單

沒K8S經驗Offer都拿不到。學K8S必須先搭集群碼,來看下90%新手踩過的認知坑。當下it運維招聘K8S加Dork已是硬性門檻,但從零學習K8S動輒耗時數月。有沒有捷徑?有的捷徑就是先學會使用再去研究理論,打破從頭到尾肯理論的思維定式,
Reddit對Anthropic訴訟或觸發AI訓練新規則 - 天天要聞

Reddit對Anthropic訴訟或觸發AI訓練新規則

在人工智慧公司如何訓練其模型的鬥爭中開闢一條新戰線,已經成為必須面對的問題。Reddit是使用最廣泛的社交新聞和論壇平台之一,它起訴了人工智慧初創公司Anthropic,指控其未經許可使用其內容來訓練其Claude模型。從表面上看,這是一場
行業「巔峰大考」在即,綠源空降華南展提前「交卷」? - 天天要聞

行業「巔峰大考」在即,綠源空降華南展提前「交卷」?

新國標落地的行業「巔峰大考」在即,全行業的緊張氣息愈發濃郁。而作為新國標落地前的唯一行業盛會,華南展也匯聚了超出往年的關注。這其中,尤以即將亮相華南展的行業龍頭綠源格外收到關注。在官方發布的倒計時海報中,綠源可謂鋒芒畢露。
商業運營時速瞄準400公里 全球最快高鐵在湖北試跑半個月 - 天天要聞

商業運營時速瞄準400公里 全球最快高鐵在湖北試跑半個月

6月12日上午8時8分,全球最快高鐵CR450AF通過滬渝蓉高鐵武漢至宜昌段龍泉河特大橋。(湖北日報全媒記者 劉曙松 攝)湖北日報訊 (記者胡禕)6月12日早上,一列標有「CR450」字樣的流線型列車從滬渝蓉高鐵宜昌北站緩緩駛出,隨後列車司機拉動操縱手柄,車輪與鋼軌加速摩擦,向武漢方向駛去,標誌著全球最快高鐵CR450動車組在...