當地時間6月11日,facebook母公司meta宣布推出開源「世界模型」v-jepa 2。世界模型通過內部表徵和模擬器來理解和預測環境的動態,讓ai能夠以更接近人類的方式進行學習、規劃和決策。
v-jepa 2擁有12億參數,經過了超過100萬小時的視頻訓練,在物理世界中實現了最先進的視覺理解和預測性能。
meta表示,v-jepa 2可以幫助機器人和其他人工智慧主體理解物理世界,並預測物理世界將如何對它們的行動做出反應。舉例來說,v-jepa 2可以識別從桌面上滾動的球會掉下來,或者在視野之外的物體不會消失。
與傳統依賴海量標註數據或視頻素材的ai模型不同,meta研發的v-jepa 2創新性地採用「潛在空間」壓縮推理技術。該技術通過構建高維特徵的抽象表徵,使系統能夠高效理解物體運動規律、交互機制及環境響應特性。這種架構特別適用於自動駕駛和物流機器人等需要實時環境認知的領域——這些應用場景要求ai系統在動態變化的物理環境中做出毫秒級的安全決策。
性能測試顯示,v-jepa 2的推理速度達到英偉達cosmos模型的30倍,這標誌著物理世界建模領域的重大進步。值得注意的是,兩家公司可能採用差異化的評估標準,meta更強調模型在複雜場景下的認知泛化能力。
meta首席人工智慧科學家楊立昆對此解釋稱:「物理世界的理解與語言處理存在本質差異。我們的世界模型構建了現實的數字抽象框架,使ai能像人類一樣預判行為後果,並自主規劃任務執行路徑。這項技術將重塑機器人產業格局,使ai助手能在有限訓練數據條件下,可靠完成從家居服務到工業操作等多樣化物理任務。」
隨著研究人員將目光投向支撐生成式人工智慧應用的大語言模型之外,世界模型近來在ai界引起了廣泛關注。
去年9月,ai「教母」李飛飛為其新創立的world labs公司籌集了2.3億美元,該公司旨在創建"大型世界模型",以更好地理解物理世界的結構。與此同時,谷歌旗下的deepmind部門一直在開發自己的世界模型,名為genie。該部門稱genie可以實時模擬遊戲和3d環境。
隨著公司面臨來自openai、微軟和谷歌等對手的競爭,人工智慧已成為meta首席執行官馬克·扎克伯格關注的關鍵領域。據悉,扎克伯格正親自組建一支名為「超級智能」ai團隊,目標是實現人工通用智能。為此,meta計劃向人工智慧初創公司scale ai投資近150億美元,獲取該公司51%股權,並聘請後者首席執行官汪滔(alexandr wang)和多位研究人員加入該團隊。
此外,meta還在包括谷歌內的多家科技公司重金挖角頂尖工程師,其中包括谷歌deepmind的首席研究員傑克·雷(jack rae),以及ai語音初創公司sesame ai的機器學習負責人約翰·沙爾克維克(johan schalkwyk)。上述二人都將會加入meta等「超級智能」團隊。
不過,並非所有人都對扎克伯格的招募行動趨之若鶩。據悉,meta曾試圖挖角谷歌頂級ai研究員之一科拉伊·卡武克奧盧(koray kavukcuoglu)以及openai的傑出研究員諾姆·布朗(noam brown),但均未成功。
當前ai人才爭奪戰已進入白熱化階段,科技巨頭與初創企業展開激烈競爭。meta雖為ai人才開出超過200萬美元(超過1400萬元人民幣)的年薪,卻仍難以阻止核心員工流向openai和anthropic等競爭對手,每周至少流失3名核心員工。
數據顯示,anthropic展現出強大的人才吸引力,其兩年員工留存率高達80%,遠超行業平均水平,這主要得益於其獨特的企業文化、高度自主權以及靈活的工作模式。 (文/騰訊科技特約編譯 無忌)