杨立昆亲自发布:Meta最强世界模型开源

2025年06月12日11:00:26 科技 6056

智东西(公众号:zhidxcom)

编译 | 云鹏

编辑 | 漠影

智东西6月12日消息,刚刚,meta发布了最新的开源世界模型v-jepa 2,称其在物理世界中实现了最先进的视觉理解和预测,从而提高了ai agents的物理推理能力。

杨立昆亲自发布:Meta最强世界模型开源 - 天天要闻

meta副总裁、首席ai科学家杨立昆(yann lecun)在官方视频中提到,在世界模型的帮助下,ai不再需要数百万次的训练才能掌握一项新的能力,世界模型直接告诉了ai世界是怎样运行的,这可以极大提升效率。

比如ai会预测我们舀出一勺东西是要放入另一个容器中:

杨立昆亲自发布:Meta最强世界模型开源 - 天天要闻

ai甚至可以理解运动员的复杂跳水动作,并进行动作拆解:

杨立昆亲自发布:Meta最强世界模型开源 - 天天要闻

据meta测试数据,v-jepa 2在测试任务中每一步的规划用时缩短至英伟达cosmos模型的三十分之一,同时成功率还更高。据称v-jepa 2使用了一百多万小时的视频来进行自监督学习训练。

杨立昆亲自发布:Meta最强世界模型开源 - 天天要闻

在meta看来,物理推理能力对于构建在现实世界中运作的ai agents、实现高级机器智能(ami)非常重要,可以让ai agents真正可以“三思而后行(think before acts)”。

杨立昆亲自发布:Meta最强世界模型开源 - 天天要闻

此外,meta还发布了三个新的基准测试,用于评估现有模型从视频中推理物理世界的能力。

昨天meta刚刚曝出要成立新ai实验室、招揽28岁华裔天才少年,并豪掷148亿美元(约合人民币1061亿元)收购scale ai 49%股份的消息,今天meta发布新世界模型,并让杨立昆出来大讲meta ai重点研究方向和愿景做法,颇有些要为招兵买马“打广告”的意味。

论文地址:

https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/

一、世界模型让ai有“类人直觉”,强化ai agents理解、预测、规划能力

理解世界物理规律听起来并不复杂,但这是ai与人类差距非常大的一个方面。

比如你把球抛向空中时,知道重力会将其拉回地面;当你穿过一个陌生的拥挤区域时,你会一边朝目的地移动,一边避免撞到沿途的行人或障碍物;打曲棍球时,你会滑向冰球即将到达的位置,而非它当前的位置。

杨立昆亲自发布:Meta最强世界模型开源 - 天天要闻

▲判断篮球的运动轨迹

但ai很难掌握这种能力,很难构建这种理解物理世界的“心理模型”。

杨立昆亲自发布:Meta最强世界模型开源 - 天天要闻

meta的世界模型,主要会强化ai agents的理解、预测、规划三项核心能力。

二、关键架构创新大幅提升学习效率,高性能同时兼顾准确率

meta使用视频来训练 v-jepa 2,帮助模型学习物理世界中的重要规律,包括人类如何与物体互动、物体在物理世界中的运动方式,以及物体之间的相互作用。

据称v-jepa 2通过自监督学习,训练了超过1百万小时的视频。

v-jepa 2是一种联合嵌入预测架构(joint embedding predictive architecture)模型,这也是“jepa”的名称由来。

杨立昆亲自发布:Meta最强世界模型开源 - 天天要闻

模型包括两个主要组成部分:

一个编码器,负责接收原始视频,并输出包含对于观察世界状态语义上有用的内容的嵌入(embeddings)。

杨立昆亲自发布:Meta最强世界模型开源 - 天天要闻

一个预测器,负责接收视频嵌入和关于要预测的额外内容,并输出预测的嵌入。

杨立昆亲自发布:Meta最强世界模型开源 - 天天要闻

v-jepa 2跟传统预测像素的生成式模型有很大性能差异,根据meta测试数据,v-jepa 2执行任务时每个步骤的规划用时缩短至cosmos模型的三十分之一,不仅用时短,v-jepa 2的成功率还更高。

v-jepa 2的能力对现实世界agents理解复杂运动和时间动态(temporal dynamics),以及根据上下文线索预测动作都非常关键。

基于这种预测能力,世界模型对于规划给定目标的动作顺序非常有用,比如从一个杯子在桌子上的状态到杯子在桌子边上的状态,中间要经历怎样的动作。

杨立昆亲自发布:Meta最强世界模型开源 - 天天要闻

如今大部分ai都需要专业的训练去解决特定的任务,而v-jepa这种自监督的方式,只需要为数不多的案例,就可以掌握新的能力,在不同的任务和领域中实现更高的性能表现。

杨立昆亲自发布:Meta最强世界模型开源 - 天天要闻

模型可以部署在机械臂上,去执行物体操作类的任务,比如触碰(reach)、抓取(grasp)、选择和摆放物体(pick-and-place),而不需要大量的机器人数据或者针对性的任务训练。

杨立昆亲自发布:Meta最强世界模型开源 - 天天要闻

根据测试数据,v-jepa 2在执行这三类任务时的成功率分为100%、45%和73%。

三、杨立昆展示世界模型应用场景,首发三个专项基准测试

世界模型可能会有哪些应用场景,杨立昆也给大家做了一些展示。

世界模型加持下的ai agents,可以帮助视障人群更好的认知世界;

杨立昆亲自发布:Meta最强世界模型开源 - 天天要闻

mr头显中的ai agents可以给更复杂的任务提供指导,比如让教育更加的个性化;

杨立昆亲自发布:Meta最强世界模型开源 - 天天要闻

ai编程助手可以真正理解一行新的代码会如何改变程序的状态或变量;

杨立昆亲自发布:Meta最强世界模型开源 - 天天要闻

世界模型对自动化系统同样非常重要,比如自动驾驶汽车和机器人;

杨立昆亲自发布:Meta最强世界模型开源 - 天天要闻

meta认为世界模型会为机器人开启一个新的时代,让现实世界中的ai agents不需要学习天文数字的训练数据就可以做家务或体力劳动。

除了发布v-jepa 2,meta还分享了三个新基准测试,用来帮助研究界评估现有模型通过视频学习和推理世界的能力:

1、intphys 2:用于测试模型在复杂合成环境中的直观物理理解能力(benchmarking intuitive physics understanding in complex synthetic environments)。

2、一种基于最小视频对的、感知捷径的物理理解视频问答基准测试(a shortcut-aware video-qa benchmark for physical understanding via minimal video pairs)。

3、causalvqa:面向视频模型的物理基础因果推理基准测试(a physically grounded causal reasoning benchmark for video models)。

基准测试地址:

intphys 2:

https://ai.meta.com/research/publications/intphys-2-benchmarking-intuitive-physics-understanding-in-complex-synthetic-environments/

causalvqa :

https://ai.meta.com/research/publications/causalvqa-a-physically-grounded-causal-reasoning-benchmark-for-video-models/

shortcut-aware video-qa benchmark:

https://ai.meta.com/research/publications/a-shortcut-aware-video-qa-benchmark-for-physical-understanding-via-minimal-video-pairs/

结语:ai认知世界提速,ai从数字世界加速走向物理世界

meta二代世界模型的发布进一步优化了模型的性能和准确率,让物理世界的ai agents可以更高效地执行任务,而不需要海量的数据训练,这一方向可以说是目前ai圈关注的焦点赛道之一。

随着数据瓶颈问题越来越凸显,如何在底层技术层面实现突破显得更为关键,meta在模型架构层面的创新是其世界模型的核心优势。

随着如今越来越多的视频模型发布,ai逐渐从文本、图像走向动态的视频,ai理解世界、认识世界的速度不断加快,从英伟达、meta、谷歌这样巨头到各路创企,都对打造世界模型饶有兴致,世界模型之战,或许将成为后续ai产业技术竞争的关键看点。

来源:meta官网

科技分类资讯推荐

苹果降价又如何?小米618霸榜+央视背书,闭眼入! - 天天要闻

苹果降价又如何?小米618霸榜+央视背书,闭眼入!

今年618的数码圈简直是神仙打架!苹果iPhone16降价搅局,这波操作直接给咱国产手机来了个下马威。不过咱国产手机也不是吃素的,尤其是小米,这次618那表现,属实是“杀疯了”!看看某东手机竞速榜,截止6月11号晚上7点28分,小米直接断层
K8s 集群部署原来可以这么简单 - 天天要闻

K8s 集群部署原来可以这么简单

没K8S经验Offer都拿不到。学K8S必须先搭集群码,来看下90%新手踩过的认知坑。当下it运维招聘K8S加Dork已是硬性门槛,但从零学习K8S动辄耗时数月。有没有捷径?有的捷径就是先学会使用再去研究理论,打破从头到尾肯理论的思维定式,
Reddit对Anthropic诉讼或触发AI训练新规则 - 天天要闻

Reddit对Anthropic诉讼或触发AI训练新规则

在人工智能公司如何训练其模型的斗争中开辟一条新战线,已经成为必须面对的问题。Reddit是使用最广泛的社交新闻和论坛平台之一,它起诉了人工智能初创公司Anthropic,指控其未经许可使用其内容来训练其Claude模型。从表面上看,这是一场
行业“巅峰大考”在即,绿源空降华南展提前“交卷”? - 天天要闻

行业“巅峰大考”在即,绿源空降华南展提前“交卷”?

新国标落地的行业“巅峰大考”在即,全行业的紧张气息愈发浓郁。而作为新国标落地前的唯一行业盛会,华南展也汇聚了超出往年的关注。这其中,尤以即将亮相华南展的行业龙头绿源格外收到关注。在官方发布的倒计时海报中,绿源可谓锋芒毕露。
商业运营时速瞄准400公里 全球最快高铁在湖北试跑半个月 - 天天要闻

商业运营时速瞄准400公里 全球最快高铁在湖北试跑半个月

6月12日上午8时8分,全球最快高铁CR450AF通过沪渝蓉高铁武汉至宜昌段龙泉河特大桥。(湖北日报全媒记者 刘曙松 摄)湖北日报讯 (记者胡祎)6月12日早上,一列标有“CR450”字样的流线型列车从沪渝蓉高铁宜昌北站缓缓驶出,随后列车司机拉动操纵手柄,车轮与钢轨加速摩擦,向武汉方向驶去,标志着全球最快高铁CR450动车组在...