小鹏第二代VLA,传统VLA,特斯拉“端到端”到底有啥区别?

2025年11月18日23:42:10 科技 1668

2025年11月小鹏科技日上,何小鹏发布了小鹏第二代VLA,创新性地去掉了“语言转译”环节,实现了从视觉(V)信号直接生成动作(A)指令的端到端架构。

今天,小鹏又发布了小鹏X9在广州夜晚复杂路况下,第二代VLA实测的视频,小鹏X9表现得从从容容,游刃有余。

小鹏第二代VLA,传统VLA,特斯拉“端到端”到底有啥区别? - 天天要闻

小鹏X9 第二代VLA测试

这就让人有点迷糊了,既然第二代VLA去掉了“语言转译”环节,那还叫“VLA”吗?既然都没有“L”了,直接从视觉(V)到动作(A)端到端了,那又和传统如特斯拉“端到端”有啥区别?

小鹏第二代VLA,传统VLA,特斯拉“端到端”到底有啥区别? - 天天要闻

网友:VLA的L呢

其实去掉“语言转译”环节,并不是说没有了“L”。

首先简单了解一下传统意义的VLA(Vision-Language-Action),其运行架构是串联式的“视觉→语言→动作”,先将视觉信息转译成文本或语义符号,再进行推理和动作规划;小鹏第二代VLA则是端到端架构,“视觉→动作”,直接从视觉信号映射到动作指令,无需中间的“语言”桥梁,这一点又和特斯拉的“端到端”非常像。但,既然小鹏宣传是第二代VLA,是端到端,那肯定又和传统端到端(比如特斯拉)有不一样的地方。它们之前到底哪里不同呢?

那咱还得再了解一下传统意义的“端到端”,曾经被吹的多牛多牛,被国内无数车企,包括之前的理想、小鹏追捧,甚至有车企智驾名字都叫“端到端辅助驾驶”了,CEO更是在汽车高质量发展百人大会上宣传“每一辆车都是端到端自动驾驶[晕]

小鹏第二代VLA,传统VLA,特斯拉“端到端”到底有啥区别? - 天天要闻

端到端自动驾驶

传统“端到端”在自动驾驶里,指从传感器(摄像头,雷达等)信号直接到控制信号,完全省略中间任何显式表示。从信息输入到动作执行,中间是一个“黑箱”,你不知道它为啥执行这个动作,所执行动作也无法有效解释。所以,特斯拉FSD在国内没有好的数据训练,陈震也搞不明白为啥跑偏,限速60为啥只跑30。这就是“黑箱”,FSD到底学了些啥,你完全不清楚。

小鹏第二代VLA,传统VLA,特斯拉“端到端”到底有啥区别? - 天天要闻

陈震测试FSD

既然小鹏从最开始学习特斯拉端到端,到VLA,再到第二代VLA,这个不断转变肯定是越来越强,它们之间各自优缺点是怎么样的?

传统端到端(如特斯拉纯视觉),追求的是极致的“输入-输出”映射,中间没有其他模态的介入(黑箱),训练模型只关心动作的模仿,它的目标就是复现驾驶动作,看到即执行,没有中间思考。所以,传统端到端的效率特别高(这也是特斯拉被认为动作丝滑的原因),但缺点也非常突出,对训练数据质量要求非常高,好的坏的都会学[捂脸],发生错误无法定位。由于不能解释为什么做出这个动作,所以,事故后取证,责任认定都是个问题。因为从感知到执行中间是个“黑箱”,你完全没办法搞清楚它是怎么想的。

小鹏第二代VLA,传统VLA,特斯拉“端到端”到底有啥区别? - 天天要闻

黑箱机制

而传统VLA(带语言转译),是显式的“思维链”模式,先理解,后执行。由“视觉->语言->动作”,中间语言做为思维的媒介,使得模型的“思考过程”变得透明,可解释,决策过程清晰,看到了什么 -> 理解成了什么 -> 决定做什么。其本质是,将感知问题转化为语言理解问题,利用的大语言模型(LLM)的常识和推理能力。所以,传统VLA的“L”,其核心是LLM,可以充分LLM强大的常识、推理和规划能力。例如,它可以用语言推理出“那个球可能会滚到路上,所以小孩可能会去追,我应该减速”。但缺点也很明显,决策过程慢且可能冗余,把每个视觉场景都转译成语言是不必要的,就像司机不需要把“我要刹车”说出来再行动一样。这个转译环节增加了延迟和犯错的概率,就好比有些人嘴里喊着踩刹车,实际却踩着油门[捂脸]。

小鹏第二代VLA,传统VLA,特斯拉“端到端”到底有啥区别? - 天天要闻

“端到端”卡壳

再看看小鹏第二代VLA(无语言转译),其实是一个隐式的“世界模型”,核心逻辑是“直觉化反应”。它砍掉的不是“思考”,而是“用语言表达思考”这个环节,模型在内部仍然构建了对物理世界的理解,但它不把这个理解“说”出来,而是直接映射到动作。比如通过大量观看老司机开车的视频来学习,不要求它“说出来”,直接模仿手脚的动作,形成一种“肌肉记忆”和“条件反射”。所以,小鹏二代VLA中的“L”,理解为LLM更合适,把LLM做为工具,被内化到训练数据生成或模型预训练中,而不在推理链中。

小鹏第二代VLA,传统VLA,特斯拉“端到端”到底有啥区别? - 天天要闻

小鹏第二代VLA架构

可以看出,小鹏二代VLA结合了“传统端到端”和VLA的优势,模型直接从视频序列中学习动作的因果链(映射),来构建对物理世界的理解,动作只是理解的副产品。所以,何小鹏称其为“物理AI”,该模型将为小鹏汽车在AI汽车、Robotaxi、人形机器人、飞行汽车等具身智能载体上的落地提供技术底座。

另,小鹏二代VLA虽然也具有“黑箱”特征,但小鹏为其“黑箱”注入了一个明确的学习范式——从视频中学习物理规律,这在一定程度上提供了可解释的方向。

以上是我的一点理解,您有什么想法,欢迎评论交流。

#创作训练营开营啦#

科技分类资讯推荐

引领科技豪华MPV新风尚 第二代腾势D9西安车展亮相 - 天天要闻

引领科技豪华MPV新风尚 第二代腾势D9西安车展亮相

兼具宜商气度与家用温情的科技豪华旗舰MPV,第二代腾势D9迎来西安地区正式亮相。新车依托全球新能源MPV冠军底蕴,以第二代刀片电池、双阀云辇-C、天神之眼5.0智驾等核心技术全面升级,兼顾商务体面与家庭舒适,为西北高端用户带来一站式全能出行解决方案。
采购禁入!科华数据材料造假被拒门外 - 天天要闻

采购禁入!科华数据材料造假被拒门外

本报(chinatimes.net.cn)记者胡雅文 北京报道这家赶上AI算力风口的公司,因投标材料造假,被相关采购方列入禁入名单两年,其此前提出的复议申请也被正式驳回。相关采购平台近日发布公告,明确驳回科华数据股份有限公司(下称“科华数据”,002335.SZ)此前提交的复议申请。早在一年前,科华数据已被认定在“信息通信枢纽...
快评乐道L80:15万元级买大五座,这波值得冲? - 天天要闻

快评乐道L80:15万元级买大五座,这波值得冲?

日前,乐道L80正式发布并开启预售,其整车购买预售价为24.58万元起,租电购买预售价则低至15.98万元起。面对大型SUV市场“细分再细分”之竞争趋势,这款乐道年度重磅新车都有哪些优势?又能否成为“大五座SUV革新之作”?下面,圈哥就带大家全方位感受。
成都直击凯威德:纯电全尺寸SUV的张扬与大气 - 天天要闻

成都直击凯威德:纯电全尺寸SUV的张扬与大气

4月22日,凯迪拉克以奥斯卡级盛典规格,将上海保利大剧院点亮为璀璨舞台,在品牌代言人倪妮与全场嘉宾的共同见证下,凯迪拉克全尺寸纯电公路旗舰——凯威德耀然上市。新车共推出长续航四驱Pro、高性能四驱Ultra两款配置,官方售价区间为46.88万-50.88万元。