2025年11月小鹏科技日上,何小鹏发布了小鹏第二代VLA,创新性地去掉了“语言转译”环节,实现了从视觉(V)信号直接生成动作(A)指令的端到端架构。
今天,小鹏又发布了小鹏X9在广州夜晚复杂路况下,第二代VLA实测的视频,小鹏X9表现得从从容容,游刃有余。

小鹏X9 第二代VLA测试
这就让人有点迷糊了,既然第二代VLA去掉了“语言转译”环节,那还叫“VLA”吗?既然都没有“L”了,直接从视觉(V)到动作(A)端到端了,那又和传统如特斯拉“端到端”有啥区别?

网友:VLA的L呢
其实去掉“语言转译”环节,并不是说没有了“L”。
首先简单了解一下传统意义的VLA(Vision-Language-Action),其运行架构是串联式的“视觉→语言→动作”,先将视觉信息转译成文本或语义符号,再进行推理和动作规划;小鹏第二代VLA则是端到端架构,“视觉→动作”,直接从视觉信号映射到动作指令,无需中间的“语言”桥梁,这一点又和特斯拉的“端到端”非常像。但,既然小鹏宣传是第二代VLA,是端到端,那肯定又和传统端到端(比如特斯拉)有不一样的地方。它们之前到底哪里不同呢?
那咱还得再了解一下传统意义的“端到端”,曾经被吹的多牛多牛,被国内无数车企,包括之前的理想、小鹏追捧,甚至有车企智驾名字都叫“端到端辅助驾驶”了,CEO更是在汽车高质量发展百人大会上宣传“每一辆车都是端到端自动驾驶[晕]

端到端自动驾驶
传统“端到端”在自动驾驶里,指从传感器(摄像头,雷达等)信号直接到控制信号,完全省略中间任何显式表示。从信息输入到动作执行,中间是一个“黑箱”,你不知道它为啥执行这个动作,所执行动作也无法有效解释。所以,特斯拉FSD在国内没有好的数据训练,陈震也搞不明白为啥跑偏,限速60为啥只跑30。这就是“黑箱”,FSD到底学了些啥,你完全不清楚。

陈震测试FSD
既然小鹏从最开始学习特斯拉端到端,到VLA,再到第二代VLA,这个不断转变肯定是越来越强,它们之间各自优缺点是怎么样的?
传统端到端(如特斯拉纯视觉),追求的是极致的“输入-输出”映射,中间没有其他模态的介入(黑箱),训练模型只关心动作的模仿,它的目标就是复现驾驶动作,看到即执行,没有中间思考。所以,传统端到端的效率特别高(这也是特斯拉被认为动作丝滑的原因),但缺点也非常突出,对训练数据质量要求非常高,好的坏的都会学[捂脸],发生错误无法定位。由于不能解释为什么做出这个动作,所以,事故后取证,责任认定都是个问题。因为从感知到执行中间是个“黑箱”,你完全没办法搞清楚它是怎么想的。

黑箱机制
而传统VLA(带语言转译),是显式的“思维链”模式,先理解,后执行。由“视觉->语言->动作”,中间语言做为思维的媒介,使得模型的“思考过程”变得透明,可解释,决策过程清晰,看到了什么 -> 理解成了什么 -> 决定做什么。其本质是,将感知问题转化为语言理解问题,利用的大语言模型(LLM)的常识和推理能力。所以,传统VLA的“L”,其核心是LLM,可以充分LLM强大的常识、推理和规划能力。例如,它可以用语言推理出“那个球可能会滚到路上,所以小孩可能会去追,我应该减速”。但缺点也很明显,决策过程慢且可能冗余,把每个视觉场景都转译成语言是不必要的,就像司机不需要把“我要刹车”说出来再行动一样。这个转译环节增加了延迟和犯错的概率,就好比有些人嘴里喊着踩刹车,实际却踩着油门[捂脸]。

“端到端”卡壳
再看看小鹏第二代VLA(无语言转译),其实是一个隐式的“世界模型”,核心逻辑是“直觉化反应”。它砍掉的不是“思考”,而是“用语言表达思考”这个环节,模型在内部仍然构建了对物理世界的理解,但它不把这个理解“说”出来,而是直接映射到动作。比如通过大量观看老司机开车的视频来学习,不要求它“说出来”,直接模仿手脚的动作,形成一种“肌肉记忆”和“条件反射”。所以,小鹏二代VLA中的“L”,理解为LLM更合适,把LLM做为工具,被内化到训练数据生成或模型预训练中,而不在推理链中。

小鹏第二代VLA架构
可以看出,小鹏二代VLA结合了“传统端到端”和VLA的优势,模型直接从视频序列中学习动作的因果链(映射),来构建对物理世界的理解,动作只是理解的副产品。所以,何小鹏称其为“物理AI”,该模型将为小鹏汽车在AI汽车、Robotaxi、人形机器人、飞行汽车等具身智能载体上的落地提供技术底座。
另,小鹏二代VLA虽然也具有“黑箱”特征,但小鹏为其“黑箱”注入了一个明确的学习范式——从视频中学习物理规律,这在一定程度上提供了可解释的方向。
以上是我的一点理解,您有什么想法,欢迎评论交流。