小鹏第二代VLA，传统VLA，特斯拉“端到端”到底有啥区别？

2025年11月18日23:42:10 科技 1668

2025年11月小鹏科技日上，何小鹏发布了小鹏第二代VLA，创新性地去掉了“语言转译”环节，实现了从视觉（V）信号直接生成动作（A）指令的端到端架构。

今天，小鹏又发布了小鹏X9在广州夜晚复杂路况下，第二代VLA实测的视频，小鹏X9表现得从从容容，游刃有余。

小鹏X9 第二代VLA测试

这就让人有点迷糊了，既然第二代VLA去掉了“语言转译”环节，那还叫“VLA”吗？既然都没有“L”了，直接从视觉（V）到动作（A）端到端了，那又和传统如特斯拉“端到端”有啥区别？

网友：VLA的L呢

其实去掉“语言转译”环节，并不是说没有了“L”。

首先简单了解一下传统意义的VLA(Vision-Language-Action)，其运行架构是串联式的“视觉→语言→动作”，先将视觉信息转译成文本或语义符号，再进行推理和动作规划；小鹏第二代VLA则是端到端架构，“视觉→动作”，直接从视觉信号映射到动作指令，无需中间的“语言”桥梁，这一点又和特斯拉的“端到端”非常像。但，既然小鹏宣传是第二代VLA，是端到端，那肯定又和传统端到端（比如特斯拉）有不一样的地方。它们之前到底哪里不同呢？

那咱还得再了解一下传统意义的“端到端”，曾经被吹的多牛多牛，被国内无数车企，包括之前的理想、小鹏追捧，甚至有车企智驾名字都叫“端到端辅助驾驶”了，CEO更是在汽车高质量发展百人大会上宣传“每一辆车都是端到端自动驾驶[晕]

端到端自动驾驶

传统“端到端”在自动驾驶里，指从传感器（摄像头，雷达等）信号直接到控制信号，完全省略中间任何显式表示。从信息输入到动作执行，中间是一个“黑箱”，你不知道它为啥执行这个动作，所执行动作也无法有效解释。所以，特斯拉FSD在国内没有好的数据训练，陈震也搞不明白为啥跑偏，限速60为啥只跑30。这就是“黑箱”，FSD到底学了些啥，你完全不清楚。

陈震测试FSD

既然小鹏从最开始学习特斯拉端到端，到VLA，再到第二代VLA，这个不断转变肯定是越来越强，它们之间各自优缺点是怎么样的？

传统端到端（如特斯拉纯视觉），追求的是极致的“输入-输出”映射，中间没有其他模态的介入（黑箱），训练模型只关心动作的模仿，它的目标就是复现驾驶动作，看到即执行，没有中间思考。所以，传统端到端的效率特别高（这也是特斯拉被认为动作丝滑的原因），但缺点也非常突出，对训练数据质量要求非常高，好的坏的都会学[捂脸]，发生错误无法定位。由于不能解释为什么做出这个动作，所以，事故后取证，责任认定都是个问题。因为从感知到执行中间是个“黑箱”，你完全没办法搞清楚它是怎么想的。

黑箱机制

而传统VLA（带语言转译），是显式的“思维链”模式，先理解，后执行。由“视觉->语言->动作”，中间语言做为思维的媒介，使得模型的“思考过程”变得透明，可解释，决策过程清晰，看到了什么 -> 理解成了什么 -> 决定做什么。其本质是，将感知问题转化为语言理解问题，利用的大语言模型（LLM）的常识和推理能力。所以，传统VLA的“L”，其核心是LLM，可以充分LLM强大的常识、推理和规划能力。例如，它可以用语言推理出“那个球可能会滚到路上，所以小孩可能会去追，我应该减速”。但缺点也很明显，决策过程慢且可能冗余，把每个视觉场景都转译成语言是不必要的，就像司机不需要把“我要刹车”说出来再行动一样。这个转译环节增加了延迟和犯错的概率，就好比有些人嘴里喊着踩刹车，实际却踩着油门[捂脸]。

“端到端”卡壳

再看看小鹏第二代VLA（无语言转译），其实是一个隐式的“世界模型”，核心逻辑是“直觉化反应”。它砍掉的不是“思考”，而是“用语言表达思考”这个环节，模型在内部仍然构建了对物理世界的理解，但它不把这个理解“说”出来，而是直接映射到动作。比如通过大量观看老司机开车的视频来学习，不要求它“说出来”，直接模仿手脚的动作，形成一种“肌肉记忆”和“条件反射”。所以，小鹏二代VLA中的“L”，理解为LLM更合适，把LLM做为工具，被内化到训练数据生成或模型预训练中，而不在推理链中。