小鵬第二代VLA，傳統VLA，特斯拉「端到端」到底有啥區別？

2025年11月18日23:42:10 科技 1668

2025年11月小鵬科技日上，何小鵬發布了小鵬第二代VLA，創新性地去掉了「語言轉譯」環節，實現了從視覺（V）信號直接生成動作（A）指令的端到端架構。

今天，小鵬又發布了小鵬X9在廣州夜晚複雜路況下，第二代VLA實測的視頻，小鵬X9表現得從從容容，遊刃有餘。

小鵬X9 第二代VLA測試

這就讓人有點迷糊了，既然第二代VLA去掉了「語言轉譯」環節，那還叫「VLA」嗎？既然都沒有「L」了，直接從視覺（V）到動作（A）端到端了，那又和傳統如特斯拉「端到端」有啥區別？

網友：VLA的L呢

其實去掉「語言轉譯」環節，並不是說沒有了「L」。

首先簡單了解一下傳統意義的VLA(Vision-Language-Action)，其運行架構是串聯式的「視覺→語言→動作」，先將視覺信息轉譯成文本或語義符號，再進行推理和動作規劃；小鵬第二代VLA則是端到端架構，「視覺→動作」，直接從視覺信號映射到動作指令，無需中間的「語言」橋樑，這一點又和特斯拉的「端到端」非常像。但，既然小鵬宣傳是第二代VLA，是端到端，那肯定又和傳統端到端（比如特斯拉）有不一樣的地方。它們之前到底哪裡不同呢？

那咱還得再了解一下傳統意義的「端到端」，曾經被吹的多牛多牛，被國內無數車企，包括之前的理想、小鵬追捧，甚至有車企智駕名字都叫「端到端輔助駕駛」了，CEO更是在汽車高質量發展百人大會上宣傳「每一輛車都是端到端自動駕駛[暈]

端到端自動駕駛

傳統「端到端」在自動駕駛里，指從感測器（攝像頭，雷達等）信號直接到控制信號，完全省略中間任何顯式表示。從信息輸入到動作執行，中間是一個「黑箱」，你不知道它為啥執行這個動作，所執行動作也無法有效解釋。所以，特斯拉FSD在國內沒有好的數據訓練，陳震也搞不明白為啥跑偏，限速60為啥只跑30。這就是「黑箱」，FSD到底學了些啥，你完全不清楚。

陳震測試FSD

既然小鵬從最開始學習特斯拉端到端，到VLA，再到第二代VLA，這個不斷轉變肯定是越來越強，它們之間各自優缺點是怎麼樣的？

傳統端到端（如特斯拉純視覺），追求的是極致的「輸入-輸出」映射，中間沒有其他模態的介入（黑箱），訓練模型只關心動作的模仿，它的目標就是復現駕駛動作，看到即執行，沒有中間思考。所以，傳統端到端的效率特別高（這也是特斯拉被認為動作絲滑的原因），但缺點也非常突出，對訓練數據質量要求非常高，好的壞的都會學[捂臉]，發生錯誤無法定位。由於不能解釋為什麼做出這個動作，所以，事故後取證，責任認定都是個問題。因為從感知到執行中間是個「黑箱」，你完全沒辦法搞清楚它是怎麼想的。

黑箱機制

而傳統VLA（帶語言轉譯），是顯式的「思維鏈」模式，先理解，後執行。由「視覺->語言->動作」，中間語言做為思維的媒介，使得模型的「思考過程」變得透明，可解釋，決策過程清晰，看到了什麼 -> 理解成了什麼 -> 決定做什麼。其本質是，將感知問題轉化為語言理解問題，利用的大語言模型（LLM）的常識和推理能力。所以，傳統VLA的「L」，其核心是LLM，可以充分LLM強大的常識、推理和規劃能力。例如，它可以用語言推理出「那個球可能會滾到路上，所以小孩可能會去追，我應該減速」。但缺點也很明顯，決策過程慢且可能冗餘，把每個視覺場景都轉譯成語言是不必要的，就像司機不需要把「我要剎車」說出來再行動一樣。這個轉譯環節增加了延遲和犯錯的概率，就好比有些人嘴裡喊著踩剎車，實際卻踩著油門[捂臉]。

「端到端」卡殼

再看看小鵬第二代VLA（無語言轉譯），其實是一個隱式的「世界模型」，核心邏輯是「直覺化反應」。它砍掉的不是「思考」，而是「用語言表達思考」這個環節，模型在內部仍然構建了對物理世界的理解，但它不把這個理解「說」出來，而是直接映射到動作。比如通過大量觀看老司機開車的視頻來學習，不要求它「說出來」，直接模仿手腳的動作，形成一種「肌肉記憶」和「條件反射」。所以，小鵬二代VLA中的「L」，理解為LLM更合適，把LLM做為工具，被內化到訓練數據生成或模型預訓練中，而不在推理鏈中。