小鵬第二代VLA，傳統VLA，特斯拉“端到端”到底有啥區別？

2025年11月18日23:42:10 科技 1668

2025年11月小鵬科技日上，何小鵬發布了小鵬第二代VLA，創新性地去掉了“語言轉譯”環節，實現了從視覺（V）信號直接生成動作（A）指令的端到端架構。

今天，小鵬又發布了小鵬X9在廣州夜晚複雜路況下，第二代VLA實測的視頻，小鵬X9表現得從從容容，遊刃有餘。

小鵬X9 第二代VLA測試

這就讓人有點迷糊了，既然第二代VLA去掉了“語言轉譯”環節，那還叫“VLA”嗎？既然都沒有“L”了，直接從視覺（V）到動作（A）端到端了，那又和傳統如特斯拉“端到端”有啥區別？

網友：VLA的L呢

其實去掉“語言轉譯”環節，並不是說沒有了“L”。

首先簡單了解一下傳統意義的VLA(Vision-Language-Action)，其運行架構是串聯式的“視覺→語言→動作”，先將視覺信息轉譯成文本或語義符號，再進行推理和動作規劃；小鵬第二代VLA則是端到端架構，“視覺→動作”，直接從視覺信號映射到動作指令，無需中間的“語言”橋樑，這一點又和特斯拉的“端到端”非常像。但，既然小鵬宣傳是第二代VLA，是端到端，那肯定又和傳統端到端（比如特斯拉）有不一樣的地方。它們之前到底哪裡不同呢？

那咱還得再了解一下傳統意義的“端到端”，曾經被吹的多牛多牛，被國內無數車企，包括之前的理想、小鵬追捧，甚至有車企智駕名字都叫“端到端輔助駕駛”了，CEO更是在汽車高質量發展百人大會上宣傳“每一輛車都是端到端自動駕駛[暈]

端到端自動駕駛

傳統“端到端”在自動駕駛里，指從傳感器（攝像頭，雷達等）信號直接到控制信號，完全省略中間任何顯式表示。從信息輸入到動作執行，中間是一個“黑箱”，你不知道它為啥執行這個動作，所執行動作也無法有效解釋。所以，特斯拉FSD在國內沒有好的數據訓練，陳震也搞不明白為啥跑偏，限速60為啥只跑30。這就是“黑箱”，FSD到底學了些啥，你完全不清楚。

陳震測試FSD

既然小鵬從最開始學習特斯拉端到端，到VLA，再到第二代VLA，這個不斷轉變肯定是越來越強，它們之間各自優缺點是怎麼樣的？

傳統端到端（如特斯拉純視覺），追求的是極致的“輸入-輸出”映射，中間沒有其他模態的介入（黑箱），訓練模型只關心動作的模仿，它的目標就是復現駕駛動作，看到即執行，沒有中間思考。所以，傳統端到端的效率特別高（這也是特斯拉被認為動作絲滑的原因），但缺點也非常突出，對訓練數據質量要求非常高，好的壞的都會學[捂臉]，發生錯誤無法定位。由於不能解釋為什麼做出這個動作，所以，事故後取證，責任認定都是個問題。因為從感知到執行中間是個“黑箱”，你完全沒辦法搞清楚它是怎麼想的。

黑箱機制

而傳統VLA（帶語言轉譯），是顯式的“思維鏈”模式，先理解，後執行。由“視覺->語言->動作”，中間語言做為思維的媒介，使得模型的“思考過程”變得透明，可解釋，決策過程清晰，看到了什麼 -> 理解成了什麼 -> 決定做什麼。其本質是，將感知問題轉化為語言理解問題，利用的大語言模型（LLM）的常識和推理能力。所以，傳統VLA的“L”，其核心是LLM，可以充分LLM強大的常識、推理和規劃能力。例如，它可以用語言推理出“那個球可能會滾到路上，所以小孩可能會去追，我應該減速”。但缺點也很明顯，決策過程慢且可能冗餘，把每個視覺場景都轉譯成語言是不必要的，就像司機不需要把“我要剎車”說出來再行動一樣。這個轉譯環節增加了延遲和犯錯的概率，就好比有些人嘴裡喊着踩剎車，實際卻踩着油門[捂臉]。

“端到端”卡殼

再看看小鵬第二代VLA（無語言轉譯），其實是一個隱式的“世界模型”，核心邏輯是“直覺化反應”。它砍掉的不是“思考”，而是“用語言表達思考”這個環節，模型在內部仍然構建了對物理世界的理解，但它不把這個理解“說”出來，而是直接映射到動作。比如通過大量觀看老司機開車的視頻來學習，不要求它“說出來”，直接模仿手腳的動作，形成一種“肌肉記憶”和“條件反射”。所以，小鵬二代VLA中的“L”，理解為LLM更合適，把LLM做為工具，被內化到訓練數據生成或模型預訓練中，而不在推理鏈中。