2025年11月小鵬科技日上,何小鵬發布了小鵬第二代VLA,創新性地去掉了「語言轉譯」環節,實現了從視覺(V)信號直接生成動作(A)指令的端到端架構。
今天,小鵬又發布了小鵬X9在廣州夜晚複雜路況下,第二代VLA實測的視頻,小鵬X9表現得從從容容,遊刃有餘。

小鵬X9 第二代VLA測試
這就讓人有點迷糊了,既然第二代VLA去掉了「語言轉譯」環節,那還叫「VLA」嗎?既然都沒有「L」了,直接從視覺(V)到動作(A)端到端了,那又和傳統如特斯拉「端到端」有啥區別?

網友:VLA的L呢
其實去掉「語言轉譯」環節,並不是說沒有了「L」。
首先簡單了解一下傳統意義的VLA(Vision-Language-Action),其運行架構是串聯式的「視覺→語言→動作」,先將視覺信息轉譯成文本或語義符號,再進行推理和動作規劃;小鵬第二代VLA則是端到端架構,「視覺→動作」,直接從視覺信號映射到動作指令,無需中間的「語言」橋樑,這一點又和特斯拉的「端到端」非常像。但,既然小鵬宣傳是第二代VLA,是端到端,那肯定又和傳統端到端(比如特斯拉)有不一樣的地方。它們之前到底哪裡不同呢?
那咱還得再了解一下傳統意義的「端到端」,曾經被吹的多牛多牛,被國內無數車企,包括之前的理想、小鵬追捧,甚至有車企智駕名字都叫「端到端輔助駕駛」了,CEO更是在汽車高質量發展百人大會上宣傳「每一輛車都是端到端自動駕駛[暈]

端到端自動駕駛
傳統「端到端」在自動駕駛里,指從感測器(攝像頭,雷達等)信號直接到控制信號,完全省略中間任何顯式表示。從信息輸入到動作執行,中間是一個「黑箱」,你不知道它為啥執行這個動作,所執行動作也無法有效解釋。所以,特斯拉FSD在國內沒有好的數據訓練,陳震也搞不明白為啥跑偏,限速60為啥只跑30。這就是「黑箱」,FSD到底學了些啥,你完全不清楚。

陳震測試FSD
既然小鵬從最開始學習特斯拉端到端,到VLA,再到第二代VLA,這個不斷轉變肯定是越來越強,它們之間各自優缺點是怎麼樣的?
傳統端到端(如特斯拉純視覺),追求的是極致的「輸入-輸出」映射,中間沒有其他模態的介入(黑箱),訓練模型只關心動作的模仿,它的目標就是復現駕駛動作,看到即執行,沒有中間思考。所以,傳統端到端的效率特別高(這也是特斯拉被認為動作絲滑的原因),但缺點也非常突出,對訓練數據質量要求非常高,好的壞的都會學[捂臉],發生錯誤無法定位。由於不能解釋為什麼做出這個動作,所以,事故後取證,責任認定都是個問題。因為從感知到執行中間是個「黑箱」,你完全沒辦法搞清楚它是怎麼想的。

黑箱機制
而傳統VLA(帶語言轉譯),是顯式的「思維鏈」模式,先理解,後執行。由「視覺->語言->動作」,中間語言做為思維的媒介,使得模型的「思考過程」變得透明,可解釋,決策過程清晰,看到了什麼 -> 理解成了什麼 -> 決定做什麼。其本質是,將感知問題轉化為語言理解問題,利用的大語言模型(LLM)的常識和推理能力。所以,傳統VLA的「L」,其核心是LLM,可以充分LLM強大的常識、推理和規劃能力。例如,它可以用語言推理出「那個球可能會滾到路上,所以小孩可能會去追,我應該減速」。但缺點也很明顯,決策過程慢且可能冗餘,把每個視覺場景都轉譯成語言是不必要的,就像司機不需要把「我要剎車」說出來再行動一樣。這個轉譯環節增加了延遲和犯錯的概率,就好比有些人嘴裡喊著踩剎車,實際卻踩著油門[捂臉]。

「端到端」卡殼
再看看小鵬第二代VLA(無語言轉譯),其實是一個隱式的「世界模型」,核心邏輯是「直覺化反應」。它砍掉的不是「思考」,而是「用語言表達思考」這個環節,模型在內部仍然構建了對物理世界的理解,但它不把這個理解「說」出來,而是直接映射到動作。比如通過大量觀看老司機開車的視頻來學習,不要求它「說出來」,直接模仿手腳的動作,形成一種「肌肉記憶」和「條件反射」。所以,小鵬二代VLA中的「L」,理解為LLM更合適,把LLM做為工具,被內化到訓練數據生成或模型預訓練中,而不在推理鏈中。

小鵬第二代VLA架構
可以看出,小鵬二代VLA結合了「傳統端到端」和VLA的優勢,模型直接從視頻序列中學習動作的因果鏈(映射),來構建對物理世界的理解,動作只是理解的副產品。所以,何小鵬稱其為「物理AI」,該模型將為小鵬汽車在AI汽車、Robotaxi、人形機器人、飛行汽車等具身智能載體上的落地提供技術底座。
另,小鵬二代VLA雖然也具有「黑箱」特徵,但小鵬為其「黑箱」注入了一個明確的學習範式——從視頻中學習物理規律,這在一定程度上提供了可解釋的方向。
以上是我的一點理解,您有什麼想法,歡迎評論交流。