小鵬第二代VLA,傳統VLA,特斯拉「端到端」到底有啥區別?

2025年11月18日23:42:10 科技 1668

2025年11月小鵬科技日上,何小鵬發布了小鵬第二代VLA,創新性地去掉了「語言轉譯」環節,實現了從視覺(V)信號直接生成動作(A)指令的端到端架構。

今天,小鵬又發布了小鵬X9在廣州夜晚複雜路況下,第二代VLA實測的視頻,小鵬X9表現得從從容容,遊刃有餘。

小鵬第二代VLA,傳統VLA,特斯拉「端到端」到底有啥區別? - 天天要聞

小鵬X9 第二代VLA測試

這就讓人有點迷糊了,既然第二代VLA去掉了「語言轉譯」環節,那還叫「VLA」嗎?既然都沒有「L」了,直接從視覺(V)到動作(A)端到端了,那又和傳統如特斯拉「端到端」有啥區別?

小鵬第二代VLA,傳統VLA,特斯拉「端到端」到底有啥區別? - 天天要聞

網友:VLA的L呢

其實去掉「語言轉譯」環節,並不是說沒有了「L」。

首先簡單了解一下傳統意義的VLA(Vision-Language-Action),其運行架構是串聯式的「視覺→語言→動作」,先將視覺信息轉譯成文本或語義符號,再進行推理和動作規劃;小鵬第二代VLA則是端到端架構,「視覺→動作」,直接從視覺信號映射到動作指令,無需中間的「語言」橋樑,這一點又和特斯拉的「端到端」非常像。但,既然小鵬宣傳是第二代VLA,是端到端,那肯定又和傳統端到端(比如特斯拉)有不一樣的地方。它們之前到底哪裡不同呢?

那咱還得再了解一下傳統意義的「端到端」,曾經被吹的多牛多牛,被國內無數車企,包括之前的理想、小鵬追捧,甚至有車企智駕名字都叫「端到端輔助駕駛」了,CEO更是在汽車高質量發展百人大會上宣傳「每一輛車都是端到端自動駕駛[暈]

小鵬第二代VLA,傳統VLA,特斯拉「端到端」到底有啥區別? - 天天要聞

端到端自動駕駛

傳統「端到端」在自動駕駛里,指從感測器(攝像頭,雷達等)信號直接到控制信號,完全省略中間任何顯式表示。從信息輸入到動作執行,中間是一個「黑箱」,你不知道它為啥執行這個動作,所執行動作也無法有效解釋。所以,特斯拉FSD在國內沒有好的數據訓練,陳震也搞不明白為啥跑偏,限速60為啥只跑30。這就是「黑箱」,FSD到底學了些啥,你完全不清楚。

小鵬第二代VLA,傳統VLA,特斯拉「端到端」到底有啥區別? - 天天要聞

陳震測試FSD

既然小鵬從最開始學習特斯拉端到端,到VLA,再到第二代VLA,這個不斷轉變肯定是越來越強,它們之間各自優缺點是怎麼樣的?

傳統端到端(如特斯拉純視覺),追求的是極致的「輸入-輸出」映射,中間沒有其他模態的介入(黑箱),訓練模型只關心動作的模仿,它的目標就是復現駕駛動作,看到即執行,沒有中間思考。所以,傳統端到端的效率特別高(這也是特斯拉被認為動作絲滑的原因),但缺點也非常突出,對訓練數據質量要求非常高,好的壞的都會學[捂臉],發生錯誤無法定位。由於不能解釋為什麼做出這個動作,所以,事故後取證,責任認定都是個問題。因為從感知到執行中間是個「黑箱」,你完全沒辦法搞清楚它是怎麼想的。

小鵬第二代VLA,傳統VLA,特斯拉「端到端」到底有啥區別? - 天天要聞

黑箱機制

而傳統VLA(帶語言轉譯),是顯式的「思維鏈」模式,先理解,後執行。由「視覺->語言->動作」,中間語言做為思維的媒介,使得模型的「思考過程」變得透明,可解釋,決策過程清晰,看到了什麼 -> 理解成了什麼 -> 決定做什麼。其本質是,將感知問題轉化為語言理解問題,利用的大語言模型(LLM)的常識和推理能力。所以,傳統VLA的「L」,其核心是LLM,可以充分LLM強大的常識、推理和規劃能力。例如,它可以用語言推理出「那個球可能會滾到路上,所以小孩可能會去追,我應該減速」。但缺點也很明顯,決策過程慢且可能冗餘,把每個視覺場景都轉譯成語言是不必要的,就像司機不需要把「我要剎車」說出來再行動一樣。這個轉譯環節增加了延遲和犯錯的概率,就好比有些人嘴裡喊著踩剎車,實際卻踩著油門[捂臉]。

小鵬第二代VLA,傳統VLA,特斯拉「端到端」到底有啥區別? - 天天要聞

「端到端」卡殼

再看看小鵬第二代VLA(無語言轉譯),其實是一個隱式的「世界模型」,核心邏輯是「直覺化反應」。它砍掉的不是「思考」,而是「用語言表達思考」這個環節,模型在內部仍然構建了對物理世界的理解,但它不把這個理解「說」出來,而是直接映射到動作。比如通過大量觀看老司機開車的視頻來學習,不要求它「說出來」,直接模仿手腳的動作,形成一種「肌肉記憶」和「條件反射」。所以,小鵬二代VLA中的「L」,理解為LLM更合適,把LLM做為工具,被內化到訓練數據生成或模型預訓練中,而不在推理鏈中。

小鵬第二代VLA,傳統VLA,特斯拉「端到端」到底有啥區別? - 天天要聞

小鵬第二代VLA架構

可以看出,小鵬二代VLA結合了「傳統端到端」和VLA的優勢,模型直接從視頻序列中學習動作的因果鏈(映射),來構建對物理世界的理解,動作只是理解的副產品。所以,何小鵬稱其為「物理AI」,該模型將為小鵬汽車在AI汽車、Robotaxi、人形機器人、飛行汽車等具身智能載體上的落地提供技術底座。

另,小鵬二代VLA雖然也具有「黑箱」特徵,但小鵬為其「黑箱」注入了一個明確的學習範式——從視頻中學習物理規律,這在一定程度上提供了可解釋的方向。

以上是我的一點理解,您有什麼想法,歡迎評論交流。

#創作訓練營開營啦#

科技分類資訊推薦

引領科技豪華MPV新風尚 第二代騰勢D9西安車展亮相 - 天天要聞

引領科技豪華MPV新風尚 第二代騰勢D9西安車展亮相

兼具宜商氣度與家用溫情的科技豪華旗艦MPV,第二代騰勢D9迎來西安地區正式亮相。新車依託全球新能源MPV冠軍底蘊,以第二代刀片電池、雙閥雲輦-C、天神之眼5.0智駕等核心技術全面升級,兼顧商務體面與家庭舒適,為西北高端用戶帶來一站式全能出行解決方案。
採購禁入!科華數據材料造假被拒門外 - 天天要聞

採購禁入!科華數據材料造假被拒門外

本報(chinatimes.net.cn)記者胡雅文 北京報道這家趕上AI算力風口的公司,因投標材料造假,被相關採購方列入禁入名單兩年,其此前提出的複議申請也被正式駁回。相關採購平台近日發布公告,明確駁回科華數據股份有限公司(下稱「科華數據」,002335.SZ)此前提交的複議申請。早在一年前,科華數據已被認定在「信息通信樞紐...
快評樂道L80:15萬元級買大五座,這波值得沖? - 天天要聞

快評樂道L80:15萬元級買大五座,這波值得沖?

日前,樂道L80正式發布並開啟預售,其整車購買預售價為24.58萬元起,租電購買預售價則低至15.98萬元起。面對大型SUV市場「細分再細分」之競爭趨勢,這款樂道年度重磅新車都有哪些優勢?又能否成為「大五座SUV革新之作」?下面,圈哥就帶大家全方位感受。
成都直擊凱威德:純電全尺寸SUV的張揚與大氣 - 天天要聞

成都直擊凱威德:純電全尺寸SUV的張揚與大氣

4月22日,凱迪拉克以奧斯卡級盛典規格,將上海保利大劇院點亮為璀璨舞台,在品牌代言人倪妮與全場嘉賓的共同見證下,凱迪拉克全尺寸純電公路旗艦——凱威德耀然上市。新車共推出長續航四驅Pro、高性能四驅Ultra兩款配置,官方售價區間為46.88萬-50.88萬元。