金耀輝：DeepSeek破局，中國式創新如何改變AI未來？

2025年03月30日06:42:08 科技 1947

【編者按】今年年初DeepSeek的出圈，讓人看到國產大模型的巨大潛力。技術正以驚人的速度改變著人們的生活和工作方式，而如何認知技術正在成為互聯網時代的「必修課」。在上海交通大學電信學院長聘教授金耀輝看來，DeepSeek的實踐深刻地揭示了，AI的發展不應是算力的盲目擴張和野蠻生長，而應該是系統創新的智慧結晶。中國的創新者們以人才協同突破瓶頸，用工程智慧化解約束，借生態開放贏得未來。這種既仰望星空又腳踏實地的創新哲學，不僅重塑了技術發展的路徑，更在智能時代刻下了東方智慧的獨特印記。以下是他在中歐國際工商學院的演講。

今年春節前後，DeepSeek橫空出世，迅速引發全球關注。很多人都在問：這種創新為什麼能打破西方的技術壟斷？簡單來說，它做到了「花小錢辦大事」——性能比肩美國最頂尖的AI模型，但用的資源卻少得多。不過，它的意義遠不止省錢。今天，我想通過DeepSeek的故事，談談中國式創新如何為AI的未來帶來新可能。

破局時刻：重新定義AI的方向

過去幾年，全球AI發展有點像「拼硬體」的比賽。一些公司和機構認為，只要砸錢買更多、更強的設備，就能勝出。比如，埃隆·馬斯克的xAI公司用20萬塊英偉達顯卡來訓練Grok3模型。與此同時，為了遏制中國AI發展，美國等西方國家出台各種政策，把多家中國晶元公司列入「黑名單」。

就在這種情況下，DeepSeek像一縷「東方晨光」冒了出來，讓全世界眼前一亮。這家企業用了不到行業平均十分之一的訓練成本，就在數學推理、寫代碼等難題上達到了世界頂級水平，有些方面甚至超過了OpenAI。《自然》雜誌連發三篇專題報道，稱它為「東方智慧與前沿科技完美融合」。而在這耀眼成績的背後，是它重新思考了AI發展的路子。

西方主導的AI模式有個問題：太「燒錢」了。比如，GPT-4訓練一次的能耗，夠700戶美國家庭用一年。行業大佬們為了提升AI能力，動不動就用幾萬塊頂級晶元。這種「堆砌式」打法，像搭建沙堡，看著高大，但不穩，還把技術門檻拉得很高，讓很多國家只能望而卻步。

DeepSeek卻走了另一條路。它借鑒了中國航天的智慧——天宮空間站沒靠超大硬體，而是用模塊化設計、分步迭代，在有限資源下建起了「太空家園」。這種方式並沒有一味地追求硬體的大規模堆砌，而是採用了分階段迭代的工程思維，成功突破了資源約束。當國際同行們還在執著於「重型火箭」式的大模型競賽時，中國的創新者們另闢蹊徑，選擇了一條更加精密的道路。DeepSeek通過技術、組織和生態的協同創新，實現了在AI領域「有限資源最大化」的系統工程奇蹟。

回顧中國載人航天的發展歷程，神舟飛船從無人到載人，僅僅用了短短四年時間。這一成就的取得，靠的可不是簡單的硬體堆砌，而是「三步走」戰略下的技術積累：先突破天地往返，再實現出艙活動，最終完成交會對接。每一步都走得堅實有力，穩紮穩打。

DeepSeek同樣採用了這種分階段突破、螺旋式上升的路徑：2023年發布基礎模型奠定框架，2024年迭代出智能任務分配系統，2025年實現強化推理。這種發展模式，正是中國式系統工程的精髓所在。它讓我們明白，在科技發展的道路上，並非只有一座「暴力計算」的獨木橋，通過合理的規劃和創新，我們同樣可以在有限的資源條件下，實現巨大的突破。

工程智慧：錢學森思想的當代實踐

中國工程智慧源遠流長，其傳承強調「整體協同、動態平衡」，核心在於將複雜系統視為一個有機的整體。這一思想在DeepSeek的發展和迭代過程中得到了淋漓盡致的體現。在同等算力條件下，DeepSeek實現了資源使用效率提升17倍的重大突破，這一成績的背後，正是中國工程智慧的生動實踐。

DeepSeek成立不到半年，就在2023年底發布了代碼和純語言模型。此後，幾乎每半年就有一次大的升級。以2024年5月發布的V2版本為例，其中包含兩大技術引擎，展現出了卓越的創新能力。第一個引擎是智能篩選器，它就像一位經驗豐富的編輯，能夠自動識別關鍵信息。在處理長文本時，能夠快速抓取文章重點，大幅壓縮內存消耗，壓縮幅度可以達到93%之多。這一功能在如今這個信息爆炸的時代，顯得尤為重要。我們每天都會接觸到海量的信息，如何快速準確地篩選出有用的部分，是一個亟待解決的問題。另一個引擎是改進的專家智囊團模式。模型內置了數百個專業模塊，每次運算時僅調用相關的「專家團隊」，這就大大降低了算力消耗。

在攻克複雜推理難題方面，DeepSeek同樣實現了技術創新。不同於傳統AI「填鴨式訓練」，DeepSeek R1仿效頂尖少年班培養模式，分四步實現能力躍升：先通過「書法課」規範表達格式（冷啟動SFT），再以「奧賽集訓」強化邏輯推理（推理RL），接著開展「跨學科通識課」平衡能力（通用SFT），最終在「社會實踐」中打磨安全價值觀（全場景RL）。這種「先專精後通才」的路徑，既避免早期訓練混亂，又實現穩定進化。結合「班級競爭」（GPRO）機制——讓AI生成多個答案互相比學，通過內部優選替代機械評分——形成雙重創新，前者解決「學什麼」，後者優化「怎麼學」，共同突破傳統AI依賴標準答案、易受評分偏差限制的瓶頸，以更低成本培育出兼具專業深度與創造力的智能助手。

人才培育：智能時代的組織重構

在全球AI人才爭奪戰打得如火如荼的當下，DeepSeek沒有選擇通過高薪挖角或海外招聘這樣的常規手段來擴充自己的人才隊伍。相反，它完成了一場靜默卻意義深遠的組織實驗。

DeepSeek的團隊規模大約在150人左右，平均年齡僅28歲。團隊成員大多畢業於國內頂尖名校，近半數是剛畢業沒有經驗的年輕人。但就是這樣一支看似年輕稚嫩的隊伍，卻在AI領域創造出了驚人的成績。他們堅持選人的標準一直是「熱愛和好奇心」，正是這種獨特的選人理念，吸引了不同學科背景的「非典型人才」匯聚在一起：有放棄高薪投身科研的「理想主義者」，他們懷揣著對科學的熱愛和追求，不為金錢所動；有在開源社區默默耕耘多年的「技術隱士」，他們積累了豐富的技術經驗，低調而又實力非凡；還有物理專業的新人實習生，他們以獨特的思維方式，顛覆性地重構訓練框架。這些不同背景的人才相互碰撞，催生了跨界創新的火花。

為了給人才提供更好的成長環境，DeepSeek對組織架構進行了重塑。它實行「無固定團隊、無彙報關係、無年度計劃」的扁平架構，取消了KPI考核與層級審批。通過資源開放和信用自治，實現了高效協同。在這個組織里，員工可以隨時調用算力資源組建臨時團隊，項目進展全透明同步，戰略按周迭代而非年度規劃。這種打破傳統金字塔架構的模式，形成了一個資源全開放、角色無邊界、創新自生長的動態網路。演算法工程師可以跨部門協作，新人也可以直接發起技術討論，創意項目能夠通過「資源磁鐵效應」自然聚合資源。

更深層次的變革在於人才價值坐標系的重設。在價值創造維度，賦予員工技術路線自主決策權與資源調配權，以「輕管理」模式激發自主成長，讓人才在攻克大模型等尖端難題中實現認知躍遷。在價值評價維度，將「解決世界級難題」設為基準坐標系，通過設置AI領域最硬核的技術關卡，形成了頂尖人才聚集的「挑戰—成就」引力場。在價值分配維度，創新「創新稅」機制重構成本觀念，將試錯成本轉化為戰略投資，建立「過程價值優先」的容錯文化。這種三維體系徹底顛覆了傳統僱傭關係，將人才定位為技術共同體的價值共創者。通過自主權賦能、高維挑戰牽引、容錯空間保障的協同機制，實現了組織目標與個體價值主張的深度耦合，最終形成了自我強化的創新生態系統。

生態構建：數字時代的治水智慧

DeepSeek的開放戰略，充滿了「李冰治水」的東方智慧。在如今這個數字時代，技術的發展日新月異，封閉的技術體系就如同築起的堤壩，雖然在短期內可能起到一定的保護作用，但從長遠來看，卻難以阻擋技術發展的洪流。正如DeepSeek的創始人所說：「在顛覆性技術面前，閉源形成的護城河是短暫的。即使像OpenAI這樣的巨頭選擇閉源，也無法阻止被別人趕超。」

DeepSeek通過全面的開源策略，構建起了如同「數字都江堰」般的生態體系。它將核心模型以非常寬鬆友好的MIT協議開源，就如同都江堰的「魚嘴」工程，承擔起基礎能力供給的重任。在國內，眾多廠商積極與DeepSeek合作，構建了涵蓋晶元適配、算力支持、手機接入、垂直應用和解決方案等全方位的合作生態。已經有超過15家央國企、近百家上市公司與DeepSeek攜手合作，合作領域覆蓋通信、能源、金融、汽車、醫療、科技等諸多行業。在國際上，科技巨頭AWS、Azure 等雲平台也主動接入，國外幾個當紅的AI產品迅速集成DeepSeek，如信息搜索和問答助手Perplexity和代碼編輯器/開發工具Cursor。

在核心模型的基礎上，DeepSeek構建了「飛沙堰」式的微調體系，助力中小企業實現低成本階梯式AI賦能。中小企業在發展過程中，往往面臨著資金和技術實力不足的問題。而DeepSeek的這種微調體系，讓企業可以藉助價格非常低廉的介面調用服務，實現與現有業務系統的無縫對接。這種「即插即用」模式非常便捷，甚至無需演算法團隊，企業就可以在48小時內完成智能客服、文檔解析等場景部署，與傳統方案相比，節省了90%的初期投入。針對行業深度應用需求，DeepSeek還採用「數據蒸餾 + 領域遷移」技術組合來破解中小企業數據儲備不足的難題。通過知識蒸餾演算法，企業僅需提供千量級的行業文檔樣本，即可生成適配特定領域的增強模型，這種「小樣本微調」方案可以將訓練成本壓縮至傳統方法的 1/5。

DeepSeek的開發者社區則有如寶瓶口，引導著創新力量灌溉應用生態。在Github開源平台的官方 DeepSeek實用集成項目中，近百款應用如繁星般閃耀，涵蓋智能體開發、知識庫管理、翻譯、代碼輔助、字幕生成等。此外，DeepSeek允許全球研究人員研究、適應和擴展其演算法，推動了AI技術的快速傳播和創新。全球的技術社區掀起了「完全開源復現」DeepSeek R1的熱潮。在R1推出一個多月的時間裡，已經有11個開源項目，其中知名AI公司 Huggingface發起的Open R1項目，在Github平台上已經收穫了超過2萬個點贊。

對於大學和科研機構來說，如何利用AI技術在教學、科研和管理方面提質增效是一個重要課題。以上海交通大學為例，聯合華為公司推出了國內高校首個全國產、全系列、滿血版的本地部署的DeepSeek模型。在教學方面，升級了高等數學、概率統計、線性代數等課程的數學推理AI學習工具，不僅回答準確率更高，還可以給出解題思路指導和引導式問題，鍛煉學生的分析和推導能力，同時還發布了在教育教學中使用 AI 的規範。在科研方面，升級白玉蘭科學大模型底座，結合多種微調技術，在化學合成任務方面取得了行業領先的指標。結合具身實驗機器人和智能化功能島等構建了新型無人實驗室，實現了從科學探索、方案優化、實驗操作到精準分析的完全自主操控，極大地提高了科研效率。

DeepSeek的實踐深刻地揭示了，AI的發展不應是算力的盲目擴張和野蠻生長，而應該是系統創新的智慧結晶。中國的創新者們以人才協同突破瓶頸，用工程智慧化解約束，借生態開放贏得未來。這種既仰望星空又腳踏實地的創新哲學，不僅重塑了技術發展的路徑，更在智能時代刻下了東方智慧的獨特印記。

DeepSeek火了以後，很多單位積極部署本地版本，但是應用目前還比較落後，基本還只停留在簡單知識問答層面，對於安全風險控制更是幾乎沒有。事實上，在技術革命歷程中，教育一直在不斷重塑：1.0蒸汽革命（1760-1900），以工廠需求為導向，普及讀寫算和機械技能；2.0電氣革命（1900-1970），學科專業化與標準化培養興起；3.0信息革命（1970-2010），重視數字工具素養和網路化學習生態；4.0智能革命（2010至今），強調人機協同教育、元學習指導和動態能力評估。因此，未來還需要通過教育，不斷加強相關研究，更安全、更高效地應用DeepSeek。

對於任何一個大語言模型來說，其生命力在於能否不斷迭代並實現更多現實場景應用。事實上，我在準備今天的講稿提綱時，也用到了DeepSeek。好的技術歸根到底是為人服務的。DeepSeek的破局為我們在人工智慧領域的發展提供了寶貴的經驗和啟示，其中有偶然也有必然。它讓我們相信，在創新的道路上，只要我們堅持探索，勇於實踐，就一定能夠創造出更加輝煌的成就。

【思想者小傳】