梁文鋒就是AI界的黃崢 - 動漫| 天天要聞

2025年01月29日20:00:15 動漫 9316

梁文鋒帶領着deepseek，還在繼續攪動大模型行業。

繼用r1模型炸場之後，1 月 28 日凌晨，除夕夜前一晚，deepseek 又開源了其多模態模型 janus-pro-7b，宣布在 geneval 和 dpg-bench 基準測試中擊敗了 dall-e 3（來自 openai）和 stable diffusion。

隨後特朗普在會議上提到deepseek的出現為美國的企業敲響了警鐘，「我們需要集中精力在競爭中獲勝」。相隔一天，據外媒報道，多名美國官員稱deepseek是「偷竊」，正對其展開國家安全調查。

openai也適時發佈聲明稱一直知道其他公司試圖蒸餾美國領先公司的模型，如今「採取反制措施保護我們的知識產權」，並表示將和美國政府緊密合作保護最先進模型免受竊取。

或許梁文鋒自己都想不到，意外火出圈的deepseek，刺痛着更多人的神經。

而一年前，deepseek v2模型發佈時，便開始被冠上ai界拼多多的稱號。

反卷大廠的梁文鋒，早已在ai領域複製過黃崢式「後來居上」的故事，並在國內掀起打到骨折的大模型價格戰。

當時，在接受36氪採訪中，梁文鋒表示，"我們不是有意成為一條鯰魚，只是不小心成了一條鯰魚。"

如果說梁文鋒的鯰魚效應，在於證明了用低成本也能高效率訓練出ai大模型，無意卷到了bat。去年一年，黃仁勛則在製造另一種鯰魚效應，即以每6個月為周期，更新更高性能的芯片，使得害怕搶不到最新gpu而掉隊的巨頭們，瘋搶英偉達gpu，微軟、谷歌、meta、馬斯克，都被拽進了這場gpu大作戰游戲裏。

一年後，deepseek成為硅谷眼中"神秘的東方力量"，被scale ai創始人亞歷山大·王（alexandr wang）評價道，「過去十年來，美國可能一直在人工智能競賽中領先於中國，但deepseek的ai大模型發佈可能會『改變一切』。」

起因是deepseek在年前發佈了新的開源模型deepseek r1,不僅性能追上了openai o1完整版，用550萬美元的訓練開銷做到硅谷投入上億美元的效果。

在這場熱潮前，大模型的主流敘事是英偉達高端gpu「一芯難求」，而如今，黃仁勛的銷冠神話，迎來了梁文鋒的正面衝擊。

梁文鋒所帶領的deepseek，讓美國華爾街開始重新審視，在這場大模型生存戰里，英偉達芯片和高端算力的需求是否存在泡沫。這樣的擔憂，使得英偉達在1月27日一夜蒸發近6000億美元市值。

而這一切，在梁文鋒看來，只是「按照自己的步調來做事」，然後核算成本定價。

梁文鋒並非有意成為鯰魚，但正如硅谷著名風投家marc andreessen的評價：「作為開源項目，這是對世界的一份深遠饋贈。」他們節約了大量的成本，也讓很多高薪的硅谷大佬，和享受這個行業巨大泡沫的公司，顏面掃地。

1月28日，openai ceo奧特曼終於回應了deepseek，他誇讚deepseek讓人印象深刻，特別在於提供模型的性價比上。隨後則話鋒一轉，強調openai將提供更好的模型，並暫停一些發佈。此前，奧特曼在x上迅速發佈首個智能體operator，還開始劇透起了即將上線的o3-mini。網友戲稱，「deepseek逼出了奧特曼的新大招。」

同時，根據外媒爆料，deepseek的發佈引發了meta的緊急加班，工程師瘋狂拆解代碼，員工爆出其高管的薪資竟比訓練整個v3模型的成本還高。

2025年，不想當鯰魚的梁文鋒，結結實實攪動了一池春水。

「大部分中國公司習慣follow，而不是創新。」而在採訪中，對於上一次deepseek引發大模型價格戰的熱議，梁文鋒表示，deepseek正以創新貢獻者的身份，參與到這場此前由美國主導的科技創新游戲裏。

這位80後ai創業者，組織起一些top高校的應屆畢業生、沒畢業的博四、博五實習生，還有一些畢業才幾年的年輕人，他形容團隊成員們，「很多人對做研究的渴望，遠超對錢的在意。」

梁文鋒將deepseek定義為「硬核創新」，做最難的事，似乎成為他所帶領的deepseek的一致認知。

在鯰魚的外觀之下，deepseek在梁文鋒眼中，內里則滿是技術理想主義的敘事。

此前，梁文鋒曾斷言，「中國必然需要有人站到技術的前沿」。而這一次，deepseek先踏上浪頭，但無論是鯰魚梁文鋒，還是「技術理想主義者」梁文鋒，要回答的問題還很多、很多。

這次deepseek的出圈，總少不了與openai的對比。更有網友調侃，「deepseek活成了真openai（開放模型），而openai活成了close ai（封閉模型）」。

實際上，奧特曼和梁文鋒，都是典型的學霸型創業者。

前者18歲考上斯坦福大學計算機系，大二便輟學創業；後者畢業於浙江大學，2015年成立幻方量化，在採訪中梁文鋒提到，2022年底chatgpt風靡時，他們就開始動手招聘了。2023年7月，梁文鋒成立了deepseek。

圖註：出現在新聞聯播內的梁文鋒｜圖源：字母榜截圖

梁文鋒並不諱言openai對他的啟發性，甚至，在不少地方都和奧特曼展現出了驚人的相似。

出售一手創辦的初創公司loopt後，奧特曼創立了風投基金hydrazine capital。2015年，30歲的奧特曼成為知名孵化器yc的總裁，但在agi（通用人工智能）不被看好，融資艱難的2015年，認定深度學習前景無量的奧特曼，卻和特斯拉創始人馬斯克共同創立了openai。

梁文鋒曾是幣安的早期成員，並一手創辦了幻方量化，作為同樣有着投資經歷的創業者，梁文鋒入局的2023年，大廠探入，許多創業型公司放棄了只專註通用型大模型的大方向，梁文鋒卻堅定deepseek要專註基礎模型的研究和突破。

同樣，在早期，兜里沒錢的奧特曼，會將「一起構建agi」寫在招聘信息里。這個當時可怕而遙遠的目標，讓openai吸引到了一大批年輕的agi信仰者。

「年輕、有潛力」，成為奧特曼和梁文鋒共同的選人標準。

在梁文鋒看來，如果追求短期目標，找現成有經驗的人是對的。但如果看長遠，經驗就沒那麼重要，基礎能力、創造性、熱愛等更重要。也正是因此，這個沒有知名技術大牛，不在播客分享創業感悟的純本土創業團隊，成了最快追上openai的隊伍。

甚至，在最開始，如同成立之初以非營利為目的的openai，商業化也並未寫入deepseek的to do list。

在這點上，奧特曼與梁文鋒同樣有着一致的想法。

「openai早期投資人投錢時，想的一定不是我要拿回多少回報，而是真的想做這個事。」在採訪中，梁文鋒面對大模型燒錢的相關提問表示，如果一定要找一個商業上的理由，（一個商業公司去做一種無限投入的研究性探索），可能是找不到的，因為划不來。從商業角度來講，基礎研究投入回報比很低。

但「一件激動人心的事，或許不能單純用錢衡量。就像家裡買鋼琴，一來買得起，二來是因為有一群急於在上面彈奏樂曲的人。」

如今，梁文鋒的agi夢想已經震動了整個硅谷。

不過，曾經以非營利為目的的openai，希望對抗大公司的ai霸權，奧特曼隨後引入微軟的巨額投資。在奧特曼的主導下，openai將成為一家真正的營利性企業。而後來者的梁文鋒，卻始終堅持模型開源，並希望更多人，哪怕一個小 app都可以低成本用上大模型，而不是技術只掌握在一部分人和公司手中，形成壟斷。

對創立初便以agi普惠全人類為使命的openai來說，奧特曼曾射出這顆子彈，如今時隔10年，正中自己的眉心。

從這一點來看，相比起做一條鯰魚，技術理想主義者的標籤，似乎更適合梁文鋒。

但不想成為鯰魚的理想主義者梁文鋒，卻意外兩次「卷到了」所有人。

第一次，deepseek成了引發中國大模型價格戰的源頭。

在被ai連續轟炸的2024年5月，deepseek聲名鵲起。起因是它們發佈的一款名為deepseek v2的開源模型，堪稱價格屠夫：推理成本被降到每百萬token僅 1塊錢，約等於llama3 70b的七分之一，gpt-4 turbo的七十分之一。

deepseek憑藉超絕性價比成了「ai界拼多多」，bat們也被卷得坐不住，紛紛降價。中國大模型價格戰由此一觸即發。

首先智譜ai跟進，將入門級產品降價，隨後位元組將旗艦模型降到和deepseek同價，接着阿里、騰訊等隨即跟上。

儘管，除了同為deepseek創始人的徐進畢業於竺可楨學院，是黃崢的學弟，deepseek與拼多多並無更多交集。

一心想着「讓ai變成人人可以用得起的東西」的梁文鋒，甚至詫異於大廠的跟進動作，畢竟「大廠的模型成本比我們高很多，所以我們沒想到會有人虧錢做這件事。」

而第二次，deepseek引發了硅谷大地震。

更低成本、不輸openai成熟模型的效率，梁文鋒帶領下的deepseek再次坐穩了「ai界拼多多」的寶座，並且成功出海。

目前，deepseek官方尚未公布訓練推理模型r1的完整成本，但官方公布了其api定價，r1每百萬輸入tokens在1元-4元人民幣，每百萬輸出tokens為16元人民幣。作為對比，openai o1的運行成本約為前者的30倍。

換言之，梁文鋒以不到十分之一的成本，做出了硅谷需要上億投入才能燒出的大模型。

硅谷的震動幾乎是必然的。除了被拿來全面對標的openai，首當其衝的是meta。以「大模型開源之王」為title的meta，內部員工匿名發佈消息稱，meta的生成式ai部門正因deepseek處於恐慌中，甚至爆料稱尚未發佈的新一代開源模型llama 4，在基準測試中已經落後於deepseek。

a16z合伙人、ai大模型mistral董事會成員 anjney midha更是發文說道，從斯坦福到麻省理工，deepseek r1幾乎一夜之間就成了美國頂尖大學研究人員的首選模型。

與此同時，梁文鋒帶領的deepseek正撬起openai的牆角。

企業級ai代理開發商superfocus的聯合創始人表示，相比起正使用的openai旗艦模型gpt-4，deepseek提供的支持不僅相似，甚至更好。「superfocus可能會在未來幾周轉向deepseek，因為deepseek可以免費下載、在自家服務器上存儲和運行，並將增加銷售產品的利潤率。」比openai便宜30倍的api價格，讓梁文鋒一不小心就出了海。

同時，作為純本土團隊的deepseek火了，梁文鋒領軍年輕中國團隊，無海外背景卻硬剛硅谷巨頭的敘事成了流量密碼。

爆火之下，梁文鋒還需要回答更多的新問題。

字母榜嘗試讓deepseek作為一名記者，對梁文鋒提一個問題，這是deepseek的回答：

「deepseek宣稱其模型訓練成本僅為行業1/10，但有開發者指出，這可能是通過大幅縮減模型參數規模或依賴幻方早期囤積的廉價算力實現的，而非真正的技術突破。您是否承認這種『成本優勢』本質是金融資源套利，而非算法創新？」

令人驚訝的是，這個由deepseek問出的問題，幾乎可以概括如今圍繞着deepseek的大部分爭議。

正如chatgpt橫空出世讓openai成為當之無愧的ai頭部企業，英偉達的gpu憑藉高性能成為算力基礎，讓黃仁勛享盡高光，現在，deepseek的r1模型，卻只能證明梁文鋒有能力做出一個和openai最新模型相差無幾的模型。

在採訪中，梁文鋒不止一次地提到希望打破硅谷的科技壟斷，希望站在「技術的前沿」，但做一個和openai最新模型相差無幾的模型，還遠談不上真正的超越，r1仍然是對openai的模仿和跟隨。

deepseek爆火之下，衝浪達人馬斯克一直罕見地並未發表評論，卻在最近點贊了一則推文。

其中，推文中提到了deepseek大量依賴模型蒸餾技術，需要藉助chatgpt-4o和o1才能完成訓練。

儘管模型蒸餾是一項常見的技術手段，能夠將openai中的大量數據迅速提煉重點並快速理解和應用，但這種模式只能讓deepseek接近openai，而難以真正超越openai。

更不必說，儘管宣揚自己是技術理想主義，梁文鋒的背後是量化私募巨頭幻方，是bat之外唯一能夠儲備萬張a100芯片的公司。據《財經十一人》報道，2023年時國內擁有超過1萬枚gpu的企業不超過5家，其中便包括幻方。

而能夠用十分之一的成本做出同等規模的大模型，也正是基於梁文鋒的實驗室已經投入了數億美元做前期研究，並擁有大規模的芯片。想成為ai界拼多多，普通ai創業團隊幾乎難以復現梁文鋒的路徑。