梁文鋒和楊植麟再「撞車」

2025年05月05日00:00:17 動漫 5900

被追趕和超越，是創業者常面對的挑戰。

文｜《中國企業家》記者閆俊文

編輯｜張曉迪

圖片來源｜視覺中國

繼2月論文「撞車」之後，梁文鋒和楊植麟又在另一個大模型賽道上相遇了。

4月30日，deepseek上線新模型deepseek-prover-v2，這是一個數學定理證明專用模型。

prover-v2的參數規模進一步擴展到671b（6710億規模參數），相較於前一代v1.5版本的7b規模增加了近百倍，這讓其在數學測試集上的效率和正確率更高，比如，該模型的minif2f測試通過率達到88.9%，它還解決了putnambench（普特南測試）的49道題。

巧合的是，4月中旬，月之暗面也曾推出一款用於形式化定理證明的大模型kimina-prover，這是kimi團隊和numina共同研發的大模型，該產品也開源了1.5b和7b參數的模型蒸餾版本。該模型的minif2f測試通過率為80.7%，putnambench測試成績為10道題。

兩者相比較，在minif2f測試通過率以及普特南測試上，deepseek-prover-v2的表現超過了kimina-prover預覽版。

值得注意的是，兩家公司在技術報告中都提到了強化學習。比如deepseek的題目為《deepseek-prover-v2：通過子目標分解的強化學習推進形式數學推理》，而月之暗面的題目為《kimina-prover preview：基於強化學習技術的大型形式推理模型》。

在2月的兩篇「撞車」論文中，梁文鋒和楊植麟都在作者行列，兩家公司都關注transformer架構最核心的注意力機制，即如何讓模型更好地處理長上下文。

作為中國大模型領域最受矚目的創業者，兩人也正在面臨不同的挑戰。

對於梁文鋒而言，在r1模型推出三個多月後，外界對deepseek「魔法」的痴迷程度正在下降，阿里巴巴的開源模型正在迅速趕上以及超過deepseek，外界熱切期待其發佈r2或v4模型，以加強領先優勢。

對於楊植麟和月之暗面，kimi正在遭受來自位元組跳動的豆包和騰訊元寶的挑戰，它也需要保持持續創新。

編程與數學，實現agi的兩條路徑

對於agi的實現路徑，2024年，deepseek創始人梁文鋒在接受《暗涌》採訪時曾說，他們確實押注了三個方向：一是數學和代碼、二是多模態、三是自然語言本身。數學和代碼是agi天然的試驗場，有點像圍棋，是一個封閉的、可驗證的系統，有可能通過自我學習就能實現很高的智能。另一方面，多模態需要參與到人類真實世界裏學習。他們對一切可能性都保持開放。

此次prover-v2模型的推出，讓deepseek的各個模型矩陣保持了同步進化。

prover系列模型於2024年3月開始被發佈，2024年8月被更新為deepseek-prover-v1.5（後簡稱為prover-v1.5），2025年4月再被更新至deepseek-prover-v2。

deepseek代碼系列模型coder從2024年4月開始更新，6月升級為coder-v2-0614，7月再次升級，9月，deepseek-v2-chat和deepseek-coder-v2合併，升級後的新模型為deepseek-v2.5，2024年12月，該模型更新至v3，今年3月，升級至v3-0324。

通用推理大模型，以1月20日發佈的r1模型為代表，價格低廉，自然語言推理性能強勁，在數學、代碼、自然語言推理等任務上，性能比肩openai o1正式版。

從prover-v2的技術報告上看，其與deepseek的其他模型進化有關聯，其中，deepseek-prover-v2-671b是以deepseek-v3作為基礎模型來做微調，如在冷啟動階段，deepseek-v3將複雜問題分解為一系列子目標，而後，已解決子目標的證明被合成到一個思維過程鏈中，結合deepseek-v3的逐步推理，為強化學習創建一個初始冷啟動。

算法工程師、知乎用戶「小小將」告訴《中國企業家》，推理模型在進行推理時，要進行複雜的思考，代碼與數學模型可以檢驗推理大模型能力進展，因為數學與代碼的結果是可驗證的。

他認為，prover-v2的推出與新模型r2或v4的上線沒有必然聯繫，它更像是一個獨立模型的更新。

他預測，r2模型更像是gpt-o1到o3的過程，比如在提高強化學習的能力方面，deepseek可以基於v3，提升後訓練效果，因此r2的研發周期可能會比較短。但v4就是一個大版本的更新，其研發周期有可能更長，因為預訓練的工程量以及訓練方法可能都會發生變化。

目前市場已經對deepseek的新模型充滿了想像和期待。

市場上傳言，r2模型將基於華為昇騰系列gpu芯片而推出，但一位行業人士說，這個消息不太可靠，在英偉達h20芯片被限之後，昇騰系列芯片在市場上也是一卡難求，「對於昇騰來說，如果用於大模型研發，可能魯棒性沒那麼強」。

另有創業公司相關人士告訴《中國企業家》，華為昇騰芯片用於大模型的訓練，效果一般，原因在於生態系統沒那麼完善，但用於大模型的推理與部署，是沒有問題的。

deepseek與kimi還能保持領先嗎？

deepseek與月之暗面作為明星初創公司，正在遭受大公司的追趕和超越。

以月之暗面旗下的kimi為例，據questmobile數據，kimi上線不足1年，在2024年11月，月活突破2000萬，僅次於豆包的5600萬。

questmobile數據顯示，截至2025年2月底，ai原生app月活規模前三名從豆包、kimi、文小言更迭為deepseek、豆包、騰訊元寶，規模分別是1.94億、1.16億、0.42億。

2月中旬，騰訊元寶宣布接入deepseek，隨後，在一個多月時間內，騰訊元寶利用超級產品微信引流加上瘋狂買量投流，在用戶數量上已經超過了kimi，成為排名第三的ai產品。據appgrowing數據，在今年一季度，騰訊元寶的投流費用為14億元，遠遠超過kimi的1.5億元規模。

目前，kimi最新的舉動是內測社區功能，增加用戶粘性。

deepseek同樣也避免不了被大公司追趕甚至超越的挑戰。近期，阿里巴巴在大模型方面展現出了強勁的競爭力。

4月29日，阿里巴巴發佈新一代通義千問模型qwen3，該模型被稱作首個「混合推理模型」，是「快思考」和「慢思考」集成的一個模型，參數量僅為deepseek-r1的1/3，性能全面超越r1、openai o1等同行產品。

此前，蔡崇信評價deepseek，它告訴了我們開源的價值。根據公開數據，阿里通義已開源200餘個模型，全球下載量超3億次，千問衍生模型數超10萬個，已超越美國llama，成為全球第一開源模型。

一位ai創業者告訴《中國企業家》，deepseek受到了過多的關注，被賦予過多光環，中國大模型產業需要兩三個世界領先的大模型，而不是一個，這時候應鼓勵這個領域的競爭和創業。

另一個重要玩家是百度。4月25日，百度發佈文心4.5 turbo和深度思考模型x1 turbo，這兩款模型性能更強大，成本更低，李彥宏更是數次提到deepseek，他說，deepseek也不是萬能的，它只能處理單一的文本，還不能理解聲音、圖片、視頻等多媒體內容，同時幻覺率比較高，很多場合不能放心使用。

「deepseek最大的問題是慢和貴，中國市場上絕大多數大模型api的價格都更低，而且反應速度更快。」李彥宏在發佈會上說。

儘管如此，百度仍決定學習deepseek，今年2月，百度決定在6月30日開源文心大模型4.5系列。

越來越多的玩家參與大模型開源競賽，但只有技術最先進的玩家才能定義標準。