被追趕和超越,是創業者常面對的挑戰。
文|《中國企業家》記者 閆俊文
編輯|張曉迪
圖片來源|視覺中國
繼2月論文「撞車」之後,梁文鋒和楊植麟又在另一個大模型賽道上相遇了。
4月30日,deepseek上線新模型deepseek-prover-v2,這是一個數學定理證明專用模型。
prover-v2的參數規模進一步擴展到671b(6710億規模參數),相較於前一代v1.5版本的7b規模增加了近百倍,這讓其在數學測試集上的效率和正確率更高,比如,該模型的minif2f測試通過率達到88.9%,它還解決了putnambench(普特南測試)的49道題。
巧合的是,4月中旬,月之暗面也曾推出一款用於形式化定理證明的大模型kimina-prover,這是kimi團隊和numina共同研發的大模型,該產品也開源了1.5b和7b參數的模型蒸餾版本。該模型的minif2f測試通過率為80.7%,putnambench測試成績為10道題。
兩者相比較,在minif2f測試通過率以及普特南測試上,deepseek-prover-v2的表現超過了kimina-prover預覽版。
值得注意的是,兩家公司在技術報告中都提到了強化學習。比如deepseek的題目為《deepseek-prover-v2:通過子目標分解的強化學習推進形式數學推理》,而月之暗面的題目為《kimina-prover preview:基於強化學習技術的大型形式推理模型》。
在2月的兩篇「撞車」論文中,梁文鋒和楊植麟都在作者行列,兩家公司都關注transformer架構最核心的注意力機制,即如何讓模型更好地處理長上下文。
作為中國大模型領域最受矚目的創業者,兩人也正在面臨不同的挑戰。
對於梁文鋒而言,在r1模型推出三個多月後,外界對deepseek「魔法」的痴迷程度正在下降,阿里巴巴的開源模型正在迅速趕上以及超過deepseek,外界熱切期待其發布r2或v4模型,以加強領先優勢。
對於楊植麟和月之暗面,kimi正在遭受來自位元組跳動的豆包和騰訊元寶的挑戰,它也需要保持持續創新。
編程與數學,實現agi的兩條路徑
對於agi的實現路徑,2024年,deepseek創始人梁文鋒在接受《暗涌》採訪時曾說,他們確實押注了三個方向:一是數學和代碼、二是多模態、三是自然語言本身。數學和代碼是agi天然的試驗場,有點像圍棋,是一個封閉的、可驗證的系統,有可能通過自我學習就能實現很高的智能。另一方面,多模態需要參與到人類真實世界裡學習。他們對一切可能性都保持開放。
此次prover-v2模型的推出,讓deepseek的各個模型矩陣保持了同步進化。
prover系列模型於2024年3月開始被發布,2024年8月被更新為deepseek-prover-v1.5(後簡稱為prover-v1.5),2025年4月再被更新至deepseek-prover-v2。
deepseek代碼系列模型coder從2024年4月開始更新,6月升級為coder-v2-0614,7月再次升級,9月,deepseek-v2-chat和deepseek-coder-v2合併,升級後的新模型為deepseek-v2.5,2024年12月,該模型更新至v3,今年3月,升級至v3-0324。
通用推理大模型,以1月20日發布的r1模型為代表,價格低廉,自然語言推理性能強勁,在數學、代碼、自然語言推理等任務上,性能比肩openai o1正式版。
從prover-v2的技術報告上看,其與deepseek的其他模型進化有關聯,其中,deepseek-prover-v2-671b是以deepseek-v3作為基礎模型來做微調,如在冷啟動階段,deepseek-v3將複雜問題分解為一系列子目標,而後,已解決子目標的證明被合成到一個思維過程鏈中,結合deepseek-v3的逐步推理,為強化學習創建一個初始冷啟動。
演算法工程師、知乎用戶「小小將」告訴《中國企業家》,推理模型在進行推理時,要進行複雜的思考,代碼與數學模型可以檢驗推理大模型能力進展,因為數學與代碼的結果是可驗證的。
他認為,prover-v2的推出與新模型r2或v4的上線沒有必然聯繫,它更像是一個獨立模型的更新。
他預測,r2模型更像是gpt-o1到o3的過程,比如在提高強化學習的能力方面,deepseek可以基於v3,提升後訓練效果,因此r2的研發周期可能會比較短。但v4就是一個大版本的更新,其研發周期有可能更長,因為預訓練的工程量以及訓練方法可能都會發生變化。
目前市場已經對deepseek的新模型充滿了想像和期待。
市場上傳言,r2模型將基於華為昇騰系列gpu晶元而推出,但一位行業人士說,這個消息不太可靠,在英偉達h20晶元被限之後,昇騰系列晶元在市場上也是一卡難求,「對於昇騰來說,如果用於大模型研發,可能魯棒性沒那麼強」。
另有創業公司相關人士告訴《中國企業家》,華為昇騰晶元用於大模型的訓練,效果一般,原因在於生態系統沒那麼完善,但用於大模型的推理與部署,是沒有問題的。
deepseek與kimi還能保持領先嗎?
deepseek與月之暗面作為明星初創公司,正在遭受大公司的追趕和超越。
以月之暗面旗下的kimi為例,據questmobile數據,kimi上線不足1年,在2024年11月,月活突破2000萬,僅次於豆包的5600萬。
questmobile數據顯示,截至2025年2月底,ai原生app月活規模前三名從豆包、kimi、文小言更迭為deepseek、豆包、騰訊元寶,規模分別是1.94億、1.16億、0.42億。
2月中旬,騰訊元寶宣布接入deepseek,隨後,在一個多月時間內,騰訊元寶利用超級產品微信引流加上瘋狂買量投流,在用戶數量上已經超過了kimi,成為排名第三的ai產品。據appgrowing數據,在今年一季度,騰訊元寶的投流費用為14億元,遠遠超過kimi的1.5億元規模。
目前,kimi最新的舉動是內測社區功能,增加用戶粘性。
deepseek同樣也避免不了被大公司追趕甚至超越的挑戰。近期,阿里巴巴在大模型方面展現出了強勁的競爭力。
4月29日,阿里巴巴發布新一代通義千問模型qwen3,該模型被稱作首個「混合推理模型」,是「快思考」和「慢思考」集成的一個模型,參數量僅為deepseek-r1的1/3,性能全面超越r1、openai o1等同行產品。
此前,蔡崇信評價deepseek,它告訴了我們開源的價值。根據公開數據,阿里通義已開源200餘個模型,全球下載量超3億次,千問衍生模型數超10萬個,已超越美國llama,成為全球第一開源模型。
一位ai創業者告訴《中國企業家》,deepseek受到了過多的關注,被賦予過多光環,中國大模型產業需要兩三個世界領先的大模型,而不是一個,這時候應鼓勵這個領域的競爭和創業。
另一個重要玩家是百度。4月25日,百度發布文心4.5 turbo和深度思考模型x1 turbo,這兩款模型性能更強大,成本更低,李彥宏更是數次提到deepseek,他說,deepseek也不是萬能的,它只能處理單一的文本,還不能理解聲音、圖片、視頻等多媒體內容,同時幻覺率比較高,很多場合不能放心使用。
「deepseek最大的問題是慢和貴,中國市場上絕大多數大模型api的價格都更低,而且反應速度更快。」李彥宏在發布會上說。
儘管如此,百度仍決定學習deepseek,今年2月,百度決定在6月30日開源文心大模型4.5系列。
越來越多的玩家參與大模型開源競賽,但只有技術最先進的玩家才能定義標準。