此次更新提升了模型的推理和複雜任務處理能力,使其性能接近openai的o3模型和谷歌的gemini 2.5 pro。
deepseek r1模型近日完成了一次小版本升級。該公司稱,此次升級主要強化了語義理解的精準性、複雜邏輯推理能力以及長文本處理的穩定性。
儘管deepseek未公布更多細節,但網友測評後表示,模型的理解能力顯著提升,例如在激活參數部分可以製作交互動畫展示,關鍵信息邏輯也更加清晰。此外,r1的編程能力也大幅提升,有網友稱其可以一次性生成1000多行無錯誤代碼,甚至能與“編程新王”claude 4一較高下。
此次升級是deepseek自今年3月發布deepseek-v3-0324模型後的首次更新。v3模型在數學、代碼類評測集上超越了gpt-4.5和claude-3.7-sonnet,性價比極高,輸入價格僅為claude-3.7-sonnet的1/11、gpt-4.5的1/277,且開源可免費用於商業用途。
hugging face的研究員adina yakefu表示,升級後的deepseek r1在減少幻覺(即提供錯誤信息)方面也有重大改進,顯示出其不僅在追趕,更是在與頂級模型競爭。
deepseek的r1模型自1月發布以來,曾因多項指標優於西方競爭對手而引發全球關注,並導致科技股暴跌。然而,自v3模型發布後,deepseek的熱度有所下降,市場更關注其r2模型的發布。此前有消息稱,r2將採用混合專家模型(moe),參數量預計達1.2萬億,單位推理成本較gpt-4大幅降低。但截至目前,deepseek仍未正式確認r2的發布時間。
r1推理模型的最新版本r1-0528再次引發了全球媒體的廣泛關注。
路透社報道稱,此次發布加劇了與美國競爭對手如openai的競爭。在由加州大學伯克利分校、麻省理工學院和康奈爾大學研究人員開發的livecodebench排行榜中,deepseek的r1-0528在代碼生成方面僅略低於openai的o4 mini和o3推理模型,但超過了xai的grok 3 mini和阿里巴巴的qwen 3。
cnbc指出,deepseek此次升級模型發布低調,但其推理能力使其能夠執行更複雜的任務。《華爾街日報》中文版則提到,deepseek的低成本、高性能r1模型自年初以來吸引了全球目光,推動了中國科技股的上漲,也顯示出市場對中國ai能力的樂觀預期。