在開源技術蓬勃興起重塑產業格局之際,國內人工智能再次迎來技術突破。
近期,阿里巴巴通義千問團隊正式發布新一代推理模型 QwQ-32B,通過創新的大規模強化學習技術,在保持輕量化部署特性的同時,實現了數學推理、代碼生成和通用理解能力的系統性躍升。
性能比肩 DeepSeek-R1,模型架構與算法雙重突破
據技術團隊透露,QwQ-32B 在模型架構和訓練算法上實現雙重突破。特別是針對複雜數學問題的邏輯推理能力,通過引入符號計算與深度學習的融合架構,使其在 AIME24 國際數學競賽數據集上的準確率達到行業頭部水平。
在數學推理、編程能力和通用能力的一系列基準測試中,通義千問大模型團隊將QwQ-32B與OpenAI的o1-mini以及DeepSeek滿血版及蒸餾版進行了比較,結果顯示,在測試數學能力的AIME24評測集上,以及評估代碼能力的LiveCodeBench中,QwQ-32B表現與DeepSeek-R1相當,遠勝於o1-mini及相同尺寸的R1蒸餾模型。
在多版本的測試中QwQ-32B測試水平略高於DeepSeek - R1 671B “滿血” 版,且明顯高於Open AIo1-mini版本/圖源:Qwen
值得一提的是,DeepSeek-R1擁有6710億參數(激活370億),而QwQ-32B在性能相當的情況下,顯存需求更小,通常在GPU上需要24GB vRAM,而運行完整的DeepSeek R1則需要超過1500GB vRAM。
舉個例子,QwQ-32B 就如同城市 SUV 搭載的混合動力系統,通過智能能量管理技術,將傳統燃油車的油量(顯存)壓縮至混動電池組的體積,卻能保持與豪華越野車相當的動力輸出。這種創新好比將大排量發動機的能量轉化效率提升至渦輪增壓級別,通過動態分配電力與燃油動力,避免全功率運行的能源浪費。
基於模型的優越性能,Hugging Face 的 Vaibhav Srivastav 在評測後發表評論:“QwQ-32B 在 Hyperbolic Labs 支持下的推理速度‘快得驚人’,完全可與頂級模型媲美。”
市場競爭激烈,QwQ-32B 商業轉化面臨挑戰
值得注意的是,QwQ-32B推理模型雖然存有諸多優勢,但也暴露出一些短板,有媒體報道稱,即便是面對簡單的問題,QwQ-32B也會生成大量的思維鏈,導致輸出結果的速度較慢。
針對這一問題,從模型架構看,QwQ-32B雖有 64 層 Transformer 結構,但處理複雜概念可能深度不足,注意力機制也難捕捉複雜依賴。訓練數據若在特定領域覆蓋不廣、質量欠佳,會影響其知識儲備。此外,強化學習等訓練環節若有缺陷,以及算力限制,都可能致使這些短板產生。
這些問題看起來像是“疥癬之疾”,但如要仔細分析,阿里雲想要快速把“技術變現”仍過於樂觀。
目前在國內市場,當前大模型市場競爭異常激烈。眾多企業紛紛布局,市場飽和度較高。儘管 QwQ-32B 有技術優勢,但要在眾多競品中脫穎而出並迅速轉化為商業收益並非易事。在國內,騰訊的混元模型、百度的文心一言等已在市場中佔據一定份額,用戶習慣和市場渠道已初步形成。新模型進入市場並獲取用戶、實現商業變現,面臨著較高的用戶獲取成本和市場教育成本。以騰訊混元模型為例,其憑藉在社交生態等領域的優勢,擁有大量潛在用戶基礎,在模型推廣和應用拓展上具有先天優勢,這使得 QwQ-32B 在競爭中面臨不小壓力。
混元模型接入騰訊內容業務超600個
在應用落地方面,QwQ-32B 存在一定局限性。部分用戶反饋模型存在 “過度思考” 問題,簡單任務可能生成冗長思維鏈,如 “Strawberry” 問題輸出近 7 萬字,這嚴重影響了響應速度。在實際商業場景中,尤其是對實時性要求較高的應用場景,如在線客服、智能推薦等,響應速度至關重要。這種性能上的不足,限制了其在部分商業場景中的應用,進而影響了商業轉化。
此外在技術層面,雖然模型在某些技術指標上表現優異,但在國內市場並沒有形成顯著優勢。一方面,國內用戶對於模型的需求具有多樣性和複雜性,除了技術性能,更注重模型與實際業務場景的契合度以及本地化服務能力。而 QwQ-32B 在推出初期,可能尚未充分針對國內各行業的具體需求進行深度優化和定製,難以快速滿足不同行業用戶的個性化需求。例如,在金融行業,對風險評估、合規性等方面有嚴格要求,模型需要精準適配這些業務需求,否則難以獲得金融機構的大規模應用。另一方面,國內市場的競爭不僅是技術的競爭,還包括生態建設的競爭。阿里雲在模型生態建設上,相較於騰訊、字節依託微信、抖音等龐大社交平台,可能尚未構建起完善的開發者社區、應用合作夥伴網絡等生態體系。一個活躍且龐大的生態體系,能夠促進模型的廣泛應用和持續優化,缺乏生態優勢,使得 QwQ-32B 在國內市場的競爭力大打折扣 。
由此可見,阿里雲 QwQ-32B 推理模型雖有技術亮點,但由於激烈的市場競爭、技術應用落地的局限以及在國內市場生態建設等方面的不足,導致其難以快速實現商業轉化,在國內市場的核心競爭力也未凸顯。
本文源自金融界