6月20日,崑崙萬維發佈軟件工程(software engineering, swe)自主代碼智能體基座模型skywork-swe,在開源32b模型規模下實現了業界最強的倉庫級代碼修復能力。崑崙萬維團隊通過構建超過1萬個可驗證的github倉庫任務實例,打造出目前最大規模的可驗證github倉庫級代碼修復的數據集,並系統性驗證了大模型在軟件工程任務上的數據縮放定律(scaling law)。
skywork-swe-32b模型在swe-bench verified基準上取得38.0% pass@1準確率,刷新qwen2.5-coder-32b系列模型在openhands代碼框架下的最佳成績。進一步引入測試時擴展技術後,模型表現提升至47.0%的準確率,不僅超越了現有參數規模在32b以下的開源模型,也顯著縮小了與閉源模型之間的性能差距。
skywork-swe-32b直通車:
技術報告:https://huggingface.co/skywork/skywork-swe-32b/resolve/main/assets/report.pdf
博客地址:https://quixotic-sting-239.notion.site/eb17f379610040ceb54da5d5d24065bd
huggingface地址:https://huggingface.co/skywork/skywork-swe-32b
2025年被廣泛認為是智能體(agent)模型的元年,其核心特徵包括「超多輪交互」和「超長上下文處理」。在眾多應用方向中,軟件工程swe任務正成為大語言模型智能體的關鍵應用場景之一。
相比傳統的代碼生成任務(如代碼編程題解答),swe任務更加貼近真實的軟件開發流程,涵蓋了從定位bug、修改源代碼,到驗證修復效果的完整閉環。這類任務通常源自github倉庫中的實際代碼工程問題,具備高度的真實性、複雜性和挑戰性,是評估智能體模型能力的一個重要基準。
swe任務的獨特之處在於,它對模型提出了更高要求:不僅需要支持多輪交互和長上下文推理,還需具備處理跨文件依賴、調用工具鏈,以及在複雜環境中持續修復代碼問題的能力。這些能力全面考驗了智能體模型的工程實踐水平與系統性思維能力。
01三階段自動化流程,構建大規模、高質量swe任務訓練數據集
儘管當前市面上已有不少工作聚焦於swe任務並收集了相關的數據集,但當前的主流(訓練)數據集仍存在三大核心問題:
缺乏可執行環境與驗證機制:已有開源數據(如swe-bench-extra、swe-fixer)通常缺乏環境或單元測試來驗證數據正確性,導致生成的修復難以驗證。
高質量訓練數據稀缺:儘管某些數據集規模較大(如 swe-dev、swe-gym),但缺乏經過嚴格驗證的訓練樣本,公開可用的高質量數據極為有限,導致開源模型在 swe 任務上長期落後於閉源模型。
數據規模法則適用性不明確:相較於自然語言領域中的任務,swe任務現有的公開訓練數據體量較小,尚無法有效驗證數據擴展是否能帶來模型能力的持續增長。
為打破上述瓶頸,並且打造出具備工程實用性的swe代碼智能體模型,崑崙萬維團隊首先在訓練階段自行構建了一套自動化、結構化、可復現的swe數據收集與驗證流程,共分為三個階段、九個步驟(如下圖所示)。最終團隊構建出超1萬條高質量任務實例、8千條多輪交互的軌跡,為模型訓練提供堅實基礎。
圖丨skywork-swe完整數據收集與驗證流程
skywork-swe作為萬級高質量可驗證數據集,驅動智能體模型能力躍遷
在上述三個階段過程中,團隊實施了嚴格的數據篩選與構建流程。如下圖所示,團隊從最初超過15萬條候選代碼倉庫元數據中,最終篩選出約1萬條高質量實例,構建出當前規模最大、質量最高的可驗證swe任務(訓練)數據集——skywork-swe。
圖丨數據構建過程中各個階段數據樣本量變化示意
skywork-swe數據集在任務數量與代碼覆蓋廣度方面,遠超現有同類數據集(如swe-gym lite與swe-bench verified),為大模型提供了豐富、多樣且貼近實際的軟件工程任務樣本,持續推動智能體模型的能力進化。此外,skywork-swe數據集不僅涵蓋如pydantic、sqlglot、dvc等主流開源項目,還包含大量中小型倉庫,呈現出高度貼近真實開發生態的任務分佈特徵。這種貼近真實開發生態的數據構成,有助於提升模型在複雜多樣場景下的問題解決能力。
圖丨skywork-swe數據集的github倉庫詞雲
02 skywork-swe登頂32b開源sota
「less artifact, more intelligence」(更少的人工約束,更多智能發揮) 是團隊開發軟件工程自主代碼智能體模型的核心理念。我們主張賦予ai更大自主權,由其決定工具使用與任務執行方式,而非人為預先設定規則流程。基於這一理念,最終選用目前最具自主性的開源openhands框架。
基於skywork-swe數據集的高質量智能體軌跡,崑崙萬維團隊微調得到skywork-swe-32b模型,該模型在swe-bench verified測評中取得優異成績。截至目前,skywork-swe-32b在swe-bench榜單中成為當前性能最強的32b開源代碼智能體大模型,刷新swe-bench verified基準上同等規模模型的最佳成績,充分展示了其工程實用價值:
1.skywork-swe-32b測評結果超越相同參數規模的模型。skywork-swe-32b基於開源openhands代碼agent框架,實現了38.0% pass@1的準確率,達到了qwen2.5-coder-32b系列模型在openhands代碼框架下的最優水平。更為關鍵的是,實驗結果進一步表明:隨着訓練數據規模的持續擴展,模型性能持續提升,充分驗證了「數據規模擴展帶來的性能增益」在軟件工程任務中的有效性與適用性。
2.應用測試時擴展技術之後,skywork-swe-32b取得了最優性能。在引入測試時擴展技術(test-time scaling,tts)後,skywork-swe-32b (+ tts) 的pass@1準確率進一步提升至47.0%,刷新了32b參數規模以下開源模型的sota。更值得關注的是,skywork-swe-32b在與參數量高達671b的deepseek-v3-0324模型對比中仍展現出明顯優勢,領先8.2個百分點。
3.skywork-swe-32b (+ tts) 的表現接近甚至超越多數主流閉源大模型。skywork-swe-32b (+ tts) 的pass@1準確率顯著超越了gpt-4.1-mini(23.86%)、 claude 3.5 haiku(40.6%)和 openai-o1-preview (41.3%),並且領先於claude v3.5(46.0%)。
03持續探索更多agent任務場景
過去半年多時間,崑崙萬維在獎勵模型、多模態、推理、視頻生成等方向開源了一系列sota級別模型,如今又在agent(swe任務)方向再下一城。繼5月天工超級智能體(skywork super agents)面向全球發佈後,今天我們又發佈並開源了自主代碼智能體模型skywork-swe-32b模型,這不僅是公司堅定開源策略的重要實踐,更代表了我們對agent在辦公任務、swe任務場景中的重要探索。
通過skywork-swe數據集的構建,以及自主代碼智能體模型skywork-swe-32b模型的發佈,團隊研究表明高質量且可執行驗證的數據是提升代碼智能體模型性能的關鍵瓶頸,系統化的數據擴展策略將在推動開源模型性能突破中發揮關鍵作用。基於此,我們期望skywork-swe-32b的開源,能夠助力社區在大語言模型驅動的軟件工程研究中持續演進。
未來,skywork-swe-32b模型將進一步拓展多編程語言支持以覆蓋更廣泛的開發場景,並探索融合運行時測試反饋的強化學習機制,為構建真正具備智能軟件開發能力的大語言模型奠定堅實基礎。同時,崑崙萬維也將積極探索更多agent任務場景。