仅32B,昆仑万维开源「Skywork-SWE-32B」,拿下代码开源SOTA

2025年06月20日12:10:22 科技 7455

6月20日,昆仑万维发布软件工程(software engineering, swe)自主代码智能体基座模型skywork-swe,在开源32b模型规模下实现了业界最强的仓库级代码修复能力。昆仑万维团队通过构建超过1万个可验证的github仓库任务实例,打造出目前最大规模的可验证github仓库级代码修复的数据集,并系统性验证了大模型在软件工程任务上的数据缩放定律(scaling law)。

skywork-swe-32b模型在swe-bench verified基准上取得38.0% pass@1准确率,刷新qwen2.5-coder-32b系列模型在openhands代码框架下的最佳成绩。进一步引入测试时扩展技术后,模型表现提升至47.0%的准确率,不仅超越了现有参数规模在32b以下的开源模型,也显著缩小了与闭源模型之间的性能差距。

仅32B,昆仑万维开源「Skywork-SWE-32B」,拿下代码开源SOTA - 天天要闻

skywork-swe-32b直通车:

  1. 技术报告:https://huggingface.co/skywork/skywork-swe-32b/resolve/main/assets/report.pdf

  2. 博客地址:https://quixotic-sting-239.notion.site/eb17f379610040ceb54da5d5d24065bd

  3. huggingface地址:https://huggingface.co/skywork/skywork-swe-32b

2025年被广泛认为是智能体(agent)模型的元年,其核心特征包括“超多轮交互”和“超长上下文处理”。在众多应用方向中,软件工程swe任务正成为大语言模型智能体的关键应用场景之一。

相比传统的代码生成任务(如代码编程题解答),swe任务更加贴近真实的软件开发流程,涵盖了从定位bug、修改源代码,到验证修复效果的完整闭环。这类任务通常源自github仓库中的实际代码工程问题,具备高度的真实性、复杂性和挑战性,是评估智能体模型能力的一个重要基准。

swe任务的独特之处在于,它对模型提出了更高要求:不仅需要支持多轮交互和长上下文推理,还需具备处理跨文件依赖、调用工具链,以及在复杂环境中持续修复代码问题的能力。这些能力全面考验了智能体模型的工程实践水平与系统性思维能力。

01三阶段自动化流程,构建大规模、高质量swe任务训练数据集

尽管当前市面上已有不少工作聚焦于swe任务并收集了相关的数据集,但当前的主流(训练)数据集仍存在三大核心问题:

  1. 缺乏可执行环境与验证机制:已有开源数据(如swe-bench-extra、swe-fixer)通常缺乏环境或单元测试来验证数据正确性,导致生成的修复难以验证。

  2. 高质量训练数据稀缺:尽管某些数据集规模较大(如 swe-dev、swe-gym),但缺乏经过严格验证的训练样本,公开可用的高质量数据极为有限,导致开源模型在 swe 任务上长期落后于闭源模型。

  3. 数据规模法则适用性不明确:相较于自然语言领域中的任务,swe任务现有的公开训练数据体量较小,尚无法有效验证数据扩展是否能带来模型能力的持续增长。

为打破上述瓶颈,并且打造出具备工程实用性的swe代码智能体模型,昆仑万维团队首先在训练阶段自行构建了一套自动化、结构化、可复现的swe数据收集与验证流程,共分为三个阶段、九个步骤(如下图所示)。最终团队构建出超1万条高质量任务实例、8千条多轮交互的轨迹,为模型训练提供坚实基础。

仅32B,昆仑万维开源「Skywork-SWE-32B」,拿下代码开源SOTA - 天天要闻

图丨skywork-swe完整数据收集与验证流程

skywork-swe作为万级高质量可验证数据集,驱动智能体模型能力跃迁

在上述三个阶段过程中,团队实施了严格的数据筛选与构建流程。如下图所示,团队从最初超过15万条候选代码仓库元数据中,最终筛选出约1万条高质量实例,构建出当前规模最大、质量最高的可验证swe任务(训练)数据集——skywork-swe。

仅32B,昆仑万维开源「Skywork-SWE-32B」,拿下代码开源SOTA - 天天要闻

图丨数据构建过程中各个阶段数据样本量变化示意

skywork-swe数据集在任务数量与代码覆盖广度方面,远超现有同类数据集(如swe-gym lite与swe-bench verified),为大模型提供了丰富、多样且贴近实际的软件工程任务样本,持续推动智能体模型的能力进化。此外,skywork-swe数据集不仅涵盖如pydantic、sqlglot、dvc等主流开源项目,还包含大量中小型仓库,呈现出高度贴近真实开发生态的任务分布特征。这种贴近真实开发生态的数据构成,有助于提升模型在复杂多样场景下的问题解决能力。

仅32B,昆仑万维开源「Skywork-SWE-32B」,拿下代码开源SOTA - 天天要闻

图丨skywork-swe数据集的github仓库词云

02 skywork-swe登顶32b开源sota

“less artifact, more intelligence”(更少的人工约束,更多智能发挥) 是团队开发软件工程自主代码智能体模型的核心理念。我们主张赋予ai更大自主权,由其决定工具使用与任务执行方式,而非人为预先设定规则流程。基于这一理念,最终选用目前最具自主性的开源openhands框架。

基于skywork-swe数据集的高质量智能体轨迹,昆仑万维团队微调得到skywork-swe-32b模型,该模型在swe-bench verified测评中取得优异成绩。截至目前,skywork-swe-32b在swe-bench榜单中成为当前性能最强的32b开源代码智能体大模型,刷新swe-bench verified基准上同等规模模型的最佳成绩,充分展示了其工程实用价值:

1.skywork-swe-32b测评结果超越相同参数规模的模型。skywork-swe-32b基于开源openhands代码agent框架,实现了38.0% pass@1的准确率,达到了qwen2.5-coder-32b系列模型在openhands代码框架下的最优水平。更为关键的是,实验结果进一步表明:随着训练数据规模的持续扩展,模型性能持续提升,充分验证了“数据规模扩展带来的性能增益”在软件工程任务中的有效性与适用性。

仅32B,昆仑万维开源「Skywork-SWE-32B」,拿下代码开源SOTA - 天天要闻

2.应用测试时扩展技术之后,skywork-swe-32b取得了最优性能。在引入测试时扩展技术(test-time scaling,tts)后,skywork-swe-32b (+ tts) 的pass@1准确率进一步提升至47.0%,刷新了32b参数规模以下开源模型的sota。更值得关注的是,skywork-swe-32b在与参数量高达671b的deepseek-v3-0324模型对比中仍展现出明显优势,领先8.2个百分点。

仅32B,昆仑万维开源「Skywork-SWE-32B」,拿下代码开源SOTA - 天天要闻

3.skywork-swe-32b (+ tts) 的表现接近甚至超越多数主流闭源大模型。skywork-swe-32b (+ tts) 的pass@1准确率显著超越了gpt-4.1-mini(23.86%)、 claude 3.5 haiku(40.6%)和 openai-o1-preview (41.3%),并且领先于claude v3.5(46.0%)。

仅32B,昆仑万维开源「Skywork-SWE-32B」,拿下代码开源SOTA - 天天要闻

03持续探索更多agent任务场景

过去半年多时间,昆仑万维在奖励模型、多模态、推理、视频生成等方向开源了一系列sota级别模型,如今又在agent(swe任务)方向再下一城。继5月天工超级智能体(skywork super agents)面向全球发布后,今天我们又发布并开源了自主代码智能体模型skywork-swe-32b模型,这不仅是公司坚定开源策略的重要实践,更代表了我们对agent在办公任务、swe任务场景中的重要探索。

通过skywork-swe数据集的构建,以及自主代码智能体模型skywork-swe-32b模型的发布,团队研究表明高质量且可执行验证的数据是提升代码智能体模型性能的关键瓶颈,系统化的数据扩展策略将在推动开源模型性能突破中发挥关键作用。基于此,我们期望skywork-swe-32b的开源,能够助力社区在大语言模型驱动的软件工程研究中持续演进。

未来,skywork-swe-32b模型将进一步拓展多编程语言支持以覆盖更广泛的开发场景,并探索融合运行时测试反馈的强化学习机制,为构建真正具备智能软件开发能力的大语言模型奠定坚实基础。同时,昆仑万维也将积极探索更多agent任务场景。

科技分类资讯推荐

中国关系型数据库软件市场年复合增长率超20%,软件ETF连续3天净流入超亿元 - 天天要闻

中国关系型数据库软件市场年复合增长率超20%,软件ETF连续3天净流入超亿元

截至2025年6月20日 13:02,中证软件服务指数下跌1.29%。成分股方面,国联股份领跌,电科网安、太极股份、恒生电子、启明星辰跟跌。软件ETF(159852)回调蓄势。拉长时间看,截至2025年6月19日,软件ETF近1年累计上涨29.13%。流动性方面,软件ETF盘中换手3.44%,成交1.01亿元。拉长时间看,截至6月19日,软件ETF近1年日均
荣耀GT Pro续航称霸 vs vivo S30 Pro mini轻薄碾压! - 天天要闻

荣耀GT Pro续航称霸 vs vivo S30 Pro mini轻薄碾压!

当7200mAh怪兽电池遇上186g羽量级机身,2025年这两款旗舰究竟谁能笑到最后?我们通过四款新机的硬核参数,揭晓不同需求的终极答案。荣耀 GT Pro:性能与续航的双料王者骁龙8 Elite领先版+144Hz电竞屏的组合,让这款手机成
荣耀Magic V5登场:最薄大折叠+最强AI,手机行业的下一站答案 - 天天要闻

荣耀Magic V5登场:最薄大折叠+最强AI,手机行业的下一站答案

在2025年AI技术迅猛发展的浪潮中,行业各大厂商竞相发力,而苹果则显得动作迟缓。在刚刚落幕的苹果WWDC2025上,苹果将升级重点放在全新界面UI上,AI创新不足且国行版仍无期,让用户直呼失望,有媒体称“这应该是苹果近些年最无聊的一场WWDC了”。6月19日在上海MWC期间,荣耀召开了AI技术沟通会,深度阐释其在 AI 领域的技术...
2025商旅平台盘点:AI驱动下的商旅平台 - 天天要闻

2025商旅平台盘点:AI驱动下的商旅平台

当 AI 大模型开始重构企业管理流程,2025 年的中国商旅市场正经历一场从 “资源竞争” 到 “技术革命” 的深层变革。据行业数据显示,智能商旅平台渗透率已大大突破 ,AI 驱动的商旅管理自动化使企业商旅成本显著下降 ,这场由技术主导的生态重构,正在重新定义企业商旅管理的价值边界。适合大中型企业的综合型平台:分贝通...
为了追剧年轻人整活有多野?这些都是小场面! - 天天要闻

为了追剧年轻人整活有多野?这些都是小场面!

大家知道现在的年轻人为了追剧到底有多拼么?每天花在追剧这件事情上的时间也是超乎大家的想象!根据有关数据显示近四成中国观众(39.57%)在碎片时间里见缝插针,更有超过三成在睡意朦胧中仍要刷完一集才肯闭眼。这种在片刻闲暇牢牢抓住那份属于自己的