仅32B,昆仑万维开源“Skywork-SWE-32B”,拿下代码开源SOTA

6月20日,昆仑万维发布软件工程(software engineering, swe)自主代码智能体基座模型skywork-swe,在开源32b模型规模下实现了业界最强的仓库级代码修复能力。昆仑万维团队通过构建超过1万个可验证的github仓库任务实例,打造出目前最大规模的可验证github仓库级代码修复的数据集,并系统性验证了大模型在软件工程任务上的数据缩放定律(scaling law)。

skywork-swe-32b模型在swe-bench verified基准上取得38.0% pass@1准确率,刷新qwen2.5-coder-32b系列模型在openhands代码框架下的最佳成绩。进一步引入测试时扩展技术后,模型表现提升至47.0%的准确率,不仅超越了现有参数规模在32b以下的开源模型,也显著缩小了与闭源模型之间的性能差距。

skywork-swe-32b直通车:

  1. 技术报告:https://huggingface.co/skywork/skywork-swe-32b/resolve/main/assets/report.pdf

  2. 博客地址:https://quixotic-sting-239.notion.site/eb17f379610040ceb54da5d5d24065bd

  3. huggingface地址:https://huggingface.co/skywork/skywork-swe-32b

2025年被广泛认为是智能体(agent)模型的元年,其核心特征包括“超多轮交互”和“超长上下文处理”。在众多应用方向中,软件工程swe任务正成为大语言模型智能体的关键应用场景之一。

相比传统的代码生成任务(如代码编程题解答),swe任务更加贴近真实的软件开发流程,涵盖了从定位bug、修改源代码,到验证修复效果的完整闭环。这类任务通常源自github仓库中的实际代码工程问题,具备高度的真实性、复杂性和挑战性,是评估智能体模型能力的一个重要基准。

swe任务的独特之处在于,它对模型提出了更高要求:不仅需要支持多轮交互和长上下文推理,还需具备处理跨文件依赖、调用工具链,以及在复杂环境中持续修复代码问题的能力。这些能力全面考验了智能体模型的工程实践水平与系统性思维能力。

01三阶段自动化流程,构建大规模、高质量swe任务训练数据集

尽管当前市面上已有不少工作聚焦于swe任务并收集了相关的数据集,但当前的主流(训练)数据集仍存在三大核心问题:

  1. 缺乏可执行环境与验证机制:已有开源数据(如swe-bench-extra、swe-fixer)通常缺乏环境或单元测试来验证数据正确性,导致生成的修复难以验证。

  2. 高质量训练数据稀缺:尽管某些数据集规模较大(如 swe-dev、swe-gym),但缺乏经过严格验证的训练样本,公开可用的高质量数据极为有限,导致开源模型在 swe 任务上长期落后于闭源模型。

  3. 数据规模法则适用性不明确:相较于自然语言领域中的任务,swe任务现有的公开训练数据体量较小,尚无法有效验证数据扩展是否能带来模型能力的持续增长。

为打破上述瓶颈,并且打造出具备工程实用性的swe代码智能体模型,昆仑万维团队首先在训练阶段自行构建了一套自动化、结构化、可复现的swe数据收集与验证流程,共分为三个阶段、九个步骤(如下图所示)。最终团队构建出超1万条高质量任务实例、8千条多轮交互的轨迹,为模型训练提供坚实基础。

图丨skywork-swe完整数据收集与验证流程

skywork-swe作为万级高质量可验证数据集,驱动智能体模型能力跃迁

在上述三个阶段过程中,团队实施了严格的数据筛选与构建流程。如下图所示,团队从最初超过15万条候选代码仓库元数据中,最终筛选出约1万条高质量实例,构建出当前规模最大、质量最高的可验证swe任务(训练)数据集——skywork-swe。

图丨数据构建过程中各个阶段数据样本量变化示意

skywork-swe数据集在任务数量与代码覆盖广度方面,远超现有同类数据集(如swe-gym lite与swe-bench verified),为大模型提供了丰富、多样且贴近实际的软件工程任务样本,持续推动智能体模型的能力进化。此外,skywork-swe数据集不仅涵盖如pydantic、sqlglot、dvc等主流开源项目,还包含大量中小型仓库,呈现出高度贴近真实开发生态的任务分布特征。这种贴近真实开发生态的数据构成,有助于提升模型在复杂多样场景下的问题解决能力。

图丨skywork-swe数据集的github仓库词云

02 skywork-swe登顶32b开源sota

“less artifact, more intelligence”(更少的人工约束,更多智能发挥) 是团队开发软件工程自主代码智能体模型的核心理念。我们主张赋予ai更大自主权,由其决定工具使用与任务执行方式,而非人为预先设定规则流程。基于这一理念,最终选用目前最具自主性的开源openhands框架。

基于skywork-swe数据集的高质量智能体轨迹,昆仑万维团队微调得到skywork-swe-32b模型,该模型在swe-bench verified测评中取得优异成绩。截至目前,skywork-swe-32b在swe-bench榜单中成为当前性能最强的32b开源代码智能体大模型,刷新swe-bench verified基准上同等规模模型的最佳成绩,充分展示了其工程实用价值:

1.skywork-swe-32b测评结果超越相同参数规模的模型。skywork-swe-32b基于开源openhands代码agent框架,实现了38.0% pass@1的准确率,达到了qwen2.5-coder-32b系列模型在openhands代码框架下的最优水平。更为关键的是,实验结果进一步表明:随着训练数据规模的持续扩展,模型性能持续提升,充分验证了“数据规模扩展带来的性能增益”在软件工程任务中的有效性与适用性。

2.应用测试时扩展技术之后,skywork-swe-32b取得了最优性能。在引入测试时扩展技术(test-time scaling,tts)后,skywork-swe-32b (+ tts) 的pass@1准确率进一步提升至47.0%,刷新了32b参数规模以下开源模型的sota。更值得关注的是,skywork-swe-32b在与参数量高达671b的deepseek-v3-0324模型对比中仍展现出明显优势,领先8.2个百分点。

3.skywork-swe-32b (+ tts) 的表现接近甚至超越多数主流闭源大模型。skywork-swe-32b (+ tts) 的pass@1准确率显著超越了gpt-4.1-mini(23.86%)、 claude 3.5 haiku(40.6%)和 openai-o1-preview (41.3%),并且领先于claude v3.5(46.0%)。

03持续探索更多agent任务场景

过去半年多时间,昆仑万维在奖励模型、多模态、推理、视频生成等方向开源了一系列sota级别模型,如今又在agent(swe任务)方向再下一城。继5月天工超级智能体(skywork super agents)面向全球发布后,今天我们又发布并开源了自主代码智能体模型skywork-swe-32b模型,这不仅是公司坚定开源策略的重要实践,更代表了我们对agent在办公任务、swe任务场景中的重要探索。

通过skywork-swe数据集的构建,以及自主代码智能体模型skywork-swe-32b模型的发布,团队研究表明高质量且可执行验证的数据是提升代码智能体模型性能的关键瓶颈,系统化的数据扩展策略将在推动开源模型性能突破中发挥关键作用。基于此,我们期望skywork-swe-32b的开源,能够助力社区在大语言模型驱动的软件工程研究中持续演进。

未来,skywork-swe-32b模型将进一步拓展多编程语言支持以覆盖更广泛的开发场景,并探索融合运行时测试反馈的强化学习机制,为构建真正具备智能软件开发能力的大语言模型奠定坚实基础。同时,昆仑万维也将积极探索更多agent任务场景。