阿里云通义点金发布DianJin-R1金融领域推理大模型

2025年05月04日21:22:03 科技 1237


近日,阿里云通义点金团队与苏州大学携手合作,在金融大语言模型领域推出了突破性的创新成果: DianJin-R1 。这款推理增强型金融大模型,融合了先进的技术和全面的数据支持,专为金融任务而设计。


阿里云通义点金发布DianJin-R1金融领域推理大模型 - 天天要闻


  • 论文地址:https://arxiv.org/abs/2504.15716

  • GitHub:https://github.com/aliyun/qwen-dianjin
  • Hugging Face:https://huggingface.co/DianJin
  • ModelScope:https://modelscope.cn/organization/tongyi_dianjin
  • 点金官网:https://tongyi.aliyun.com/dianjin


全面开源的 Reasoning 数据集 DianJin-R1 的独特亮点之一是其全面开源的 Reasoning 数据集—— DianJin-R1-Data 。该数据集基于通义点金团队去年在 ACL-2024 上发表的 CFLUE Benchmark 上进行的全面升级,整合了 FinQA 和中国合规检查(CCC)数据集,为金融推理任务提供了强大的基础。目前已经开源,旨在支持和推动金融领域的研究和应用。


全面开源的 Financial Reasoning 模型 DianJin-R1-7B 和 DianJin-R1-32B 模型已向公众全面开放。这些模型通过监督微调(SFT)和强化学习(RL)两阶段精细优化,在复杂金融任务中表现卓越。开源的强大模型为行业提供了更广泛的应用可能性,推动了金融 AI 的创新发展。


基于通义点金平台的 Multi-Agent System 数据合成 更值得关注的是,我们通过通义点金平台实现了基于 Multi-Agent System 的数据合成。通过点金平台,我们构建了数据飞轮和模型优化机制,使得单次调用效果媲美高计算成本的多智能体系统。这不仅展现了 DianJin-R1 的出色性能,也展示了我们在模型优化和智能系统集成上的创新能力。


DianJin-R1-7B 以其轻量化参数和高效表现,成功媲美行业标杆模型 QwQ,展现出不凡的竞争力。而 DianJin-R1-32B 更是超越了所有参评模型,包括 DeepSeek-R1,荣膺性能测试的第一名,彰显了我们团队在人工智能金融科技领域的卓越创新能力。


我们的评测基准不同于传统标准,DianJin-R1 不仅严谨测试了金融领域的三大核心任务,还特别引入了两个通用领域的数据集进行综合评估。这一全新方法不仅证明了 DianJin-R1 在专业金融领域的显著提升,也展示了其在通用任务中的表现。

DianJin-R1 的发布,不仅推动了金融科技的智能化进程,也进一步巩固了我们在金融大模型领域的领先地位,让我们期待 DianJin-R1 能在更多领域释放其强劲潜能。


背景


近年来,大型语言模型(LLMs)的进步引发了增强其推理能力的浓厚兴趣。像 OpenAI o1、DeepSeek R1 和 QwQ 等模型已经显示出,通过显式建模推理过程,可以显著提高在复杂任务上的表现。


尽管取得了这些改进,最近在金融基准上的评估揭示出,由于需要领域特定的知识、精准的数值推理以及严格遵循监管要求,金融领域的推理仍然特别具有挑战性。有效应对这些挑战需要专门的推理策略,能够处理结构化的金融信息和开放性问题解决。


为此,我们推出了 DianJin-R1,这是一种融合推理增强监督和强化学习来提高金融推理任务表现的 LLM。


DianJin-R1-Data 构建


首先通过三个主要来源构建了高质量的推理数据集 DianJin-R1-Data:CFLUE、FinQA 以及我们的专有合规数据集,用于中国合规检查(CCC)任务。


  • CFLUE 包含了 38,638 道来自 15 种金融资格模拟考试的多项选择题,涵盖不同科目和难度。通过三步过滤流程,我们筛选了高质量问题:首先,移除少于 15 个词的简单题;其次,剔除能被所有较小语言模型正确回答的题目,以确保需要更深的推理能力;最后,利用 GPT-4o 去除含糊不清的问题,确保每个题目清晰明确。最终得到的题目集不仅有明确的正确答案,还附有详细解释,有助于评估模型的金融推理能力。


  • FinQA FinQA 是一个开源的英文基准数据集,包含 8,281 个金融问答对,这些问答对需要对财务报告进行数值推理。在我们的研究中,我们采用了与 CFLUE 数据集相同的长度和难度过滤条件,以确保质量和复杂性。因此,我们精心整理出了一个高质量的问答对子集,非常适合在英语语境中评估金融推理能力。


  • CCC (基于 Multi-Agent System 数据合成): 聚焦于需要多步骤逻辑的复杂合规场景。为确保推理质量,我们利用通义点金平台 Multi-Agent System 进行了 Reasoning 数据合成,并采用了 GPT-4o 的验证过程,检查生成的答案、推理步骤和参考解释之间的对齐。这一过程产生了一套可靠的推理增强和非推理样本,支持更稳健的模型训练。


阿里云通义点金发布DianJin-R1金融领域推理大模型 - 天天要闻


阿里云通义点金发布DianJin-R1金融领域推理大模型 - 天天要闻

基于 Multi-Agent 系统的数据合成样例


DianJin-R1 两阶段训练


对于监督微调(SFT),我们基于 Qwen2.5-7B-Instruct 和 Qwen2.5-32B-Instruct 训练了 DianJin-R1-7B 和 DianJin-R1-32B,生成的推理过程和最终答案采用结构化输出格式。为了进一步提高推理质量,我们应用了群体相对政策优化(GRPO),这是一种强化学习算法,引入了两个奖励信号:一种格式奖励以鼓励结构化输出,还有一种准确性奖励以促进答案的正确性。这些机制引导模型生成连贯、可验证的推理路径和可靠的答案。


阿里云通义点金发布DianJin-R1金融领域推理大模型 - 天天要闻

实验结果


我们对 DianJin-R1 模型以及其他通用领域的推理和非推理模型进行了评估,评估范围包括 CFLUE、FinQA、CCC、MATH-500 和 GPQA-Diamond 等多样化的基准。结果表明,增强推理的模型在金融领域始终优于其对应的非推理模型。特别是,单独在 CFLUE 上进行训练在所有任务中都取得了显著提升,结合所有数据集进一步增强了性能。我们的分析还强调了强化学习的益处,尤其当奖励信号与任务领域对齐时。


最后,我们在 CCC 数据集上展示了这一方法的实际应用,采用 LLMs 构建的 Multi-Agent 系统进行基于条件的合规检查。通过为工作流中的每个决策节点分配专门的代理,该系统有效地整合了中间推理步骤,最终做出合规判断。


阿里云通义点金发布DianJin-R1金融领域推理大模型 - 天天要闻

结论


综上所述,DianJin-R1 通过结合高质量监督、结构化推理生成和基于奖励的强化学习改进,提供了一种可扩展且有效的策略来增强 LLMs 中的金融推理能力。

科技分类资讯推荐

最畅销国产高端旗舰易主!华为Mate 70系列超越小米15系列 - 天天要闻

最畅销国产高端旗舰易主!华为Mate 70系列超越小米15系列

快科技7月11日消息,博主数码闲聊站今天公布了截止W27/7月6日的国产四大旗舰系列累积激活销量。数据显示,华为Mate 70系列销量达到589.6万,反超小米15系列,成为最畅销的国产旗舰系列。小米15系列销量则是以586.1万位列第二,此前曾长期霸榜第一。这两大旗舰目前是国产顶梁柱,其他两款差距被明显拉大,vivo X200系列409....
影驰出击BW2025:从显卡编年史到AI未来,一场科技×二次元的梦幻联动 - 天天要闻

影驰出击BW2025:从显卡编年史到AI未来,一场科技×二次元的梦幻联动

玩家和二次元爱好者们一年一度的盛典终于来了。2025年7月11日至13日, Bilibili World(简称BW)在上海国家会展中心盛大开幕。在这场融合ACGN文化与科技数码潮流的盛会中,影驰(GALAX)携旗下全系列产品震撼登场。以极具科技感的展台设计、丰富的互动活动和强劲的产品阵列,为参加BW的玩家打造了一个吸引力拉满的科技数码...
从游戏到生产力,蓝戟携Intel全系显卡亮相Bilibili World 2025 - 天天要闻

从游戏到生产力,蓝戟携Intel全系显卡亮相Bilibili World 2025

Bilibili World 2025如期而至,作为一年中二次元和科技玩家的顶级盛会,这次展会依旧群星璀璨。不仅有众多游戏厂商,许多数码硬件厂商也来凑热闹,而在此次众多的硬件厂商中,蓝戟(GUNNIR)作为Intel显卡中国大陆核心合作伙伴,凭借着Intel消费级与企业级显卡的双线阵容,以及别出心裁的“游戏集章”互动机制,成功成为BW...
地平线总裁陈黎明:高阶智能辅助驾驶的拐点已经到来,将会快速增长 - 天天要闻

地平线总裁陈黎明:高阶智能辅助驾驶的拐点已经到来,将会快速增长

红星资本局7月11日消息,今日,地平线(09660.HK)总裁陈黎明在2025中国汽车论坛上表示,高阶智能辅助驾驶的拐点已经到来,后面会有比较快速的增长。对此,他表示依据有三:第一,智能驾驶是我国智能网联新能源汽车发展战略的一个重要组成部分,政府工作报告对智能汽车的发展做出了规划和行动方向。在电动化上,地平线可以...
洛斐发布Flow2矮轴三模无线机械键盘 - 天天要闻

洛斐发布Flow2矮轴三模无线机械键盘

没想到,洛斐Flow系列这么快就进入迭代了,发布全新Flow2。引入了全新的设计语言,依然是全铝金属外壳机身,边框像苹果手机那样的直板机身。其中,右侧部分加长,侧面则是增加了Touch Bar触控滑动条,支持调节灯光亮度或系统音量。另一方面,键盘背面增加了同样极具辨识度的撑脚模块,支持两种角度调节。 同时还全新升级了...
大爷写《我的母亲》火爆全网!视频发布者最新发声 - 天天要闻

大爷写《我的母亲》火爆全网!视频发布者最新发声

连日来,一段关于大爷挑战写作1957年高考同题作文《我的母亲》的视频火爆全网。不少网民表示,文字质朴,催人泪下,深深被打动。7月11日,大皖新闻记者联系上了视频发布者连文杰。对方表示,视频中展示的作文内容由大爷独立写作,产生的版权收入也全给大爷。大爷写作文视频走红网络。大爷写的作文在网上爆火大皖新闻记者注...