阿里雲通義點金髮布DianJin-R1金融領域推理大模型

2025年05月04日21:22:03 科技 1237

近日，阿里雲通義點金團隊與蘇州大學攜手合作，在金融大語言模型領域推出了突破性的創新成果： DianJin-R1 。這款推理增強型金融大模型，融合了先進的技術和全面的數據支持，專為金融任務而設計。

論文地址：https://arxiv.org/abs/2504.15716
GitHub：https://github.com/aliyun/qwen-dianjin
Hugging Face：https://huggingface.co/DianJin
ModelScope：https://modelscope.cn/organization/tongyi_dianjin
點金官網：https://tongyi.aliyun.com/dianjin

全面開源的 Reasoning 數據集 ： DianJin-R1 的獨特亮點之一是其全面開源的 Reasoning 數據集—— DianJin-R1-Data 。該數據集基於通義點金團隊去年在 ACL-2024 上發表的 CFLUE Benchmark 上進行的全面升級，整合了 FinQA 和中國合規檢查（CCC）數據集，為金融推理任務提供了強大的基礎。目前已經開源，旨在支持和推動金融領域的研究和應用。

全面開源的 Financial Reasoning 模型 ： DianJin-R1-7B 和 DianJin-R1-32B 模型已向公眾全面開放。這些模型通過監督微調（SFT）和強化學習（RL）兩階段精細優化，在複雜金融任務中表現卓越。開源的強大模型為行業提供了更廣泛的應用可能性，推動了金融 AI 的創新發展。

基於通義點金平台的 Multi-Agent System 數據合成 ：更值得關注的是，我們通過通義點金平台實現了基於 Multi-Agent System 的數據合成。通過點金平台，我們構建了數據飛輪和模型優化機制，使得單次調用效果媲美高計算成本的多智能體系統。這不僅展現了 DianJin-R1 的出色性能，也展示了我們在模型優化和智能系統集成上的創新能力。

DianJin-R1-7B 以其輕量化參數和高效表現，成功媲美行業標杆模型 QwQ，展現出不凡的競爭力。而 DianJin-R1-32B 更是超越了所有參評模型，包括 DeepSeek-R1，榮膺性能測試的第一名，彰顯了我們團隊在人工智慧和金融科技領域的卓越創新能力。

我們的評測基準不同於傳統標準，DianJin-R1 不僅嚴謹測試了金融領域的三大核心任務，還特別引入了兩個通用領域的數據集進行綜合評估。這一全新方法不僅證明了 DianJin-R1 在專業金融領域的顯著提升，也展示了其在通用任務中的表現。

DianJin-R1 的發布，不僅推動了金融科技的智能化進程，也進一步鞏固了我們在金融大模型領域的領先地位，讓我們期待 DianJin-R1 能在更多領域釋放其強勁潛能。

背景

近年來，大型語言模型（LLMs）的進步引發了增強其推理能力的濃厚興趣。像 OpenAI o1、DeepSeek R1 和 QwQ 等模型已經顯示出，通過顯式建模推理過程，可以顯著提高在複雜任務上的表現。

儘管取得了這些改進，最近在金融基準上的評估揭示出，由於需要領域特定的知識、精準的數值推理以及嚴格遵循監管要求，金融領域的推理仍然特別具有挑戰性。有效應對這些挑戰需要專門的推理策略，能夠處理結構化的金融信息和開放性問題解決。

為此，我們推出了 DianJin-R1，這是一種融合推理增強監督和強化學習來提高金融推理任務表現的 LLM。

DianJin-R1-Data 構建

首先通過三個主要來源構建了高質量的推理數據集 DianJin-R1-Data：CFLUE、FinQA 以及我們的專有合規數據集，用於中國合規檢查（CCC）任務。

CFLUE ：包含了 38,638 道來自 15 種金融資格模擬考試的多項選擇題，涵蓋不同科目和難度。通過三步過濾流程，我們篩選了高質量問題：首先，移除少於 15 個詞的簡單題；其次，剔除能被所有較小語言模型正確回答的題目，以確保需要更深的推理能力；最後，利用 GPT-4o 去除含糊不清的問題，確保每個題目清晰明確。最終得到的題目集不僅有明確的正確答案，還附有詳細解釋，有助於評估模型的金融推理能力。

FinQA ： FinQA 是一個開源的英文基準數據集，包含 8,281 個金融問答對，這些問答對需要對財務報告進行數值推理。在我們的研究中，我們採用了與 CFLUE 數據集相同的長度和難度過濾條件，以確保質量和複雜性。因此，我們精心整理出了一個高質量的問答對子集，非常適合在英語語境中評估金融推理能力。

CCC （基於 Multi-Agent System 數據合成）：聚焦於需要多步驟邏輯的複雜合規場景。為確保推理質量，我們利用通義點金平台 Multi-Agent System 進行了 Reasoning 數據合成，並採用了 GPT-4o 的驗證過程，檢查生成的答案、推理步驟和參考解釋之間的對齊。這一過程產生了一套可靠的推理增強和非推理樣本，支持更穩健的模型訓練。

基於 Multi-Agent 系統的數據合成樣例

DianJin-R1 兩階段訓練

對於監督微調（SFT），我們基於 Qwen2.5-7B-Instruct 和 Qwen2.5-32B-Instruct 訓練了 DianJin-R1-7B 和 DianJin-R1-32B，生成的推理過程和最終答案採用結構化輸出格式。為了進一步提高推理質量，我們應用了群體相對政策優化（GRPO），這是一種強化學習演算法，引入了兩個獎勵信號：一種格式獎勵以鼓勵結構化輸出，還有一種準確性獎勵以促進答案的正確性。這些機制引導模型生成連貫、可驗證的推理路徑和可靠的答案。

實驗結果

我們對 DianJin-R1 模型以及其他通用領域的推理和非推理模型進行了評估，評估範圍包括 CFLUE、FinQA、CCC、MATH-500 和 GPQA-Diamond 等多樣化的基準。結果表明，增強推理的模型在金融領域始終優於其對應的非推理模型。特別是，單獨在 CFLUE 上進行訓練在所有任務中都取得了顯著提升，結合所有數據集進一步增強了性能。我們的分析還強調了強化學習的益處，尤其當獎勵信號與任務領域對齊時。

最後，我們在 CCC 數據集上展示了這一方法的實際應用，採用 LLMs 構建的 Multi-Agent 系統進行基於條件的合規檢查。通過為工作流中的每個決策節點分配專門的代理，該系統有效地整合了中間推理步驟，最終做出合規判斷。