阿里雲通義點金髮布DianJin-R1金融領域推理大模型

2025年05月04日21:22:03 科技 1237


近日,阿里雲通義點金團隊與蘇州大學攜手合作,在金融大語言模型領域推出了突破性的創新成果: DianJin-R1 。這款推理增強型金融大模型,融合了先進的技術和全面的數據支持,專為金融任務而設計。


阿里雲通義點金髮布DianJin-R1金融領域推理大模型 - 天天要聞


  • 論文地址:https://arxiv.org/abs/2504.15716

  • GitHub:https://github.com/aliyun/qwen-dianjin
  • Hugging Face:https://huggingface.co/DianJin
  • ModelScope:https://modelscope.cn/organization/tongyi_dianjin
  • 點金官網:https://tongyi.aliyun.com/dianjin


全面開源的 Reasoning 數據集 DianJin-R1 的獨特亮點之一是其全面開源的 Reasoning 數據集—— DianJin-R1-Data 。該數據集基於通義點金團隊去年在 ACL-2024 上發表的 CFLUE Benchmark 上進行的全面升級,整合了 FinQA 和中國合規檢查(CCC)數據集,為金融推理任務提供了強大的基礎。目前已經開源,旨在支持和推動金融領域的研究和應用。


全面開源的 Financial Reasoning 模型 DianJin-R1-7B 和 DianJin-R1-32B 模型已向公眾全面開放。這些模型通過監督微調(SFT)和強化學習(RL)兩階段精細優化,在複雜金融任務中表現卓越。開源的強大模型為行業提供了更廣泛的應用可能性,推動了金融 AI 的創新發展。


基於通義點金平台的 Multi-Agent System 數據合成 更值得關注的是,我們通過通義點金平台實現了基於 Multi-Agent System 的數據合成。通過點金平台,我們構建了數據飛輪和模型優化機制,使得單次調用效果媲美高計算成本的多智能體系統。這不僅展現了 DianJin-R1 的出色性能,也展示了我們在模型優化和智能系統集成上的創新能力。


DianJin-R1-7B 以其輕量化參數和高效表現,成功媲美行業標杆模型 QwQ,展現出不凡的競爭力。而 DianJin-R1-32B 更是超越了所有參評模型,包括 DeepSeek-R1,榮膺性能測試的第一名,彰顯了我們團隊在人工智能金融科技領域的卓越創新能力。


我們的評測基準不同於傳統標準,DianJin-R1 不僅嚴謹測試了金融領域的三大核心任務,還特別引入了兩個通用領域的數據集進行綜合評估。這一全新方法不僅證明了 DianJin-R1 在專業金融領域的顯著提升,也展示了其在通用任務中的表現。

DianJin-R1 的發布,不僅推動了金融科技的智能化進程,也進一步鞏固了我們在金融大模型領域的領先地位,讓我們期待 DianJin-R1 能在更多領域釋放其強勁潛能。


背景


近年來,大型語言模型(LLMs)的進步引發了增強其推理能力的濃厚興趣。像 OpenAI o1、DeepSeek R1 和 QwQ 等模型已經顯示出,通過顯式建模推理過程,可以顯著提高在複雜任務上的表現。


儘管取得了這些改進,最近在金融基準上的評估揭示出,由於需要領域特定的知識、精準的數值推理以及嚴格遵循監管要求,金融領域的推理仍然特別具有挑戰性。有效應對這些挑戰需要專門的推理策略,能夠處理結構化的金融信息和開放性問題解決。


為此,我們推出了 DianJin-R1,這是一種融合推理增強監督和強化學習來提高金融推理任務表現的 LLM。


DianJin-R1-Data 構建


首先通過三個主要來源構建了高質量的推理數據集 DianJin-R1-Data:CFLUE、FinQA 以及我們的專有合規數據集,用於中國合規檢查(CCC)任務。


  • CFLUE 包含了 38,638 道來自 15 種金融資格模擬考試的多項選擇題,涵蓋不同科目和難度。通過三步過濾流程,我們篩選了高質量問題:首先,移除少於 15 個詞的簡單題;其次,剔除能被所有較小語言模型正確回答的題目,以確保需要更深的推理能力;最後,利用 GPT-4o 去除含糊不清的問題,確保每個題目清晰明確。最終得到的題目集不僅有明確的正確答案,還附有詳細解釋,有助於評估模型的金融推理能力。


  • FinQA FinQA 是一個開源的英文基準數據集,包含 8,281 個金融問答對,這些問答對需要對財務報告進行數值推理。在我們的研究中,我們採用了與 CFLUE 數據集相同的長度和難度過濾條件,以確保質量和複雜性。因此,我們精心整理出了一個高質量的問答對子集,非常適合在英語語境中評估金融推理能力。


  • CCC (基於 Multi-Agent System 數據合成): 聚焦於需要多步驟邏輯的複雜合規場景。為確保推理質量,我們利用通義點金平台 Multi-Agent System 進行了 Reasoning 數據合成,並採用了 GPT-4o 的驗證過程,檢查生成的答案、推理步驟和參考解釋之間的對齊。這一過程產生了一套可靠的推理增強和非推理樣本,支持更穩健的模型訓練。


阿里雲通義點金髮布DianJin-R1金融領域推理大模型 - 天天要聞


阿里雲通義點金髮布DianJin-R1金融領域推理大模型 - 天天要聞

基於 Multi-Agent 系統的數據合成樣例


DianJin-R1 兩階段訓練


對於監督微調(SFT),我們基於 Qwen2.5-7B-Instruct 和 Qwen2.5-32B-Instruct 訓練了 DianJin-R1-7B 和 DianJin-R1-32B,生成的推理過程和最終答案採用結構化輸出格式。為了進一步提高推理質量,我們應用了群體相對政策優化(GRPO),這是一種強化學習算法,引入了兩個獎勵信號:一種格式獎勵以鼓勵結構化輸出,還有一種準確性獎勵以促進答案的正確性。這些機制引導模型生成連貫、可驗證的推理路徑和可靠的答案。


阿里雲通義點金髮布DianJin-R1金融領域推理大模型 - 天天要聞

實驗結果


我們對 DianJin-R1 模型以及其他通用領域的推理和非推理模型進行了評估,評估範圍包括 CFLUE、FinQA、CCC、MATH-500 和 GPQA-Diamond 等多樣化的基準。結果表明,增強推理的模型在金融領域始終優於其對應的非推理模型。特別是,單獨在 CFLUE 上進行訓練在所有任務中都取得了顯著提升,結合所有數據集進一步增強了性能。我們的分析還強調了強化學習的益處,尤其當獎勵信號與任務領域對齊時。


最後,我們在 CCC 數據集上展示了這一方法的實際應用,採用 LLMs 構建的 Multi-Agent 系統進行基於條件的合規檢查。通過為工作流中的每個決策節點分配專門的代理,該系統有效地整合了中間推理步驟,最終做出合規判斷。


阿里雲通義點金髮布DianJin-R1金融領域推理大模型 - 天天要聞

結論


綜上所述,DianJin-R1 通過結合高質量監督、結構化推理生成和基於獎勵的強化學習改進,提供了一種可擴展且有效的策略來增強 LLMs 中的金融推理能力。

科技分類資訊推薦

小米YU7登場,新能源市場意味着什麼? - 天天要聞

小米YU7登場,新能源市場意味着什麼?

最近新能源汽車圈可熱鬧了,小米YU7的消息一出來,就像一顆石子投入平靜的湖面,激起了層層漣漪。很多朋友都在好奇,小米YU7對中國新能源品牌到底意味着什麼呢?今天咱就來好好嘮嘮。先說說新能源汽車的技術特點。如今的新能源汽車,那技術發展得是日新
超長續航,超級節能,吉利銀河A7 EM-i官圖發布 - 天天要聞

超長續航,超級節能,吉利銀河A7 EM-i官圖發布

車身側面,該車採用了較為豐富的腰線設計,搭配密輻式輪圈以及車窗邊緣亮黑色飾條,展現出不錯的精緻感。儘管當下流行的隱藏式車門把手並未出現在該車上,但傳統結構的車門把手更便於操作,也符合部分消費者的使用習慣。
智野新旗艦,猛士M817粵港澳車展再露鋒芒! - 天天要聞

智野新旗艦,猛士M817粵港澳車展再露鋒芒!

作為中國首個豪華電動越野品牌,東風猛士科技攜智野新旗艦——猛士M817震撼亮相。繼上海車展發布後,猛士M817首次公開內飾細節、空間尺寸等核心產品力,可城可野、智野雙全,重新定義智野生活全新高度。
中國移動董事長楊傑:“AI+”引領智能湧現,開啟碳硅融合新未來 - 天天要聞

中國移動董事長楊傑:“AI+”引領智能湧現,開啟碳硅融合新未來

6月18日,在2025上海世界移動通信大會(MWC上海2025)開幕式上,中國移動董事長楊傑發表題為《“AI+”引領智能湧現,開啟碳硅融合新未來》的主旨演講,圍繞“人工智能+”主題,分享了三點思考。一是乘勢而上,把握“AI +”時代機遇。楊傑指出,新一代信息技術正加速融入經濟社會各領域,人工智能推動人類邁入“AI +”時代。...
為信任生產力充電!無限極練好規範經營基本功 - 天天要聞

為信任生產力充電!無限極練好規範經營基本功

當消費者對健康產品需求從“可用”升級為“可信任”,企業如何用合規經營與品質硬實力回應市場對信任的期待?2025年,大健康產業龍頭無限極“6・16規範經營宣傳日”迎來第九年。在受邀參加中國消費者雜誌社主辦的“優化消費環境共築滿意消費”座談會上,無限極(中國)有限公司行政總裁黃健龍表示:“願與社會各界攜手共進...
特斯拉得州超級工廠將再次停產! - 天天要聞

特斯拉得州超級工廠將再次停產!

快科技6月18日消息,據媒體報道,特斯拉計劃在7月第一周暫停其得克薩斯州超級工廠的生產活動,此次停產涉及ModelY和Cybertruck車型。這已經是該工廠在過去兩個月內的第二次停產。此前在5月末,特斯拉曾將得克薩斯超級工廠原本的長周末延長為一周的停產,當時被認為是為了應對市場需求下降以及庫存積壓問題。此次停產正值美...
超享越級尊享空間,猛士M817打開生活想象 - 天天要聞

超享越級尊享空間,猛士M817打開生活想象

作為中國首個豪華電動越野品牌,東風猛士科技攜智野新旗艦——猛士M817震撼亮相。繼上海車展發布後,猛士M817首次公開內飾細節、空間尺寸等核心產品力,可城可野、智野雙全,重新定義智野生活全新高度。
行業寒冬中顯擔當,比亞迪紓困乾城集團獲肯定 - 天天要聞

行業寒冬中顯擔當,比亞迪紓困乾城集團獲肯定

近日,有關“比亞迪山東經銷商集團濟南乾城汽車貿易有限公司(以下簡稱濟南乾城)資金出現問題”的消息引發行業關注。此前,濟南乾城在4月17日發布的《關於處理三保服務事宜的解決方案》公告中提到,“近兩年由於比亞迪經銷商政策調整,對我司的現金流管理帶來巨大壓力。加之山
“兆瓦閃充”的突破,比亞迪的陽謀 - 天天要聞

“兆瓦閃充”的突破,比亞迪的陽謀

如今,用戶的這一願望正逐步得到實現,不少車企在快充技術方面取得了突破,充電也越來越快,而比亞迪在今年3月17日發布的“兆瓦閃充”技術,更實現了5分鐘補充400公里續航的充電速度,真正做到燃油車加油一樣的補能效率。無論對用戶還是對業界而言,這一技術性的突破都是具