ACL 2025 | 數據多不如風格齊?SCAR精選

2025年07月11日07:22:06 科技 1512

ACL 2025 | 數據多不如風格齊?SCAR精選 - 天天要聞

本文共3600字,建議閱讀10分鐘
SCAR 方法在大語言模型指令微調領域取得了重要突破。


一、總覽


這是 RMIT 大學、新南威爾士大學莫納什大學聯合發表的論文。這篇論文提出了一種新的數據選擇方法 SCAR(Style Consistency-Aware Response Ranking),旨在通過選擇具有風格一致性的高質量訓練數據來提高大語言模型指令微調的效率。


當前大語言模型的指令微調通常需要大量的訓練數據,但這些數據往往存在風格不一致的問題,導致訓練效率低下。如果全量數據中回答的風格不一致,SCAR 通過識別和選擇風格一致的指令-回答對,能夠在顯著減少訓練數據量的同時,達到甚至超越全量數據訓練的效果。


實驗結果表明,使用 SCAR 選擇的數據進行微調,最好情況下僅用 0.7% 的原始數據就能匹配或超越使用全量數據訓練的模型性能。


在代碼生成任務上,使用 SCAR 選擇的風格一致數據訓練的 LLM 在 HumanEval 基準上取得了顯著的性能提升,遠超使用風格不一致數據訓練的模型。在開放域問答任務中,僅使用 25% 的精選數據就能超越全量風格不一致數據的訓練效果。


ACL 2025 | 數據多不如風格齊?SCAR精選 - 天天要聞

▲ 圖1:不同回答類型在風格一致性維度的對比分析。左圖展示了不同類型回答在 Linguistic Form 特徵空間中的分佈,右圖為 Instructional Surprisal 的密度分佈。Direct 表示由 GPT-3.5-Turbo 直接生成的回答,Referenced 表示 GPT-3.5-Turbo 在保留人類回答語義的基礎上重新生成的回答。結果顯示,直接生成的回答在風格上更加一致。


我們還開發了一個開源工具包,支持研究者便捷地應用 SCAR 方法進行數據選擇和模型訓練。該工具包提供了完整的數據選擇流程,包括風格一致性評估、數據排序和子集選擇等功能。

ACL 2025 | 數據多不如風格齊?SCAR精選 - 天天要聞

論文標題:

SCAR: Data Selection via Style Consistency-Aware Response Ranking for Efficient Instruction-Tuning of Large Language Models

論文鏈接:

https://arxiv.org/abs/2406.10882

數據和代碼鏈接:

https://github.com/zhuang-li/SCAR


二、文章主要貢獻


風格一致性理論框架:首次系統性地分析了訓練數據中的風格一致性對大語言模型指令微調性能的影響,識別出 Linguistic Form 和 Instructional Surprisal 兩個關鍵風格要素。


SCAR 數據選擇方法:提出了一種基於風格一致性感知的數據排序方法,能夠自動從大規模數據集中選擇高質量、風格一致的訓練樣本。該方法在代碼生成和開放域問答兩個領域都取得了顯著效果提升。


極致的數據效率: 實驗證明,使用 SCAR 選擇的數據進行訓練,可以在僅使用 0.7%-25% 原始數據的情況下,達到或超越全量數據訓練的性能。在某些情況下,精選的小數據集訓練出的模型甚至比全量數據訓練的模型表現更好。


跨域泛化能力:SCAR 方法展現出良好的跨域泛化能力,在代碼域訓練的排序器可以有效選擇開放域的數據,為實際應用提供了靈活性。


三、問題描述


當前大語言模型指令微調面臨的主要挑戰是數據質量和一致性問題:


風格不一致性:現有的指令微調數據集通常由多個來源組合而成,包括人工標註數據和不同模型生成的合成數據。這些數據在語言形式、回答風格等方面存在顯著差異,導致模型訓練效率低下。


數據質量參差不齊:大規模數據集中往往包含大量低質量樣本,這些樣本不僅不能提升模型性能,反而可能引入噪聲,影響模型的最終效果。訓練成本高昂:使用全量數據進行訓練需要大量的計算資源和時間成本,特別是對於個人研究者和小型團隊來說,這種成本往往難以承受。


缺乏有效的數據選擇策略:現有的數據選擇方法大多基於簡單的啟發式規則或單一指標,缺乏對數據內在風格特徵的深入理解,難以選出真正有價值的訓練樣本。


這些問題導致大語言模型的指令微調效率低下,訓練成本居高不下,限制了該技術的普及和應用。


四、方法


風格要素識別:


  • Linguistic Form:包括句子結構、標點符號使用、布局特徵(如項目符號、標題)等表面語言特徵
  • Instructional Surprisal:衡量回答相對於給定指令的可預測性,通過困惑度和語義相關性進行量化


我們發現在如果數據的質量在用一等級,但是數據中回答的兩種風格元素一致性更高的話,這個數據用來微調大模型會得到更好地效果。同時我們發現大語言模型生成的數據往往在風格上更一致,導致大語言模型生成的數據在質量跟人工數據相差無極的情況下能微調更好地模型。


基於這個發現,我們構造訓練數據,包含人工回答,人工-大模型協同生成的回答,純大模型生成的回答,訓練了一個排序器給予跟語言模型回答相似的數據更高的分數。


SCAR 排序器架構:


使用神經網絡構建排序函數,該函數能夠為指令-回答對分配風格一致性分數。排序器通過以下組件實現:


  • 風格特徵的學習模塊,從回答中抽取兩個風格要素的特徵 Linguistic Form 和 Instructional Surprisal。
  • 質量約束機制,確保選擇的數據既具有風格一致性又保持高質量。
  • 三元組損失訓練,優化風格特徵的學習效果。


數據選擇流程:


1. 訓練 SCAR 排序器學習風格一致性模式

2. 對目標數據集進行排序和篩選

3. 選擇得分最高的 k% 樣本用於模型微調


五、實驗和評估


我們設計了兩個風格不一致的數據場景來驗證 SCAR 的有效性:一是包含多個來源的人工標註數據,二是混合了不同 LLM 生成的合成數據。這些場景模擬了實際應用中常見的風格不一致問題。


1. 代碼生成任務評估:在 HumanEval 和 MultiPL-E 基準上評估了 CodeLlama-7B 模型。結果顯示,使用 SCAR 選擇的 25% 數據訓練的模型,在平均 Pass@1 指標上超越了使用全量數據訓練的模型。具體而言,模型在 PythonJavaJavaScriptC++ 四種編程語言上都取得了顯著提升。


2. 開放域問答評估:在 AlpacaEval 基準上評估了 Meta-Llama-3-8B 模型。使用 SCAR 選擇的 10% 數據就能達到全量數據的性能水平,而在某些配置下,小數據集訓練的模型 L.C. WinRate 甚至達到了 6.61,遠超全量數據訓練的 3.86。

ACL 2025 | 數據多不如風格齊?SCAR精選 - 天天要聞

▲ 圖2:SCAR 與其他數據選擇方法的性能對比。在代碼生成和開放域問答任務中,SCAR 始終保持領先優勢,特別是在小數據集場景下表現尤為突出。


3. 開源模型驗證:在 OLMo-7B 和 StarCoder-15.5B 等開源了全量數據的模型上的實驗進一步驗證了 SCAR 的有效性。這兩個模型所使用的原始數據都有風格不一致的特點。我們用 SCAR 篩選這些開源的全量數據,重新微調基座模型來比對全量數據和子集數據對大模型微調的影響。


特別是在 OLMo-7B 的實驗中,使用僅 0.7% 原始數據的 SCAR 篩選的子集在部分基準測試上超過了官方全量訓練模型的表現;而在 StarCoder-15.5B 上,SCAR篩選的數據子集在 HumanEval 和 MultiPL-E 等基準上的平均表現提升了2–4個百分點。

ACL 2025 | 數據多不如風格齊?SCAR精選 - 天天要聞

▲ 表1:開源模型驗證結果。SCAR 選擇的小規模數據集訓練出的模型超越了官方全量數據訓練的版本,證明了方法的突破性價值。


4. 風格一致性分析:通過多種指標分析驗證了 SCAR 選擇數據的風格一致性。結果表明,選擇的數據的回答在 TTR、MTLD 和困惑度等指標的標準差顯著降低,證明了方法有效的選擇了風格一致的回答。


5. 消融實驗:為了驗證 SCAR 各個組件的重要性,我們進行了詳細的消融實驗。結果表明,風格表示學習、質量約束和參考回答等組件都對最終性能有重要貢獻。


六、結論


SCAR 方法在大語言模型指令微調領域取得了重要突破。通過引入風格一致性的概念和相應的數據選擇技術,該方法顯著提升了訓練效率,在大幅減少數據需求的同時提升了模型性能。


實驗結果證明,精心選擇的小規模的風格一致的數據集往往比大規模但風格參差不齊的數據集更有效。這一發現對於資源受限的研究環境和實際應用場景具有重要意義,為大語言模型的經濟高效訓練提供了新的路徑。


SCAR 方法的跨域泛化能力和工具包的開源發佈,為研究社區提供了實用的數據選擇解決方案,有望推動大語言模型訓練技術的進一步發展和普及。

科技分類資訊推薦

從領先到落後:英特爾正經歷「寒冬」 - 天天要聞

從領先到落後:英特爾正經歷「寒冬」

【環球網科技綜合報道】7月11日,據外媒報道,英特爾首席執行官陳立武近日在發表內部講話時直言英特爾已不再是領先芯片製造商,甚至不在前十。其市值如今僅約1000億美元,與18個月前相比大幅縮水,而英偉達市值卻一度突破4萬億美元,形成鮮明對比。「二三十年前,我們確實是行業領導者。可如今的世界已經變了,我們已不在全...
「中國太酷了」!硬核實力圈粉世界 - 天天要聞

「中國太酷了」!硬核實力圈粉世界

日前舉行的國新辦新聞發佈會上,有記者提到,隨着大量海外博主分享來華見聞,「中國變酷了」的印象被越來越多全球網友所認同。對此,國家發展改革委主任鄭柵潔表示,這背後反映了中國的綜合國力。中國變酷了!酷在哪裡?
華為Pura 80 Ultra國際版亮相:系統開機是EMUI 15.0,電池容量為5170mAh - 天天要聞

華為Pura 80 Ultra國際版亮相:系統開機是EMUI 15.0,電池容量為5170mAh

當地時間7月10日,華為在迪拜推出全新的Pura 80 Ultra影像旗艦,售價是5099阿聯酋迪拉姆,約合人民幣9961元。對比國行版,Pura 80 Ultra國際版有兩大變化,一是系統調整為EMUI 15.0,國行版系統是鴻蒙5.1,二是電池容量為5170mAh,國行版電池容量是5700mAh。來源 江南都市報、快科技編輯 賈凱 審核 蔣波 陳潔...
AMD下代桌面銳龍處理器:N2工藝、Zen6架構、更多內核、依舊AM5插槽 - 天天要聞

AMD下代桌面銳龍處理器:N2工藝、Zen6架構、更多內核、依舊AM5插槽

有關於AMD下代桌面端銳龍處理器的更多信息浮出水面。AMD下代桌面端銳龍處理器代號「Medusa Ridge」,將採用全新的Zen6架構,該架構將使用TSMC的N2(2nm)工藝節點構建CCD,相比於前代Zen5架構的台積電N4P工藝節點,N2工藝的晶體管密度將顯著提升。此前單CCD的最大核心數量為8個,而在Medusa Ridge上AMD可能會將單個CCD
AI終結傳統軟件業,如同互聯網終結傳統媒體 - 天天要聞

AI終結傳統軟件業,如同互聯網終結傳統媒體

AI編程工具正推動軟件行業走向「峰值時刻」。近日,芯片金融分析公司Fabricated Knowledge的創始人Doug O'Laughlin發表文章稱,生成式AI正以類似互聯網顛覆傳統媒體的方式,重塑軟件行業的格局。文章指出,AI工具,比如Cursor和Claude Code,正在讓編寫代碼的成本和時間大幅下降,過去需要每token數千美元才能完成的開發
英特爾CEO陳立武坦言:公司已跌出半導體行業前十 - 天天要聞

英特爾CEO陳立武坦言:公司已跌出半導體行業前十

【TechWeb】7月11日消息,據外媒報道,英特爾CEO陳立武在內部講話中坦言,公司已跌出半導體行業前十。陳立武表示,20到30年前,英特爾確實是領導者,世界已經發生了變化。我們現在已經不是排名前十的半導體公司了。有報道稱,英特爾公司發言人後續解釋稱其所指為 "市值" 而非技術。在過去的 18 個月里,英特爾的市值從 202...
華為海思Cat.1物聯芯片Hi2131正式上市 - 天天要聞

華為海思Cat.1物聯芯片Hi2131正式上市

7月10日,華為海思正式宣布,Hi2131 Cat.1物聯芯片正式上市。據介紹,Hi2131 Cat.1 芯片採用超輕量芯片架構與極簡休眠管理,將休眠功耗一舉壓縮至 150uA。相較於常見的同類型芯片,保活功耗直降 30% 以上,數傳功耗亦降低 10%。功耗的顯著優化直接轉化為設備續航能力的躍升。這意味着共享設備維護周期大幅延長,用戶體驗與...