LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO

2023年10月08日07:35:01 科技 1983

LLMs Finetune系列(五) 講解了 RAFT 全量參數對齊微調算法,RAFT 算法思路和Reject Sample 思路其實大差不差,基本可以認為只是換了一個叫法,本文講解Llama2模型中全量參數對齊微調算法Reject Sample + ppo(原版論文中V5 實驗效果最好,採用的方案),具體和前面講解的RLHF 算法的區別如何,這裡先上圖:

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

圖片來源:AI研究大牛Sebastian Raschka 博客

上圖微調算法和RLHF 中不一致的部分做了明顯的標識,具體體現在兩個方面:

1.獎勵 Reward 函數設置

2.Finetune 過程中添加Reject Sample 算法,也即RAFT 算法。

  1. 獎勵函數

LLMs 對齊過程中,讓大語言模型的無害性,有幫助性;針對這個問題,Llama2 訓練了分別訓練了兩個獎勵模型模型,一個是對無害性的獎勵,一個是對幫助性獎勵;在誤差函數中添加新增了一個邊際(margin)標籤,significantly better、better、slightly better、negligibly better、unsure,這裡和instruct-GPT不一樣的是,對於每個prompt 只生成了兩個結果(為了保證多樣性,使用 2 個 model 生成 response,並使用不同的 temperature),而不是像instruct-GPT 原理圖上畫的生成A、B、C、D 四個結果,進行排序。

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

損失函數

具體在RLHF過程中,對兩個獎勵函數的使用如下:

PPO 的求解目標找到期望獎勵最大時候的策略函數,也即LLMs

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

ppo 目標函數

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

p 表示prompt ,g 表示生成結果,pi 的結果是一個概率

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

評價模型綜

這裡LOGIT 是sigmoid 函數的反向操作,但是WHITEN 是個什麼操作,這裡論文並沒有給出計算方式,相關代碼中也沒有給出解釋,歡迎大家在評論區給出探討!

  1. Reject Sample + PPO 算法交替進行

原文中講述了這兩種算法的不同:

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

顯著區別具體來講Reject Sample 偏重於廣度,PPO 算法偏重於深度

廣度——在拒絕採樣中,模型對給定的提示探索 K 個樣本,進行finetune,而 PPO 只進行一次生成。

深度——在 PPO 中,在訓練的第 t 步,樣本是更新後的模型策略的函數,該策略來自前一步的梯度更新後的 t-1。在拒絕採樣微調中,在應用類似於SFT的微調之前,根據模型的初始策略採樣所有輸出以收集新數據集。然而,由於我們應用了迭代模型更新,所以兩種 RL 算法之間的基本差異不太明顯。

從前面給出的圖中,Llama2 對prompt 進行抽樣,對每個樣本生成多個輸出,然後對一個prompt,多個生成gi 對,進行Reject Sample 微調,然後對每個Prompt 中的某一個生成g,進行PPO微調。

其實整個Llama2 算法在Reward 模型上做了較大的改進,整個過程的核心還是PPO 算法,而PPO 算法核心是Critic 網絡和action(policy 策略網絡的參數更新),在LLM 上額外多了Reward 和 SFT 兩個原始訓練好的網絡

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

PPO 算法

科技分類資訊推薦

美國即將開徵半導體關稅:稅率最高或達100%? - 天天要聞

美國即將開徵半導體關稅:稅率最高或達100%?

5月5日消息,美國特朗普政府可能最快於本周公布針對半導體加征關稅的細節,市場預估稅率可能高達25%~100%,並且新規則不排除以晶圓製造地作為源產地來加征關稅,這也將對台積電、三星等產能集中在亞洲地區的晶圓製造大廠,以及英偉達、蘋果、高通、
手機電池突破8000mAh?廠商不敢說的真相:一年後續航崩塌 - 天天要聞

手機電池突破8000mAh?廠商不敢說的真相:一年後續航崩塌

如果你近期有關注手機市場,一定不難發現最近發佈的這些新機都有一個共同點:電池容量一個比一個高,6000mAh已經完全不夠看,7000mAh級別的手機一台接着一台,甚者已經做到了8000mAh,人均行走的「移動電源」。電池容量的增加對用戶來說確實是好事,續航時間的增加意味着用戶不用再隨身攜帶一個移動電源。(圖片來源:榮耀...
阿維塔全球研發中心啟用,與華為聯合共創進入新階段 - 天天要聞

阿維塔全球研發中心啟用,與華為聯合共創進入新階段

近日,阿維塔全球研發中心正式啟用,可容納超過1000人。接近阿維塔的知情人士透露,該辦公大樓於2024年12月啟動裝修,其核心功能是承載阿維塔與華為聯合共創團隊的協同工作。此次全球研發中心的落成啟用,預示着阿維塔與華為的聯合共創將進入更大規
銷量承壓、動銷欠佳,高玉玲如何讓海信經銷商「脫困」? - 天天要聞

銷量承壓、動銷欠佳,高玉玲如何讓海信經銷商「脫困」?

文/曹雙濤編輯/楊博丞2025年按照既定目標,海信集團整體營收需達到3000億元。但2024年除高玉玲接棒代慧忠成為海信家電董事長,網傳海信裁員3萬人、裁員比例高達20%~30%外。公開數據顯示,2024年海信集團營收2143億元。另據海信家電發佈的2024年年報顯示,當年海信家電營收和歸母凈利潤分別同比增長8.35%和17.99%,分別至9...
1699元能買到!榮耀Power有這些優缺點,選它續航焦慮真沒了! - 天天要聞

1699元能買到!榮耀Power有這些優缺點,選它續航焦慮真沒了!

有一天,一款主流手機的電池容量來到了8000mAh,且最關鍵的是,這樣的產品並沒有過多的犧牲手感,甚至可以說手感比主流旗艦機還好,這樣的一款手機也許會在其他方面稍微有所妥協,但不得不說,它確實從根源上杜絕了我們的續航焦慮問題。沒錯了!今天咱們來聊聊榮耀POWER,一款定價在千元左右產品,按照筆者的理解,榮耀是將...
倒計時3天!第二屆「興智杯」全國人工智能創新應用大賽即將啟動,線上直播預約開啟 - 天天要聞

倒計時3天!第二屆「興智杯」全國人工智能創新應用大賽即將啟動,線上直播預約開啟

前期,工業和信息化部、科學技術部、深圳市人民政府共同主辦了首屆「興智杯」全國人工智能創新應用大賽(以下簡稱「大賽」),以需求為牽引,推動了一批關鍵技術加快突破,加快人工智能與重點行業融合賦能,成為了目前國內規模最大、參賽主體最豐富的人工智能專業賽事。為進一步發揮「以賽促研、以賽促用、以賽育人」的作用...
國產芯片殺瘋了!利潤暴漲26倍,這些小芯片藏着大突破 - 天天要聞

國產芯片殺瘋了!利潤暴漲26倍,這些小芯片藏着大突破

最近翻看國產芯片企業的成績單,可把我這個外行人看樂了——利潤動輒漲個兩三倍都是常規操作,最誇張的翻了26倍!您別誤會,這可不是在炒股,而是實打實的造芯片掙來的真金白銀。要說這波國產替代的浪潮,還真讓咱們在芯片領域啃下了幾塊硬骨頭。先說個身邊
iStorage 推出 26TB 容量 diskAshur 加密硬盤,1541 美元起 - 天天要聞

iStorage 推出 26TB 容量 diskAshur 加密硬盤,1541 美元起

IT之家 5 月 5 日消息,硬盤製造商 iStorage 宣布推出 26TB 版本 diskAshur DT2/3 系列加密硬盤,相應硬盤主打「提供物理密碼按鍵」,其中 diskAshur DT2 26TB 版本售價為 1541 美元(IT之家註:現匯率約合 11147 元人民幣),diskAshur DT3 26TB 版本定價為 1814 美元(現匯率約