LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO

2023年10月08日07:35:01 科技 1983

LLMs Finetune系列(五) 講解了 RAFT 全量參數對齊微調算法,RAFT 算法思路和Reject Sample 思路其實大差不差,基本可以認為只是換了一個叫法,本文講解Llama2模型中全量參數對齊微調算法Reject Sample + ppo(原版論文中V5 實驗效果最好,採用的方案),具體和前面講解的RLHF 算法的區別如何,這裡先上圖:

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

圖片來源:AI研究大牛Sebastian Raschka 博客

上圖微調算法和RLHF 中不一致的部分做了明顯的標識,具體體現在兩個方面:

1.獎勵 Reward 函數設置

2.Finetune 過程中添加Reject Sample 算法,也即RAFT 算法。

  1. 獎勵函數

LLMs 對齊過程中,讓大語言模型的無害性,有幫助性;針對這個問題,Llama2 訓練了分別訓練了兩個獎勵模型模型,一個是對無害性的獎勵,一個是對幫助性獎勵;在誤差函數中添加新增了一個邊際(margin)標籤,significantly better、better、slightly better、negligibly better、unsure,這裡和instruct-GPT不一樣的是,對於每個prompt 只生成了兩個結果(為了保證多樣性,使用 2 個 model 生成 response,並使用不同的 temperature),而不是像instruct-GPT 原理圖上畫的生成A、B、C、D 四個結果,進行排序。

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

損失函數

具體在RLHF過程中,對兩個獎勵函數的使用如下:

PPO 的求解目標找到期望獎勵最大時候的策略函數,也即LLMs

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

ppo 目標函數

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

p 表示prompt ,g 表示生成結果,pi 的結果是一個概率

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

評價模型綜

這裡LOGIT 是sigmoid 函數的反向操作,但是WHITEN 是個什麼操作,這裡論文並沒有給出計算方式,相關代碼中也沒有給出解釋,歡迎大家在評論區給出探討!

  1. Reject Sample + PPO 算法交替進行

原文中講述了這兩種算法的不同:

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

顯著區別具體來講Reject Sample 偏重於廣度,PPO 算法偏重於深度

廣度——在拒絕採樣中,模型對給定的提示探索 K 個樣本,進行finetune,而 PPO 只進行一次生成。

深度——在 PPO 中,在訓練的第 t 步,樣本是更新後的模型策略的函數,該策略來自前一步的梯度更新後的 t-1。在拒絕採樣微調中,在應用類似於SFT的微調之前,根據模型的初始策略採樣所有輸出以收集新數據集。然而,由於我們應用了迭代模型更新,所以兩種 RL 算法之間的基本差異不太明顯。

從前面給出的圖中,Llama2 對prompt 進行抽樣,對每個樣本生成多個輸出,然後對一個prompt,多個生成gi 對,進行Reject Sample 微調,然後對每個Prompt 中的某一個生成g,進行PPO微調。

其實整個Llama2 算法在Reward 模型上做了較大的改進,整個過程的核心還是PPO 算法,而PPO 算法核心是Critic 網絡和action(policy 策略網絡的參數更新),在LLM 上額外多了Reward 和 SFT 兩個原始訓練好的網絡

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

PPO 算法

科技分類資訊推薦

蘋果 macOS 26 開發者預覽版 Beta 3 發布 - 天天要聞

蘋果 macOS 26 開發者預覽版 Beta 3 發布

IT之家 7 月 8 日消息,蘋果今日向 Mac 電腦用戶推送了 macOS 26 開發者預覽版 Beta 3 更新(內部版本號:25A5306g),本次更新距離上次發布 Beta/RC 間隔 14 天。 本文由機器人發布,IT之家稍後將為大家帶來具體更新內容。 附 macOS 26 發布歷史: IT之家小夥伴如果找到更多新內容,可以在投稿或評論區中提出你的
蘋果 watchOS 26 開發者預覽版 Beta 3 發布 - 天天要聞

蘋果 watchOS 26 開發者預覽版 Beta 3 發布

IT之家 7 月 8 日消息,蘋果今日向 Apple Watch 用戶推送了 watchOS 26 開發者預覽版 Beta 3 更新(內部版本號:23R5307g),本次更新距離上次發布 Beta/RC 間隔 14 天。 本文由機器人發布,IT之家稍後將為大家帶來具體更新內容。 附 watchOS 26 發布歷史: IT之家小夥伴如果找到更多新內容,可以在投
蘋果 iOS/iPadOS 26 開發者預覽版 Beta 3 發布 - 天天要聞

蘋果 iOS/iPadOS 26 開發者預覽版 Beta 3 發布

IT之家 7 月 8 日消息,蘋果今日向 iPhone 和 iPad 用戶推送了 iOS/iPadOS 26 開發者預覽版 Beta 3 更新(內部版本號:23A5287g),本次更新距離上次發布 Beta/RC 間隔 14 天。 本文由機器人發布,IT之家稍後將為大家帶來具體更新內容。 附 iOS/iPadOS 26 發布歷史: IT之家小夥伴如果找到更多
2025年亞馬遜Prime日音響特惠直播 - 天天要聞

2025年亞馬遜Prime日音響特惠直播

#迎瑞午粽香納福#快速導讀Grado SR325x 耳機是市場上備受推崇的有線耳機,以其卓越音質和復古設計獲得多項獎項,價格為247美元,折扣幅度顯著。
互聯網係數字銀行搶灘港險分銷,能否重塑香港保險生態? - 天天要聞

互聯網係數字銀行搶灘港險分銷,能否重塑香港保險生態?

在低利率環境下,香港保險產品的高回報率吸引着越來越多的投資者。近期,螞蟻銀行、PAO Bank等持牌數字銀行紛紛進軍保險市場,分銷險企的儲蓄險、人壽險等高收益產品。 雖然銀保合作在香港保險市場並非新鮮事物,但市場份額長期受限。部分市場觀察人士期待,擁有內地互聯網背景的數字銀行能夠憑藉其技術優勢和數字化運營經...
啟動招募!面向全球AI創業者—— - 天天要聞

啟動招募!面向全球AI創業者——

在中關村科學城北部核心區一座瞄準全球人工智能頂峰的生態地標正在崛起“中關村AI北緯社區”正式啟動全球招募“中關村AI北緯社區”以“從這裡,定義AI的千萬種可能”為核心理念定位於建設“全球頂級人工智能生態圈”致力成為AI創業者的首選地和風向標
“婉約派”流行人聲塞——淺談達音科Vulkan2 - 天天要聞

“婉約派”流行人聲塞——淺談達音科Vulkan2

一個品牌的發展,既要考慮自身的奮鬥,也要考慮歷史的進程......達音科就是那個在國產便攜HIFI圈子裡必能史上留名的牌子,也是主流的一線品牌里最早開始卷硬件配置的那個,但是放在2025年,當年那套數單元數量再對比價格去衡量“性價比”的路線
清華大學校巴接入高德地圖:可規劃最優路徑、查看車輛實時位置 - 天天要聞

清華大學校巴接入高德地圖:可規劃最優路徑、查看車輛實時位置

IT之家 7 月 7 日消息,根據清華大學校園交通管理服務官方公眾號“行在清華”今晚的推文,經該校學生部、保衛部、信息辦及接待中心等部門協同推進,清華校園巴士線路信息正式接入高德地圖導航系統。用戶可通過高德地圖便捷查詢校園巴士路線、獲取導航服務,實現校內外出行路線的無縫銜接。校方表示,升級後的導航功能支持智...