LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO

2023年10月08日07:35:01 科技 1983

LLMs Finetune系列(五) 講解了 RAFT 全量參數對齊微調算法,RAFT 算法思路和Reject Sample 思路其實大差不差,基本可以認為只是換了一個叫法,本文講解Llama2模型中全量參數對齊微調算法Reject Sample + ppo(原版論文中V5 實驗效果最好,採用的方案),具體和前面講解的RLHF 算法的區別如何,這裡先上圖:

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

圖片來源:AI研究大牛Sebastian Raschka 博客

上圖微調算法和RLHF 中不一致的部分做了明顯的標識,具體體現在兩個方面:

1.獎勵 Reward 函數設置

2.Finetune 過程中添加Reject Sample 算法,也即RAFT 算法。

  1. 獎勵函數

LLMs 對齊過程中,讓大語言模型的無害性,有幫助性;針對這個問題,Llama2 訓練了分別訓練了兩個獎勵模型模型,一個是對無害性的獎勵,一個是對幫助性獎勵;在誤差函數中添加新增了一個邊際(margin)標籤,significantly better、better、slightly better、negligibly better、unsure,這裡和instruct-GPT不一樣的是,對於每個prompt 只生成了兩個結果(為了保證多樣性,使用 2 個 model 生成 response,並使用不同的 temperature),而不是像instruct-GPT 原理圖上畫的生成A、B、C、D 四個結果,進行排序。

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

損失函數

具體在RLHF過程中,對兩個獎勵函數的使用如下:

PPO 的求解目標找到期望獎勵最大時候的策略函數,也即LLMs

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

ppo 目標函數

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

p 表示prompt ,g 表示生成結果,pi 的結果是一個概率

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

評價模型綜

這裡LOGIT 是sigmoid 函數的反向操作,但是WHITEN 是個什麼操作,這裡論文並沒有給出計算方式,相關代碼中也沒有給出解釋,歡迎大家在評論區給出探討!

  1. Reject Sample + PPO 算法交替進行

原文中講述了這兩種算法的不同:

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

顯著區別具體來講Reject Sample 偏重於廣度,PPO 算法偏重於深度

廣度——在拒絕採樣中,模型對給定的提示探索 K 個樣本,進行finetune,而 PPO 只進行一次生成。

深度——在 PPO 中,在訓練的第 t 步,樣本是更新後的模型策略的函數,該策略來自前一步的梯度更新後的 t-1。在拒絕採樣微調中,在應用類似於SFT的微調之前,根據模型的初始策略採樣所有輸出以收集新數據集。然而,由於我們應用了迭代模型更新,所以兩種 RL 算法之間的基本差異不太明顯。

從前面給出的圖中,Llama2 對prompt 進行抽樣,對每個樣本生成多個輸出,然後對一個prompt,多個生成gi 對,進行Reject Sample 微調,然後對每個Prompt 中的某一個生成g,進行PPO微調。

其實整個Llama2 算法在Reward 模型上做了較大的改進,整個過程的核心還是PPO 算法,而PPO 算法核心是Critic 網絡和action(policy 策略網絡的參數更新),在LLM 上額外多了Reward 和 SFT 兩個原始訓練好的網絡

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

PPO 算法

科技分類資訊推薦

台州學院「智方同源」團隊:以數智科技賦能傳統葯食同源 - 天天要聞

台州學院「智方同源」團隊:以數智科技賦能傳統葯食同源

在台州學院創業學院的鼎力支持與浙江省生態學保護重點實驗室的科研支撐下,台州學院「智方同源」學生團隊應運而生。該團隊聚焦於葯食同源領域,創新性地將大數據分析與人工智能技術深度融入功能食品配方設計,首創傳統食療配方圖神經分析技術、食品配方成分-功效網絡模塊互作評價方法和口感預測卷積神經網絡分析技術,致力...
S11芯片+5G加持!Apple Watch Ultra 3今年登場? - 天天要聞

S11芯片+5G加持!Apple Watch Ultra 3今年登場?

日前,分析師 Jeff Pu在一份關於蘋果2025年的產品規劃路線圖裡提到,除了新款 Apple Watch Series 11,今年蘋果也將推出大家都十分關注的新款智能手錶 Apple Watch Ultra 3。屆時 Apple Watch Series 11以及 Apple Watch Ultra 3這兩款新手將會和期待已久的 iPhone 17 系列
以伊衝突還在打,市場卻已經翻篇了! - 天天要聞

以伊衝突還在打,市場卻已經翻篇了!

本周一的交易數據講述了一個令人震驚的故事。就在以色列和伊朗兩國持續相互攻擊之際,黃金價格下跌,美債收益率上升,股市波動率暴跌。股票相對於長期債券的表現達到了特朗普就職日以來的最強水平。這些都是典型的"風險開啟"環境信號。以色列攻擊伊朗核設施長期以來被視為可能嚴重惡化全球風險環境的"終極事件",然而,油價...
人民日報盛讚華為、C919以及DeepSeek - 天天要聞

人民日報盛讚華為、C919以及DeepSeek

【TechWeb】據今日《人民日報》報道,無論是中小型企業還是科技行業的領軍巨頭,都在不斷的實踐與探索中凝練出了一條共通的發展真理:持之以恆,沉得住氣。面對外界的封鎖與壓力,華為公司逆境而上,推出了具有突破性的麒麟系列芯片,並自主研發了鴻蒙操作系統,這些新產品在全球市場上實現了重要突破。華為創始人任正非表...
Polyphony Digital於6月7日發佈小米和Gran Turismo的合作 - 天天要聞

Polyphony Digital於6月7日發佈小米和Gran Turismo的合作

總部在中國北京的小米,2021年宣布加入智能電動汽車行業,2024年發售自己的第一個量產電車SU7。旗艦車型SU7 Ultra,擁有1548匹馬力驚人的性能。並且以挑戰紐北北圈記錄為目標開發的SU7 Ultra原型車,以6分46秒874打破了4門車在紐北的圈速記錄,在世界上受到車迷的廣泛關注。小米在接下來,將會與Gran Turismo 一起製作Visi..
網易雲VIP突然宣布免費,還不領就來不及了 - 天天要聞

網易雲VIP突然宣布免費,還不領就來不及了

聽勸的風,再次吹到了網易雲音樂身上。一直以來,網易雲和QQ音樂上的平板端適配,都是平板用戶們重點關注的話題。此前網易雲在安卓平板上,已經完成了比較成熟的大屏適配。可在iPad端上,機哥從2024年等到今年年中,還是等不到它的出現。直到這兩天
數據中心告別「燙手芯片」 曙光數創推出全生命周期液冷解決方案 - 天天要聞

數據中心告別「燙手芯片」 曙光數創推出全生命周期液冷解決方案

IT時報記者 郝俊慧面對越來越「熱」的算力芯片,曙光數創正想讓它快點「冷」下來。在剛剛結束的2025中國智算中心全棧技術大會上,曙光數創發佈「新服務、新技術、新架構」三大新品,旨在通過一體化、全生命周期的服務新範式,解決當前液冷行業面臨的諸多痛點。「液冷即服務,這個概念在行業里早就有需求了。」曙光數創副總...