LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO

2023年10月08日07:35:01 科技 1983

LLMs Finetune系列(五) 講解了 RAFT 全量參數對齊微調算法,RAFT 算法思路和Reject Sample 思路其實大差不差,基本可以認為只是換了一個叫法,本文講解Llama2模型中全量參數對齊微調算法Reject Sample + ppo(原版論文中V5 實驗效果最好,採用的方案),具體和前面講解的RLHF 算法的區別如何,這裡先上圖:

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

圖片來源:AI研究大牛Sebastian Raschka 博客

上圖微調算法和RLHF 中不一致的部分做了明顯的標識,具體體現在兩個方面:

1.獎勵 Reward 函數設置

2.Finetune 過程中添加Reject Sample 算法,也即RAFT 算法。

  1. 獎勵函數

LLMs 對齊過程中,讓大語言模型的無害性,有幫助性;針對這個問題,Llama2 訓練了分別訓練了兩個獎勵模型模型,一個是對無害性的獎勵,一個是對幫助性獎勵;在誤差函數中添加新增了一個邊際(margin)標籤,significantly better、better、slightly better、negligibly better、unsure,這裡和instruct-GPT不一樣的是,對於每個prompt 只生成了兩個結果(為了保證多樣性,使用 2 個 model 生成 response,並使用不同的 temperature),而不是像instruct-GPT 原理圖上畫的生成A、B、C、D 四個結果,進行排序。

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

損失函數

具體在RLHF過程中,對兩個獎勵函數的使用如下:

PPO 的求解目標找到期望獎勵最大時候的策略函數,也即LLMs

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

ppo 目標函數

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

p 表示prompt ,g 表示生成結果,pi 的結果是一個概率

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

評價模型綜

這裡LOGIT 是sigmoid 函數的反向操作,但是WHITEN 是個什麼操作,這裡論文並沒有給出計算方式,相關代碼中也沒有給出解釋,歡迎大家在評論區給出探討!

  1. Reject Sample + PPO 算法交替進行

原文中講述了這兩種算法的不同:

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

顯著區別具體來講Reject Sample 偏重於廣度,PPO 算法偏重於深度

廣度——在拒絕採樣中,模型對給定的提示探索 K 個樣本,進行finetune,而 PPO 只進行一次生成。

深度——在 PPO 中,在訓練的第 t 步,樣本是更新後的模型策略的函數,該策略來自前一步的梯度更新後的 t-1。在拒絕採樣微調中,在應用類似於SFT的微調之前,根據模型的初始策略採樣所有輸出以收集新數據集。然而,由於我們應用了迭代模型更新,所以兩種 RL 算法之間的基本差異不太明顯。

從前面給出的圖中,Llama2 對prompt 進行抽樣,對每個樣本生成多個輸出,然後對一個prompt,多個生成gi 對,進行Reject Sample 微調,然後對每個Prompt 中的某一個生成g,進行PPO微調。

其實整個Llama2 算法在Reward 模型上做了較大的改進,整個過程的核心還是PPO 算法,而PPO 算法核心是Critic 網絡和action(policy 策略網絡的參數更新),在LLM 上額外多了Reward 和 SFT 兩個原始訓練好的網絡

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

PPO 算法

科技分類資訊推薦

蘋果 watchOS 11.6 開發者預覽版 Beta 發佈 - 天天要聞

蘋果 watchOS 11.6 開發者預覽版 Beta 發佈

IT之家 6 月 17 日消息,蘋果今日向 Apple Watch 用戶推送了 watchOS 11.6 開發者預覽版 Beta 更新(內部版本號:22U5054b),本次更新距離上次發佈 Beta/RC 間隔 41 天。 本文由機械人發佈,IT之家稍後將為大家帶來具體更新內容。 附 watchOS 11 發佈歷史: IT之家小夥伴如果找到更多新內容,可以在
蘋果 visionOS 2.6 開發者預覽版 Beta 發佈 - 天天要聞

蘋果 visionOS 2.6 開發者預覽版 Beta 發佈

IT之家 6 月 17 日消息,蘋果今日向 Vision Pro 用戶推送了 visionOS 2.6 開發者預覽版 Beta 更新(內部版本號:22O5754c),本次更新距離上次發佈 Beta/RC 間隔 41 天。 需要注意的是,因蘋果各區域節點服務器配置緩存問題,可能有些地方探測到升級更新的時間略有延遲,一般半小時內,不會太久。 本文由機械人發佈,I
蘋果 macOS 15.6 開發者預覽版 Beta 發佈 - 天天要聞

蘋果 macOS 15.6 開發者預覽版 Beta 發佈

IT之家 6 月 17 日消息,蘋果今日向 Mac 電腦用戶推送了 macOS 15.6 開發者預覽版 Beta 更新(內部版本號:24G5054d),本次更新距離上次發佈 Beta/RC 間隔 41 天。 本文由機械人發佈,IT之家稍後將為大家帶來具體更新內容。 附 macOS 15 發佈歷史: IT之家小夥伴如果找到更多新內容,可以在投稿或評論區中提出你
蘋果 iOS 18.6 開發者預覽版 Beta 發佈 - 天天要聞

蘋果 iOS 18.6 開發者預覽版 Beta 發佈

IT之家 6 月 17 日消息,蘋果今日向 iPhone 用戶推送了 iOS 18.6 開發者預覽版 Beta 更新(內部版本號:22G5054d),本次更新距離上次發佈 Beta/RC 間隔 41 天。 本文由機械人發佈,IT之家稍後將為大家帶來具體更新內容。 附 iOS/iPadOS 18 發佈歷史: IT之家小夥伴如果找到更多新內容,可以在投稿或評論區
ToB話聊室:光學AI處理器準確分類無線信號;腦機接口成失語者「數字聲帶」 - 天天要聞

ToB話聊室:光學AI處理器準確分類無線信號;腦機接口成失語者「數字聲帶」

【ZOL中關村在線原創新聞】6月16日,歡迎收看《ToB話聊室》。在這裡,小編將跟你嘮一嘮科技領域的新鮮事兒。光學AI處理器可高效準確分類無線信號據最新一期《科學進展》雜誌報道,美國麻省理工學院團隊開發出一種專為無線信號處理而設計的全新人工智能(AI)硬件加速器。這種光學處理器能以光速進行機器學習運算,可在數十...
天璣9500再曝:首發搭載X930超大核,9月正式發佈! - 天天要聞

天璣9500再曝:首發搭載X930超大核,9月正式發佈!

隨着移動芯片製程不斷逼近物理極限,旗艦SoC的每一代更迭都不再只是常規升級,而是廠商之間真正意義上的技術較量,比如我們常在旗艦手機上見到的高通驍龍8系與聯發科天璣9系,它們之間的相互競爭,早已成為許多網友關注的焦點。
一加15曝光:驍龍8Elite2+1.5K直屏+自主影像,或10月發佈 - 天天要聞

一加15曝光:驍龍8Elite2+1.5K直屏+自主影像,或10月發佈

在手機行業進入「性能普遍過剩」的當下,旗艦產品的定義正在悄然發生變化。芯片早已不再是唯一賣點,外觀設計、影像系統、屏幕體驗、系統調校等維度逐漸成為用戶綜合決策的重要考量。而即將在今年下半年登場的「一加15」,很可能就是這種新趨勢下的又一代表
陽江商業發射場:第二個海南商發? - 天天要聞

陽江商業發射場:第二個海南商發?

圖/陽江海陵島海陵島,莫做「水魚島」全文3678字,閱讀時間約9分鐘繼去年海南商業航天發射場(簡稱"海南商發")竣工運營後,廣東省陽江市也在積極謀劃建設商業航天發射場。如順利,陽江可能成為中國第二座商業航天發射場。