LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO

2023年10月08日07:35:01 科技 1983

LLMs Finetune系列(五) 講解了 RAFT 全量參數對齊微調算法,RAFT 算法思路和Reject Sample 思路其實大差不差,基本可以認為只是換了一個叫法,本文講解Llama2模型中全量參數對齊微調算法Reject Sample + ppo(原版論文中V5 實驗效果最好,採用的方案),具體和前面講解的RLHF 算法的區別如何,這裡先上圖:

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

圖片來源:AI研究大牛Sebastian Raschka 博客

上圖微調算法和RLHF 中不一致的部分做了明顯的標識,具體體現在兩個方面:

1.獎勵 Reward 函數設置

2.Finetune 過程中添加Reject Sample 算法,也即RAFT 算法。

  1. 獎勵函數

LLMs 對齊過程中,讓大語言模型的無害性,有幫助性;針對這個問題,Llama2 訓練了分別訓練了兩個獎勵模型模型,一個是對無害性的獎勵,一個是對幫助性獎勵;在誤差函數中添加新增了一個邊際(margin)標籤,significantly better、better、slightly better、negligibly better、unsure,這裡和instruct-GPT不一樣的是,對於每個prompt 只生成了兩個結果(為了保證多樣性,使用 2 個 model 生成 response,並使用不同的 temperature),而不是像instruct-GPT 原理圖上畫的生成A、B、C、D 四個結果,進行排序。

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

損失函數

具體在RLHF過程中,對兩個獎勵函數的使用如下:

PPO 的求解目標找到期望獎勵最大時候的策略函數,也即LLMs

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

ppo 目標函數

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

p 表示prompt ,g 表示生成結果,pi 的結果是一個概率

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

評價模型綜

這裡LOGIT 是sigmoid 函數的反向操作,但是WHITEN 是個什麼操作,這裡論文並沒有給出計算方式,相關代碼中也沒有給出解釋,歡迎大家在評論區給出探討!

  1. Reject Sample + PPO 算法交替進行

原文中講述了這兩種算法的不同:

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

顯著區別具體來講Reject Sample 偏重於廣度,PPO 算法偏重於深度

廣度——在拒絕採樣中,模型對給定的提示探索 K 個樣本,進行finetune,而 PPO 只進行一次生成。

深度——在 PPO 中,在訓練的第 t 步,樣本是更新後的模型策略的函數,該策略來自前一步的梯度更新後的 t-1。在拒絕採樣微調中,在應用類似於SFT的微調之前,根據模型的初始策略採樣所有輸出以收集新數據集。然而,由於我們應用了迭代模型更新,所以兩種 RL 算法之間的基本差異不太明顯。

從前面給出的圖中,Llama2 對prompt 進行抽樣,對每個樣本生成多個輸出,然後對一個prompt,多個生成gi 對,進行Reject Sample 微調,然後對每個Prompt 中的某一個生成g,進行PPO微調。

其實整個Llama2 算法在Reward 模型上做了較大的改進,整個過程的核心還是PPO 算法,而PPO 算法核心是Critic 網絡和action(policy 策略網絡的參數更新),在LLM 上額外多了Reward 和 SFT 兩個原始訓練好的網絡

LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO - 天天要聞

PPO 算法

科技分類資訊推薦

1699元能買到!榮耀Power有這些優缺點,選它續航焦慮真沒了! - 天天要聞

1699元能買到!榮耀Power有這些優缺點,選它續航焦慮真沒了!

有一天,一款主流手機的電池容量來到了8000mAh,且最關鍵的是,這樣的產品並沒有過多的犧牲手感,甚至可以說手感比主流旗艦機還好,這樣的一款手機也許會在其他方面稍微有所妥協,但不得不說,它確實從根源上杜絕了我們的續航焦慮問題。沒錯了!今天咱們來聊聊榮耀POWER,一款定價在千元左右產品,按照筆者的理解,榮耀是將...
倒計時3天!第二屆「興智杯」全國人工智能創新應用大賽即將啟動,線上直播預約開啟 - 天天要聞

倒計時3天!第二屆「興智杯」全國人工智能創新應用大賽即將啟動,線上直播預約開啟

前期,工業和信息化部、科學技術部、深圳市人民政府共同主辦了首屆「興智杯」全國人工智能創新應用大賽(以下簡稱「大賽」),以需求為牽引,推動了一批關鍵技術加快突破,加快人工智能與重點行業融合賦能,成為了目前國內規模最大、參賽主體最豐富的人工智能專業賽事。為進一步發揮「以賽促研、以賽促用、以賽育人」的作用...
國產芯片殺瘋了!利潤暴漲26倍,這些小芯片藏着大突破 - 天天要聞

國產芯片殺瘋了!利潤暴漲26倍,這些小芯片藏着大突破

最近翻看國產芯片企業的成績單,可把我這個外行人看樂了——利潤動輒漲個兩三倍都是常規操作,最誇張的翻了26倍!您別誤會,這可不是在炒股,而是實打實的造芯片掙來的真金白銀。要說這波國產替代的浪潮,還真讓咱們在芯片領域啃下了幾塊硬骨頭。先說個身邊
iStorage 推出 26TB 容量 diskAshur 加密硬盤,1541 美元起 - 天天要聞

iStorage 推出 26TB 容量 diskAshur 加密硬盤,1541 美元起

IT之家 5 月 5 日消息,硬盤製造商 iStorage 宣布推出 26TB 版本 diskAshur DT2/3 系列加密硬盤,相應硬盤主打「提供物理密碼按鍵」,其中 diskAshur DT2 26TB 版本售價為 1541 美元(IT之家註:現匯率約合 11147 元人民幣),diskAshur DT3 26TB 版本定價為 1814 美元(現匯率約
無線信號增強秘籍,橋接和中繼模式哪個更強? - 天天要聞

無線信號增強秘籍,橋接和中繼模式哪個更強?

【ZOL中關村在線原創技術解析】隨着無線通信與計算機技術飛速發展,人們愈發渴望隨時隨地享受穩定的數據通信服務。無線路由器作為無線網絡核心設備,作用關鍵。但當其信號覆蓋不足,如穿過兩堵牆後信號微弱時,可通過無線橋接或中繼模式連接兩個無線路由器,擴展網絡、增強信號。中繼模式和橋接模式雖都能擴展網絡覆蓋,但...
流暢更耐用 魅族Note 16將預裝Flyme 12 - 天天要聞

流暢更耐用 魅族Note 16將預裝Flyme 12

魅族官方透露,將於5月發佈的魅族Note 16系列將出廠預裝Flyme 12新系統,這也是Flyme系統大版本首次在非旗艦機型上首發。魅族Note 16搭載紫光展銳T765處理器,配備6.78英寸LCD屏,分辨率達2460*1080。後置採用八邊形相機模組,由5000萬像素主攝和200萬像素鏡頭組成。續航方面,內置6600mAh大容量電池,支持40W有線充電
跨境電商迎「成本地震」,行業洗牌加速 - 天天要聞

跨境電商迎「成本地震」,行業洗牌加速

【環球網財經綜合報道】近日,美國正式終止了對中國價值不超過800美元的小額包裹免徵關稅的政策,這一變化引發了中國跨境電商行業的連鎖反應。多家物流公司隨即調整策略,物流費用普遍上漲,並增加了高額預收稅金。(圖片來源:東方IC)美國的800美元小額免稅政策(De Minimis)自2016年實施以來,極大地推動了全球跨境電商...