LLMs Finetune系列(六)—全量參數對齊微調Reject Sample + PPO

2023年10月08日07:35:01 科技 1983

LLMs Finetune系列(五) 講解了 RAFT 全量參數對齊微調算法，RAFT 算法思路和Reject Sample 思路其實大差不差，基本可以認為只是換了一個叫法，本文講解Llama2模型中全量參數對齊微調算法Reject Sample + ppo（原版論文中V5 實驗效果最好，採用的方案），具體和前面講解的RLHF 算法的區別如何，這裡先上圖：

圖片來源：AI研究大牛Sebastian Raschka 博客

上圖微調算法和RLHF 中不一致的部分做了明顯的標識，具體體現在兩個方面：

1.獎勵 Reward 函數設置

2.Finetune 過程中添加Reject Sample 算法，也即RAFT 算法。

獎勵函數

LLMs 對齊過程中，讓大語言模型的無害性，有幫助性；針對這個問題，Llama2 訓練了分別訓練了兩個獎勵模型模型，一個是對無害性的獎勵，一個是對幫助性獎勵；在誤差函數中添加新增了一個邊際（margin）標籤，significantly better、better、slightly better、negligibly better、unsure，這裡和instruct-GPT不一樣的是，對於每個prompt 只生成了兩個結果（為了保證多樣性，使用 2 個 model 生成 response，並使用不同的 temperature），而不是像instruct-GPT 原理圖上畫的生成A、B、C、D 四個結果，進行排序。