LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO

2023年10月08日07:35:01 科技 1983

LLMs Finetune系列(五) 讲解了 RAFT 全量参数对齐微调算法，RAFT 算法思路和Reject Sample 思路其实大差不差，基本可以认为只是换了一个叫法，本文讲解Llama2模型中全量参数对齐微调算法Reject Sample + ppo（原版论文中V5 实验效果最好，采用的方案），具体和前面讲解的RLHF 算法的区别如何，这里先上图：

图片来源：AI研究大牛Sebastian Raschka 博客

上图微调算法和RLHF 中不一致的部分做了明显的标识，具体体现在两个方面：

1.奖励 Reward 函数设置

2.Finetune 过程中添加Reject Sample 算法，也即RAFT 算法。

奖励函数

LLMs 对齐过程中，让大语言模型的无害性，有帮助性；针对这个问题，Llama2 训练了分别训练了两个奖励模型模型，一个是对无害性的奖励，一个是对帮助性奖励；在误差函数中添加新增了一个边际（margin）标签，significantly better、better、slightly better、negligibly better、unsure，这里和instruct-GPT不一样的是，对于每个prompt 只生成了两个结果（为了保证多样性，使用 2 个 model 生成 response，并使用不同的 temperature），而不是像instruct-GPT 原理图上画的生成A、B、C、D 四个结果，进行排序。