LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO

2023年10月08日07:35:01 科技 1983

LLMs Finetune系列(五) 讲解了 RAFT 全量参数对齐微调算法,RAFT 算法思路和Reject Sample 思路其实大差不差,基本可以认为只是换了一个叫法,本文讲解Llama2模型中全量参数对齐微调算法Reject Sample + ppo(原版论文中V5 实验效果最好,采用的方案),具体和前面讲解的RLHF 算法的区别如何,这里先上图:

LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO - 天天要闻

图片来源:AI研究大牛Sebastian Raschka 博客

上图微调算法和RLHF 中不一致的部分做了明显的标识,具体体现在两个方面:

1.奖励 Reward 函数设置

2.Finetune 过程中添加Reject Sample 算法,也即RAFT 算法。

  1. 奖励函数

LLMs 对齐过程中,让大语言模型的无害性,有帮助性;针对这个问题,Llama2 训练了分别训练了两个奖励模型模型,一个是对无害性的奖励,一个是对帮助性奖励;在误差函数中添加新增了一个边际(margin)标签,significantly better、better、slightly better、negligibly better、unsure,这里和instruct-GPT不一样的是,对于每个prompt 只生成了两个结果(为了保证多样性,使用 2 个 model 生成 response,并使用不同的 temperature),而不是像instruct-GPT 原理图上画的生成A、B、C、D 四个结果,进行排序。

LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO - 天天要闻

损失函数

具体在RLHF过程中,对两个奖励函数的使用如下:

PPO 的求解目标找到期望奖励最大时候的策略函数,也即LLMs

LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO - 天天要闻

ppo 目标函数

LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO - 天天要闻

p 表示prompt ,g 表示生成结果,pi 的结果是一个概率

LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO - 天天要闻

评价模型综

这里LOGIT 是sigmoid 函数的反向操作,但是WHITEN 是个什么操作,这里论文并没有给出计算方式,相关代码中也没有给出解释,欢迎大家在评论区给出探讨!

  1. Reject Sample + PPO 算法交替进行

原文中讲述了这两种算法的不同:

LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO - 天天要闻

显著区别具体来讲Reject Sample 偏重于广度,PPO 算法偏重于深度

广度——在拒绝采样中,模型对给定的提示探索 K 个样本,进行finetune,而 PPO 只进行一次生成。

深度——在 PPO 中,在训练的第 t 步,样本是更新后的模型策略的函数,该策略来自前一步的梯度更新后的 t-1。在拒绝采样微调中,在应用类似于SFT的微调之前,根据模型的初始策略采样所有输出以收集新数据集。然而,由于我们应用了迭代模型更新,所以两种 RL 算法之间的基本差异不太明显。

从前面给出的图中,Llama2 对prompt 进行抽样,对每个样本生成多个输出,然后对一个prompt,多个生成gi 对,进行Reject Sample 微调,然后对每个Prompt 中的某一个生成g,进行PPO微调。

其实整个Llama2 算法在Reward 模型上做了较大的改进,整个过程的核心还是PPO 算法,而PPO 算法核心是Critic 网络和action(policy 策略网络的参数更新),在LLM 上额外多了Reward 和 SFT 两个原始训练好的网络

LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO - 天天要闻

PPO 算法

科技分类资讯推荐

2025年亚马逊Prime日音响特惠直播 - 天天要闻

2025年亚马逊Prime日音响特惠直播

#迎瑞午粽香纳福#快速导读Grado SR325x 耳机是市场上备受推崇的有线耳机,以其卓越音质和复古设计获得多项奖项,价格为247美元,折扣幅度显著。
互联网系数字银行抢滩港险分销,能否重塑香港保险生态? - 天天要闻

互联网系数字银行抢滩港险分销,能否重塑香港保险生态?

在低利率环境下,香港保险产品的高回报率吸引着越来越多的投资者。近期,蚂蚁银行、PAO Bank等持牌数字银行纷纷进军保险市场,分销险企的储蓄险、人寿险等高收益产品。 虽然银保合作在香港保险市场并非新鲜事物,但市场份额长期受限。部分市场观察人士期待,拥有内地互联网背景的数字银行能够凭借其技术优势和数字化运营经...
启动招募!面向全球AI创业者—— - 天天要闻

启动招募!面向全球AI创业者——

在中关村科学城北部核心区一座瞄准全球人工智能顶峰的生态地标正在崛起“中关村AI北纬社区”正式启动全球招募“中关村AI北纬社区”以“从这里,定义AI的千万种可能”为核心理念定位于建设“全球顶级人工智能生态圈”致力成为AI创业者的首选地和风向标
“婉约派”流行人声塞——浅谈达音科Vulkan2 - 天天要闻

“婉约派”流行人声塞——浅谈达音科Vulkan2

一个品牌的发展,既要考虑自身的奋斗,也要考虑历史的进程......达音科就是那个在国产便携HIFI圈子里必能史上留名的牌子,也是主流的一线品牌里最早开始卷硬件配置的那个,但是放在2025年,当年那套数单元数量再对比价格去衡量“性价比”的路线
清华大学校巴接入高德地图:可规划最优路径、查看车辆实时位置 - 天天要闻

清华大学校巴接入高德地图:可规划最优路径、查看车辆实时位置

IT之家 7 月 7 日消息,根据清华大学校园交通管理服务官方公众号“行在清华”今晚的推文,经该校学生部、保卫部、信息办及接待中心等部门协同推进,清华校园巴士线路信息正式接入高德地图导航系统。用户可通过高德地图便捷查询校园巴士路线、获取导航服务,实现校内外出行路线的无缝衔接。校方表示,升级后的导航功能支持智...
赶交期就出次品?保质量就拖进度?制造业的“平衡术” - 天天要闻

赶交期就出次品?保质量就拖进度?制造业的“平衡术”

福建一家轴承厂的老板最近很头疼。上个月接了个大客户的订单,要求30天内交付5000套精密轴承。车间主任拍胸脯保证“没问题”,结果天天加班赶工,第28天总算交了货。可没过一周,客户发来了检测报告:15%的轴承径向跳动超标,不符合装机标准。
淘宝闪购日订单超8000万:百万订单规模城市数量一周翻一倍 - 天天要闻

淘宝闪购日订单超8000万:百万订单规模城市数量一周翻一倍

新京报讯(记者秦胜南)距离淘宝闪购7月2日启动500亿补贴仅三天后,7月5日,淘宝闪购官宣订单数超过8000万,其中非餐饮订单超过1300万,淘宝闪购日活跃用户已经超过2亿。据悉,此次淘宝闪购推出500亿补贴进一步激发了城市消费热情,淘宝闪购上,日订单量突破百万的城市数量在过去一周翻了一倍。数据显示,自5月2日淘宝闪购...
罗马仕召回超49万台充电宝后续:有用户退款排到17万位 - 天天要闻

罗马仕召回超49万台充电宝后续:有用户退款排到17万位

IT之家 7 月 7 日消息,近期,充电宝召回事件成为社会关注焦点,罗马仕、安克创新等品牌相继召回多款产品,召回产品超过 120 万台,民航局也发布紧急通知,禁止旅客携带无 CCC 认证标识以及被召回型号的充电宝乘坐境内航班。