LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO

2023年10月08日07:35:01 科技 1983

LLMs Finetune系列(五) 讲解了 RAFT 全量参数对齐微调算法,RAFT 算法思路和Reject Sample 思路其实大差不差,基本可以认为只是换了一个叫法,本文讲解Llama2模型中全量参数对齐微调算法Reject Sample + ppo(原版论文中V5 实验效果最好,采用的方案),具体和前面讲解的RLHF 算法的区别如何,这里先上图:

LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO - 天天要闻

图片来源:AI研究大牛Sebastian Raschka 博客

上图微调算法和RLHF 中不一致的部分做了明显的标识,具体体现在两个方面:

1.奖励 Reward 函数设置

2.Finetune 过程中添加Reject Sample 算法,也即RAFT 算法。

  1. 奖励函数

LLMs 对齐过程中,让大语言模型的无害性,有帮助性;针对这个问题,Llama2 训练了分别训练了两个奖励模型模型,一个是对无害性的奖励,一个是对帮助性奖励;在误差函数中添加新增了一个边际(margin)标签,significantly better、better、slightly better、negligibly better、unsure,这里和instruct-GPT不一样的是,对于每个prompt 只生成了两个结果(为了保证多样性,使用 2 个 model 生成 response,并使用不同的 temperature),而不是像instruct-GPT 原理图上画的生成A、B、C、D 四个结果,进行排序。

LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO - 天天要闻

损失函数

具体在RLHF过程中,对两个奖励函数的使用如下:

PPO 的求解目标找到期望奖励最大时候的策略函数,也即LLMs

LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO - 天天要闻

ppo 目标函数

LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO - 天天要闻

p 表示prompt ,g 表示生成结果,pi 的结果是一个概率

LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO - 天天要闻

评价模型综

这里LOGIT 是sigmoid 函数的反向操作,但是WHITEN 是个什么操作,这里论文并没有给出计算方式,相关代码中也没有给出解释,欢迎大家在评论区给出探讨!

  1. Reject Sample + PPO 算法交替进行

原文中讲述了这两种算法的不同:

LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO - 天天要闻

显著区别具体来讲Reject Sample 偏重于广度,PPO 算法偏重于深度

广度——在拒绝采样中,模型对给定的提示探索 K 个样本,进行finetune,而 PPO 只进行一次生成。

深度——在 PPO 中,在训练的第 t 步,样本是更新后的模型策略的函数,该策略来自前一步的梯度更新后的 t-1。在拒绝采样微调中,在应用类似于SFT的微调之前,根据模型的初始策略采样所有输出以收集新数据集。然而,由于我们应用了迭代模型更新,所以两种 RL 算法之间的基本差异不太明显。

从前面给出的图中,Llama2 对prompt 进行抽样,对每个样本生成多个输出,然后对一个prompt,多个生成gi 对,进行Reject Sample 微调,然后对每个Prompt 中的某一个生成g,进行PPO微调。

其实整个Llama2 算法在Reward 模型上做了较大的改进,整个过程的核心还是PPO 算法,而PPO 算法核心是Critic 网络和action(policy 策略网络的参数更新),在LLM 上额外多了Reward 和 SFT 两个原始训练好的网络

LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO - 天天要闻

PPO 算法

科技分类资讯推荐

美国即将开征半导体关税:税率最高或达100%? - 天天要闻

美国即将开征半导体关税:税率最高或达100%?

5月5日消息,美国特朗普政府可能最快于本周公布针对半导体加征关税的细节,市场预估税率可能高达25%~100%,并且新规则不排除以晶圆制造地作为源产地来加征关税,这也将对台积电、三星等产能集中在亚洲地区的晶圆制造大厂,以及英伟达、苹果、高通、
手机电池突破8000mAh?厂商不敢说的真相:一年后续航崩塌 - 天天要闻

手机电池突破8000mAh?厂商不敢说的真相:一年后续航崩塌

如果你近期有关注手机市场,一定不难发现最近发布的这些新机都有一个共同点:电池容量一个比一个高,6000mAh已经完全不够看,7000mAh级别的手机一台接着一台,甚者已经做到了8000mAh,人均行走的「移动电源」。电池容量的增加对用户来说确实是好事,续航时间的增加意味着用户不用再随身携带一个移动电源。(图片来源:荣耀...
阿维塔全球研发中心启用,与华为联合共创进入新阶段 - 天天要闻

阿维塔全球研发中心启用,与华为联合共创进入新阶段

近日,阿维塔全球研发中心正式启用,可容纳超过1000人。接近阿维塔的知情人士透露,该办公大楼于2024年12月启动装修,其核心功能是承载阿维塔与华为联合共创团队的协同工作。此次全球研发中心的落成启用,预示着阿维塔与华为的联合共创将进入更大规
销量承压、动销欠佳,高玉玲如何让海信经销商“脱困”? - 天天要闻

销量承压、动销欠佳,高玉玲如何让海信经销商“脱困”?

文/曹双涛编辑/杨博丞2025年按照既定目标,海信集团整体营收需达到3000亿元。但2024年除高玉玲接棒代慧忠成为海信家电董事长,网传海信裁员3万人、裁员比例高达20%~30%外。公开数据显示,2024年海信集团营收2143亿元。另据海信家电发布的2024年年报显示,当年海信家电营收和归母净利润分别同比增长8.35%和17.99%,分别至9...
1699元能买到!荣耀Power有这些优缺点,选它续航焦虑真没了! - 天天要闻

1699元能买到!荣耀Power有这些优缺点,选它续航焦虑真没了!

有一天,一款主流手机的电池容量来到了8000mAh,且最关键的是,这样的产品并没有过多的牺牲手感,甚至可以说手感比主流旗舰机还好,这样的一款手机也许会在其他方面稍微有所妥协,但不得不说,它确实从根源上杜绝了我们的续航焦虑问题。没错了!今天咱们来聊聊荣耀POWER,一款定价在千元左右产品,按照笔者的理解,荣耀是将...
倒计时3天!第二届“兴智杯”全国人工智能创新应用大赛即将启动,线上直播预约开启 - 天天要闻

倒计时3天!第二届“兴智杯”全国人工智能创新应用大赛即将启动,线上直播预约开启

前期,工业和信息化部、科学技术部、深圳市人民政府共同主办了首届“兴智杯”全国人工智能创新应用大赛(以下简称“大赛”),以需求为牵引,推动了一批关键技术加快突破,加快人工智能与重点行业融合赋能,成为了目前国内规模最大、参赛主体最丰富的人工智能专业赛事。为进一步发挥“以赛促研、以赛促用、以赛育人”的作用...
国产芯片杀疯了!利润暴涨26倍,这些小芯片藏着大突破 - 天天要闻

国产芯片杀疯了!利润暴涨26倍,这些小芯片藏着大突破

最近翻看国产芯片企业的成绩单,可把我这个外行人看乐了——利润动辄涨个两三倍都是常规操作,最夸张的翻了26倍!您别误会,这可不是在炒股,而是实打实的造芯片挣来的真金白银。要说这波国产替代的浪潮,还真让咱们在芯片领域啃下了几块硬骨头。先说个身边
iStorage 推出 26TB 容量 diskAshur 加密硬盘,1541 美元起 - 天天要闻

iStorage 推出 26TB 容量 diskAshur 加密硬盘,1541 美元起

IT之家 5 月 5 日消息,硬盘制造商 iStorage 宣布推出 26TB 版本 diskAshur DT2/3 系列加密硬盘,相应硬盘主打“提供物理密码按键”,其中 diskAshur DT2 26TB 版本售价为 1541 美元(IT之家注:现汇率约合 11147 元人民币),diskAshur DT3 26TB 版本定价为 1814 美元(现汇率约