LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO

2023年10月08日07:35:01 科技 1983

LLMs Finetune系列(五) 讲解了 RAFT 全量参数对齐微调算法,RAFT 算法思路和Reject Sample 思路其实大差不差,基本可以认为只是换了一个叫法,本文讲解Llama2模型中全量参数对齐微调算法Reject Sample + ppo(原版论文中V5 实验效果最好,采用的方案),具体和前面讲解的RLHF 算法的区别如何,这里先上图:

LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO - 天天要闻

图片来源:AI研究大牛Sebastian Raschka 博客

上图微调算法和RLHF 中不一致的部分做了明显的标识,具体体现在两个方面:

1.奖励 Reward 函数设置

2.Finetune 过程中添加Reject Sample 算法,也即RAFT 算法。

  1. 奖励函数

LLMs 对齐过程中,让大语言模型的无害性,有帮助性;针对这个问题,Llama2 训练了分别训练了两个奖励模型模型,一个是对无害性的奖励,一个是对帮助性奖励;在误差函数中添加新增了一个边际(margin)标签,significantly better、better、slightly better、negligibly better、unsure,这里和instruct-GPT不一样的是,对于每个prompt 只生成了两个结果(为了保证多样性,使用 2 个 model 生成 response,并使用不同的 temperature),而不是像instruct-GPT 原理图上画的生成A、B、C、D 四个结果,进行排序。

LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO - 天天要闻

损失函数

具体在RLHF过程中,对两个奖励函数的使用如下:

PPO 的求解目标找到期望奖励最大时候的策略函数,也即LLMs

LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO - 天天要闻

ppo 目标函数

LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO - 天天要闻

p 表示prompt ,g 表示生成结果,pi 的结果是一个概率

LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO - 天天要闻

评价模型综

这里LOGIT 是sigmoid 函数的反向操作,但是WHITEN 是个什么操作,这里论文并没有给出计算方式,相关代码中也没有给出解释,欢迎大家在评论区给出探讨!

  1. Reject Sample + PPO 算法交替进行

原文中讲述了这两种算法的不同:

LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO - 天天要闻

显著区别具体来讲Reject Sample 偏重于广度,PPO 算法偏重于深度

广度——在拒绝采样中,模型对给定的提示探索 K 个样本,进行finetune,而 PPO 只进行一次生成。

深度——在 PPO 中,在训练的第 t 步,样本是更新后的模型策略的函数,该策略来自前一步的梯度更新后的 t-1。在拒绝采样微调中,在应用类似于SFT的微调之前,根据模型的初始策略采样所有输出以收集新数据集。然而,由于我们应用了迭代模型更新,所以两种 RL 算法之间的基本差异不太明显。

从前面给出的图中,Llama2 对prompt 进行抽样,对每个样本生成多个输出,然后对一个prompt,多个生成gi 对,进行Reject Sample 微调,然后对每个Prompt 中的某一个生成g,进行PPO微调。

其实整个Llama2 算法在Reward 模型上做了较大的改进,整个过程的核心还是PPO 算法,而PPO 算法核心是Critic 网络和action(policy 策略网络的参数更新),在LLM 上额外多了Reward 和 SFT 两个原始训练好的网络

LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO - 天天要闻

PPO 算法

科技分类资讯推荐

1699元能买到!荣耀Power有这些优缺点,选它续航焦虑真没了! - 天天要闻

1699元能买到!荣耀Power有这些优缺点,选它续航焦虑真没了!

有一天,一款主流手机的电池容量来到了8000mAh,且最关键的是,这样的产品并没有过多的牺牲手感,甚至可以说手感比主流旗舰机还好,这样的一款手机也许会在其他方面稍微有所妥协,但不得不说,它确实从根源上杜绝了我们的续航焦虑问题。没错了!今天咱们来聊聊荣耀POWER,一款定价在千元左右产品,按照笔者的理解,荣耀是将...
倒计时3天!第二届“兴智杯”全国人工智能创新应用大赛即将启动,线上直播预约开启 - 天天要闻

倒计时3天!第二届“兴智杯”全国人工智能创新应用大赛即将启动,线上直播预约开启

前期,工业和信息化部、科学技术部、深圳市人民政府共同主办了首届“兴智杯”全国人工智能创新应用大赛(以下简称“大赛”),以需求为牵引,推动了一批关键技术加快突破,加快人工智能与重点行业融合赋能,成为了目前国内规模最大、参赛主体最丰富的人工智能专业赛事。为进一步发挥“以赛促研、以赛促用、以赛育人”的作用...
国产芯片杀疯了!利润暴涨26倍,这些小芯片藏着大突破 - 天天要闻

国产芯片杀疯了!利润暴涨26倍,这些小芯片藏着大突破

最近翻看国产芯片企业的成绩单,可把我这个外行人看乐了——利润动辄涨个两三倍都是常规操作,最夸张的翻了26倍!您别误会,这可不是在炒股,而是实打实的造芯片挣来的真金白银。要说这波国产替代的浪潮,还真让咱们在芯片领域啃下了几块硬骨头。先说个身边
iStorage 推出 26TB 容量 diskAshur 加密硬盘,1541 美元起 - 天天要闻

iStorage 推出 26TB 容量 diskAshur 加密硬盘,1541 美元起

IT之家 5 月 5 日消息,硬盘制造商 iStorage 宣布推出 26TB 版本 diskAshur DT2/3 系列加密硬盘,相应硬盘主打“提供物理密码按键”,其中 diskAshur DT2 26TB 版本售价为 1541 美元(IT之家注:现汇率约合 11147 元人民币),diskAshur DT3 26TB 版本定价为 1814 美元(现汇率约
无线信号增强秘籍,桥接和中继模式哪个更强? - 天天要闻

无线信号增强秘籍,桥接和中继模式哪个更强?

【ZOL中关村在线原创技术解析】随着无线通信与计算机技术飞速发展,人们愈发渴望随时随地享受稳定的数据通信服务。无线路由器作为无线网络核心设备,作用关键。但当其信号覆盖不足,如穿过两堵墙后信号微弱时,可通过无线桥接或中继模式连接两个无线路由器,扩展网络、增强信号。中继模式和桥接模式虽都能扩展网络覆盖,但...
流畅更耐用 魅族Note 16将预装Flyme 12 - 天天要闻

流畅更耐用 魅族Note 16将预装Flyme 12

魅族官方透露,将于5月发布的魅族Note 16系列将出厂预装Flyme 12新系统,这也是Flyme系统大版本首次在非旗舰机型上首发。魅族Note 16搭载紫光展锐T765处理器,配备6.78英寸LCD屏,分辨率达2460*1080。后置采用八边形相机模组,由5000万像素主摄和200万像素镜头组成。续航方面,内置6600mAh大容量电池,支持40W有线充电
跨境电商迎“成本地震”,行业洗牌加速 - 天天要闻

跨境电商迎“成本地震”,行业洗牌加速

【环球网财经综合报道】近日,美国正式终止了对中国价值不超过800美元的小额包裹免征关税的政策,这一变化引发了中国跨境电商行业的连锁反应。多家物流公司随即调整策略,物流费用普遍上涨,并增加了高额预收税金。(图片来源:东方IC)美国的800美元小额免税政策(De Minimis)自2016年实施以来,极大地推动了全球跨境电商...