LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO

2023年10月08日07:35:01 科技 1983

LLMs Finetune系列(五) 讲解了 RAFT 全量参数对齐微调算法,RAFT 算法思路和Reject Sample 思路其实大差不差,基本可以认为只是换了一个叫法,本文讲解Llama2模型中全量参数对齐微调算法Reject Sample + ppo(原版论文中V5 实验效果最好,采用的方案),具体和前面讲解的RLHF 算法的区别如何,这里先上图:

LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO - 天天要闻

图片来源:AI研究大牛Sebastian Raschka 博客

上图微调算法和RLHF 中不一致的部分做了明显的标识,具体体现在两个方面:

1.奖励 Reward 函数设置

2.Finetune 过程中添加Reject Sample 算法,也即RAFT 算法。

  1. 奖励函数

LLMs 对齐过程中,让大语言模型的无害性,有帮助性;针对这个问题,Llama2 训练了分别训练了两个奖励模型模型,一个是对无害性的奖励,一个是对帮助性奖励;在误差函数中添加新增了一个边际(margin)标签,significantly better、better、slightly better、negligibly better、unsure,这里和instruct-GPT不一样的是,对于每个prompt 只生成了两个结果(为了保证多样性,使用 2 个 model 生成 response,并使用不同的 temperature),而不是像instruct-GPT 原理图上画的生成A、B、C、D 四个结果,进行排序。

LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO - 天天要闻

损失函数

具体在RLHF过程中,对两个奖励函数的使用如下:

PPO 的求解目标找到期望奖励最大时候的策略函数,也即LLMs

LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO - 天天要闻

ppo 目标函数

LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO - 天天要闻

p 表示prompt ,g 表示生成结果,pi 的结果是一个概率

LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO - 天天要闻

评价模型综

这里LOGIT 是sigmoid 函数的反向操作,但是WHITEN 是个什么操作,这里论文并没有给出计算方式,相关代码中也没有给出解释,欢迎大家在评论区给出探讨!

  1. Reject Sample + PPO 算法交替进行

原文中讲述了这两种算法的不同:

LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO - 天天要闻

显著区别具体来讲Reject Sample 偏重于广度,PPO 算法偏重于深度

广度——在拒绝采样中,模型对给定的提示探索 K 个样本,进行finetune,而 PPO 只进行一次生成。

深度——在 PPO 中,在训练的第 t 步,样本是更新后的模型策略的函数,该策略来自前一步的梯度更新后的 t-1。在拒绝采样微调中,在应用类似于SFT的微调之前,根据模型的初始策略采样所有输出以收集新数据集。然而,由于我们应用了迭代模型更新,所以两种 RL 算法之间的基本差异不太明显。

从前面给出的图中,Llama2 对prompt 进行抽样,对每个样本生成多个输出,然后对一个prompt,多个生成gi 对,进行Reject Sample 微调,然后对每个Prompt 中的某一个生成g,进行PPO微调。

其实整个Llama2 算法在Reward 模型上做了较大的改进,整个过程的核心还是PPO 算法,而PPO 算法核心是Critic 网络和action(policy 策略网络的参数更新),在LLM 上额外多了Reward 和 SFT 两个原始训练好的网络

LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO - 天天要闻

PPO 算法

科技分类资讯推荐

台州学院“智方同源”团队:以数智科技赋能传统药食同源 - 天天要闻

台州学院“智方同源”团队:以数智科技赋能传统药食同源

在台州学院创业学院的鼎力支持与浙江省生态学保护重点实验室的科研支撑下,台州学院“智方同源”学生团队应运而生。该团队聚焦于药食同源领域,创新性地将大数据分析与人工智能技术深度融入功能食品配方设计,首创传统食疗配方图神经分析技术、食品配方成分-功效网络模块互作评价方法和口感预测卷积神经网络分析技术,致力...
S11芯片+5G加持!Apple Watch Ultra 3今年登场? - 天天要闻

S11芯片+5G加持!Apple Watch Ultra 3今年登场?

日前,分析师 Jeff Pu在一份关于苹果2025年的产品规划路线图里提到,除了新款 Apple Watch Series 11,今年苹果也将推出大家都十分关注的新款智能手表 Apple Watch Ultra 3。届时 Apple Watch Series 11以及 Apple Watch Ultra 3这两款新手将会和期待已久的 iPhone 17 系列
以伊冲突还在打,市场却已经翻篇了! - 天天要闻

以伊冲突还在打,市场却已经翻篇了!

本周一的交易数据讲述了一个令人震惊的故事。就在以色列和伊朗两国持续相互攻击之际,黄金价格下跌,美债收益率上升,股市波动率暴跌。股票相对于长期债券的表现达到了特朗普就职日以来的最强水平。这些都是典型的"风险开启"环境信号。以色列攻击伊朗核设施长期以来被视为可能严重恶化全球风险环境的"终极事件",然而,油价...
人民日报盛赞华为、C919以及DeepSeek - 天天要闻

人民日报盛赞华为、C919以及DeepSeek

【TechWeb】据今日《人民日报》报道,无论是中小型企业还是科技行业的领军巨头,都在不断的实践与探索中凝练出了一条共通的发展真理:持之以恒,沉得住气。面对外界的封锁与压力,华为公司逆境而上,推出了具有突破性的麒麟系列芯片,并自主研发了鸿蒙操作系统,这些新产品在全球市场上实现了重要突破。华为创始人任正非表...
Polyphony Digital于6月7日发布小米和Gran Turismo的合作 - 天天要闻

Polyphony Digital于6月7日发布小米和Gran Turismo的合作

总部在中国北京的小米,2021年宣布加入智能电动汽车行业,2024年发售自己的第一个量产电车SU7。旗舰车型SU7 Ultra,拥有1548匹马力惊人的性能。并且以挑战纽北北圈记录为目标开发的SU7 Ultra原型车,以6分46秒874打破了4门车在纽北的圈速记录,在世界上受到车迷的广泛关注。小米在接下来,将会与Gran Turismo 一起制作Visi..
网易云VIP突然宣布免费,还不领就来不及了 - 天天要闻

网易云VIP突然宣布免费,还不领就来不及了

听劝的风,再次吹到了网易云音乐身上。一直以来,网易云和QQ音乐上的平板端适配,都是平板用户们重点关注的话题。此前网易云在安卓平板上,已经完成了比较成熟的大屏适配。可在iPad端上,机哥从2024年等到今年年中,还是等不到它的出现。直到这两天
数据中心告别“烫手芯片” 曙光数创推出全生命周期液冷解决方案 - 天天要闻

数据中心告别“烫手芯片” 曙光数创推出全生命周期液冷解决方案

IT时报记者 郝俊慧面对越来越“热”的算力芯片,曙光数创正想让它快点“冷”下来。在刚刚结束的2025中国智算中心全栈技术大会上,曙光数创发布“新服务、新技术、新架构”三大新品,旨在通过一体化、全生命周期的服务新范式,解决当前液冷行业面临的诸多痛点。“液冷即服务,这个概念在行业里早就有需求了。”曙光数创副总...