NeurIPS 2023 Spotlight: 面向不平衡学习的细粒度泛化分析

2023年12月29日13:55:20 科技 1065

讲者简介

王子泰

个人简介:

中国科学院信息工程研究所19级直博生,导师为黄庆明教授,研究方向为数据挖掘与机器学习,尤其关注复杂场景下模型评价与优化。在 IEEE TPAMI、NeurIPS、AAAI、ACMMM 等国际期刊/会议上发表 CCF-A 类论文 8 篇,其中第一作者 6 篇,Oral/Spotlight论文 4 篇。


Title


面向不平衡学习的细粒度泛化分析

A Unified Generalization Analysis of Re-Weighting and Logit-Adjustment for Imbalanced Learning


Content

内容简介


针对不平衡学习,一类简单且有效的方法是修正原始损失函数,使学习过程更多关注少数类。当前损失修正方法,包括重加权与得分调整两类,虽已取得显著性能提升,但其理论分析仍然粗糙,无法解释部分实验结果。针对该问题,首先将局部化技术引入不平衡学习泛化分析,提出局部利普西茨性质及其压缩引理,构造得到依赖损失函数局部性质的细粒度泛化误差上界。其次,将上述泛化误差上界应用于已有不平衡学习损失函数,不仅揭示了重加权、得分调整、延迟加权等机制与泛化性能的联系,还为已有损失函数提供了理论依据。进一步,根据理论分析结果,改进了已有不平衡学习方法,提出了对齐重加权机制与截断得分调整机制,尽可能压缩模型泛化误差上界。在多个基准数据集上结果表明所提学习方法显著改善了已有不平衡学习方法的性能。


论文链接:

https://arxiv.org/abs/2310.04752

代码链接:

https://github.com/wang22ti/DDC

谷歌学术主页:

https://scholar.google.com/citations?user=45qZ_LcAAAAJ&hl=zh-CN



1.研究背景


传统机器学习方法通常假设样本数量在类别间分布均衡,然而真实数据集分布往往呈现显著不平衡态势。在此场景下,经验风险最小化框架(ERM)将偏向学习多数类,使得模型在少数类上泛化变得更为困难。鉴于此,一类简单且有效的不平衡学习方法是修正原始损失函数,促使学习过程更加关注少数类。当前损失修正方法,可分为重加权与得分调整两类,其中前者提高少数类样本损失权重以鼓励平衡学习,后者通过类别相关的得分调整项以改善每个类别间隔。常见的损失修正方法可形式化为如下形式,又名VS损失[1]:



NeurIPS 2023 Spotlight: 面向不平衡学习的细粒度泛化分析 - 天天要闻


同时,为准确评估模型性能,通常使用平衡准确率作为模型性能评价指标,即分别计算各类准确率,并以各类准确率均值作为性能评估指标。那么,现有损失修正方法是否能够保证模型在平衡准确率上的泛化性能?针对该问题,现有理论分析仍然粗糙,无法解释部分实验结果。具体而言,已有工作[5, 6]将各类别泛化误差上界的均值直接作为整体泛化界,如下图所示:



NeurIPS 2023 Spotlight: 面向不平衡学习的细粒度泛化分析 - 天天要闻


虽然简单易懂,该泛化界存在两方面问题:
理论层面,该泛化界粒度较粗且不够紧致。具体而言,不同损失函数间差异在于选择不同的类别相关项,但证明唯一涉及的损失函数性质,即利普西茨连续性,是全局的,无法衡量这一差异。同时,由于求和项的上界小于各项上界的求和,若能够直接约束整体泛化误差,可获得更为紧致的泛化界:


NeurIPS 2023 Spotlight: 面向不平衡学习的细粒度泛化分析 - 天天要闻



经验层面,虽然该泛化界诱导的LDAM损失优于CE损失,但效果并不显著。而结合[5]中提出的延迟重加权机制(DRW),性能提升则更为显著。然而,上述泛化误差上界误差解释该经验结果。


2. 理论分析


针对上述问题,首先提出直接约束整体泛化性能的引理,其中等式右侧分母包含了最小类在训练集占比,直接揭示了不平衡学习泛化性能与数据不平衡程度的关联:


NeurIPS 2023 Spotlight: 面向不平衡学习的细粒度泛化分析 - 天天要闻


进一步,为约束复合函数簇G,建模损失中类别相关项对泛化界的影响,提出局部利普西茨连续性及其诱导的压缩引理:


NeurIPS 2023 Spotlight: 面向不平衡学习的细粒度泛化分析 - 天天要闻


综合上述引理,并将之应用至VS损失,有如下定理:


NeurIPS 2023 Spotlight: 面向不平衡学习的细粒度泛化分析 - 天天要闻


其中,B_y(f)是各类样本最小得分,与各类的最小间隔紧密相关。基于该泛化误差,进一步有如下理论结果,详见论文:(1)重加权与得分调整均可通过消除该泛化界中不平衡项改善模型泛化性能;(2)延迟重加权是必要的;(3)已有重加权项与得分调整项[2,3,4]均可改善模型泛化性能;(4)乘法调整可能与重加权存在不兼容问题,而加法调整项不存在该问题。


3. 所提方法


基于上述理论结果,本文改进了已有学习方法:(1)需综合使用重加权、乘法得分调整、加法得分调整;(2)将重加权项直接与泛化界中不平衡项对齐,即Aligned DRW(ADRW);(3)在使用重加权时取消使用乘法得分调整,即Truncated LA(TLA)。整体算法如下图所示:


NeurIPS 2023 Spotlight: 面向不平衡学习的细粒度泛化分析 - 天天要闻



4. 实验结果


首先通过一系列实验验证理论分析结果,其中下左图验证了DRW机制的必要性,下有图验证了乘法调整与重加权存在不兼容问题。


NeurIPS 2023 Spotlight: 面向不平衡学习的细粒度泛化分析 - 天天要闻


进一步,在CIFAR10 LT、CIFAR-100 LT、ImageNet-LT、iNaturalist等多个基准数据集验证了所提方法的有效性:


NeurIPS 2023 Spotlight: 面向不平衡学习的细粒度泛化分析 - 天天要闻


若加入更多增强技术,如延长训练轮数至400、精调weight decay、使用randaug技术,可取得更优性能,如在CIFAR-100数据集上结果如下,更多结果详见代码链接。


NeurIPS 2023 Spotlight: 面向不平衡学习的细粒度泛化分析 - 天天要闻


参考文献


[1] Label-imbalanced and group-sensitive classification under overparameterization, NeurIPS 2021.
[2] Class-balanced loss based on effective number of samples, CVPR, 2019.
[3] Long-tail learning via logit adjustment, ICLR, 2021
[4] Identifying and compensating for feature deviation in imbalanced deep learning, Arxiv, 2020.
[5] Learning imbalanced datasets with label-distribution-aware margin loss, NeurIPS 2019.
[6] Balanced meta-softmax for long-tailed visual recognition, NeurIPS 2020.

科技分类资讯推荐

亚马逊近千项产品均涨价三成 外国人凌晨排队抢购中国品牌 - 天天要闻

亚马逊近千项产品均涨价三成 外国人凌晨排队抢购中国品牌

英国泡泡玛特的排队人数有几百人。 图源:小红书网友 “本来购物车的东西加起来有300美元,现在变成400多美元了。”“Shein平台上,女同事一直在看的一款外套,原价23美元,现在涨价到了53美元”。近日,Temu、Shein均发布公告称,由于“近期全球贸易规则及关税变动”导致运营成本上升,从4月25日开始实施价格调整。但另一...
全力服务科技创新,上海各家金融机构表态了 - 天天要闻

全力服务科技创新,上海各家金融机构表态了

4月29日,习近平总书记在上海考察时强调,上海承担着建设国际科技创新中心的历史使命,要抢抓机遇,以服务国家战略为牵引,不断增强科技创新策源功能和高端产业引领功能,加快建成具有全球影响力的科技创新高地。习近平总书记重要讲话精神在上海金融界引发强烈反响,令正在奋力做好科技金融大文章的上海金融人倍感振奋、深...
突发,华为nova14这次要降维打击! - 天天要闻

突发,华为nova14这次要降维打击!

时间已经来到5月份了,距离上一代华为nova13系列的发布,已经过去7个月了。按照目前华为新机的发布排期,也轮到华为nova新机的发布了。而且,这次华为nova14系列的硬件配置很高,据称将要降维打击。根据渠道消息显示,华为已经正在准备这个
年薪3.63亿元!黄仁勋,基本工资10年来首涨 - 天天要闻

年薪3.63亿元!黄仁勋,基本工资10年来首涨

据新浪财经报道,根据英伟达于当地时间5月1日递交给美国证交所(SEC)的一份新文件显示,黄仁勋2025财年的基本年薪涨至150万美元,较2024财年增长了49%。他的可变现金也比2024财年增加了100万美元,增幅为50%。
哪吒汽车App被曝断网!官网已无法访问 - 天天要闻

哪吒汽车App被曝断网!官网已无法访问

5月4日,哪吒汽车再次被曝出App断网的问题,相关话题也迅速登上抖音、微博等平台热搜。据多位哪吒车主在社交平台发布的消息,从5月2日开始,不少车主都遇到了哪吒汽车App断网、App控车无法使用等问题。
360云盘使用教程:存储与同步文件更便捷 - 天天要闻

360云盘使用教程:存储与同步文件更便捷

初次使用360云盘的用户可能会感到困惑,不清楚如何操作。下面我来介绍其使用方法。360云盘有多个版本,今天主要讲解客户端的使用,其他版本与此类似。掌握客户端的用法后,其余版本也就容易理解了。1、 首先,打开浏览器,在地址栏输入360云盘客户端,然后进行搜索。2、 第二步,选择下载PC版,以好搜为例,其他软件操作类...
Win7文件夹加密软件:保护您的隐私和重要文件 - 天天要闻

Win7文件夹加密软件:保护您的隐私和重要文件

我的电脑长期使用Win7系统,我对其情有独钟。有次朋友问起,是否知道Win7文件夹加密软件?这类软件确实存在,今天就来为大家详细介绍这款实用工具的功能与特点。1、 下载安装win7文件夹加密软件十分简便,只需轻点一下即可开始安装。2、 接着,我打开了软件中的加密文件。3、 选中我们的win7文件夹即可。4、 护密软件会弹出...
保障隐私:免费文件夹加密软件推荐 - 天天要闻

保障隐私:免费文件夹加密软件推荐

网上有许多免费的文件夹加密软件,但并非都好用。这里介绍一款实用的免费工具,值得一试。1、 让我们下载免费的文件夹加密软件来保护隐私。2、 安装完成后,运行软件并点击加密文件夹。3、 选择一个需要加密的文件夹,例如名为工作重要内容的文件夹。4、 为文件夹设置密码后,采用闪电加密方式保护。5、 软件开始快速加密,...