NeurIPS 2023 Spotlight: 面向不平衡学习的细粒度泛化分析

2023年12月29日13:55:20 科技 1065

讲者简介

王子泰

个人简介:

中国科学院信息工程研究所19级直博生,导师为黄庆明教授,研究方向为数据挖掘与机器学习,尤其关注复杂场景下模型评价与优化。在 IEEE TPAMI、NeurIPS、AAAI、ACMMM 等国际期刊/会议上发表 CCF-A 类论文 8 篇,其中第一作者 6 篇,Oral/Spotlight论文 4 篇。


Title


面向不平衡学习的细粒度泛化分析

A Unified Generalization Analysis of Re-Weighting and Logit-Adjustment for Imbalanced Learning


Content

内容简介


针对不平衡学习,一类简单且有效的方法是修正原始损失函数,使学习过程更多关注少数类。当前损失修正方法,包括重加权与得分调整两类,虽已取得显著性能提升,但其理论分析仍然粗糙,无法解释部分实验结果。针对该问题,首先将局部化技术引入不平衡学习泛化分析,提出局部利普西茨性质及其压缩引理,构造得到依赖损失函数局部性质的细粒度泛化误差上界。其次,将上述泛化误差上界应用于已有不平衡学习损失函数,不仅揭示了重加权、得分调整、延迟加权等机制与泛化性能的联系,还为已有损失函数提供了理论依据。进一步,根据理论分析结果,改进了已有不平衡学习方法,提出了对齐重加权机制与截断得分调整机制,尽可能压缩模型泛化误差上界。在多个基准数据集上结果表明所提学习方法显著改善了已有不平衡学习方法的性能。


论文链接:

https://arxiv.org/abs/2310.04752

代码链接:

https://github.com/wang22ti/DDC

谷歌学术主页:

https://scholar.google.com/citations?user=45qZ_LcAAAAJ&hl=zh-CN



1.研究背景


传统机器学习方法通常假设样本数量在类别间分布均衡,然而真实数据集分布往往呈现显著不平衡态势。在此场景下,经验风险最小化框架(ERM)将偏向学习多数类,使得模型在少数类上泛化变得更为困难。鉴于此,一类简单且有效的不平衡学习方法是修正原始损失函数,促使学习过程更加关注少数类。当前损失修正方法,可分为重加权与得分调整两类,其中前者提高少数类样本损失权重以鼓励平衡学习,后者通过类别相关的得分调整项以改善每个类别间隔。常见的损失修正方法可形式化为如下形式,又名VS损失[1]:



NeurIPS 2023 Spotlight: 面向不平衡学习的细粒度泛化分析 - 天天要闻


同时,为准确评估模型性能,通常使用平衡准确率作为模型性能评价指标,即分别计算各类准确率,并以各类准确率均值作为性能评估指标。那么,现有损失修正方法是否能够保证模型在平衡准确率上的泛化性能?针对该问题,现有理论分析仍然粗糙,无法解释部分实验结果。具体而言,已有工作[5, 6]将各类别泛化误差上界的均值直接作为整体泛化界,如下图所示:



NeurIPS 2023 Spotlight: 面向不平衡学习的细粒度泛化分析 - 天天要闻


虽然简单易懂,该泛化界存在两方面问题:
理论层面,该泛化界粒度较粗且不够紧致。具体而言,不同损失函数间差异在于选择不同的类别相关项,但证明唯一涉及的损失函数性质,即利普西茨连续性,是全局的,无法衡量这一差异。同时,由于求和项的上界小于各项上界的求和,若能够直接约束整体泛化误差,可获得更为紧致的泛化界:


NeurIPS 2023 Spotlight: 面向不平衡学习的细粒度泛化分析 - 天天要闻



经验层面,虽然该泛化界诱导的LDAM损失优于CE损失,但效果并不显著。而结合[5]中提出的延迟重加权机制(DRW),性能提升则更为显著。然而,上述泛化误差上界误差解释该经验结果。


2. 理论分析


针对上述问题,首先提出直接约束整体泛化性能的引理,其中等式右侧分母包含了最小类在训练集占比,直接揭示了不平衡学习泛化性能与数据不平衡程度的关联:


NeurIPS 2023 Spotlight: 面向不平衡学习的细粒度泛化分析 - 天天要闻


进一步,为约束复合函数簇G,建模损失中类别相关项对泛化界的影响,提出局部利普西茨连续性及其诱导的压缩引理:


NeurIPS 2023 Spotlight: 面向不平衡学习的细粒度泛化分析 - 天天要闻


综合上述引理,并将之应用至VS损失,有如下定理:


NeurIPS 2023 Spotlight: 面向不平衡学习的细粒度泛化分析 - 天天要闻


其中,B_y(f)是各类样本最小得分,与各类的最小间隔紧密相关。基于该泛化误差,进一步有如下理论结果,详见论文:(1)重加权与得分调整均可通过消除该泛化界中不平衡项改善模型泛化性能;(2)延迟重加权是必要的;(3)已有重加权项与得分调整项[2,3,4]均可改善模型泛化性能;(4)乘法调整可能与重加权存在不兼容问题,而加法调整项不存在该问题。


3. 所提方法


基于上述理论结果,本文改进了已有学习方法:(1)需综合使用重加权、乘法得分调整、加法得分调整;(2)将重加权项直接与泛化界中不平衡项对齐,即Aligned DRW(ADRW);(3)在使用重加权时取消使用乘法得分调整,即Truncated LA(TLA)。整体算法如下图所示:


NeurIPS 2023 Spotlight: 面向不平衡学习的细粒度泛化分析 - 天天要闻



4. 实验结果


首先通过一系列实验验证理论分析结果,其中下左图验证了DRW机制的必要性,下有图验证了乘法调整与重加权存在不兼容问题。


NeurIPS 2023 Spotlight: 面向不平衡学习的细粒度泛化分析 - 天天要闻


进一步,在CIFAR10 LT、CIFAR-100 LT、ImageNet-LT、iNaturalist等多个基准数据集验证了所提方法的有效性:


NeurIPS 2023 Spotlight: 面向不平衡学习的细粒度泛化分析 - 天天要闻


若加入更多增强技术,如延长训练轮数至400、精调weight decay、使用randaug技术,可取得更优性能,如在CIFAR-100数据集上结果如下,更多结果详见代码链接。


NeurIPS 2023 Spotlight: 面向不平衡学习的细粒度泛化分析 - 天天要闻


参考文献


[1] Label-imbalanced and group-sensitive classification under overparameterization, NeurIPS 2021.
[2] Class-balanced loss based on effective number of samples, CVPR, 2019.
[3] Long-tail learning via logit adjustment, ICLR, 2021
[4] Identifying and compensating for feature deviation in imbalanced deep learning, Arxiv, 2020.
[5] Learning imbalanced datasets with label-distribution-aware margin loss, NeurIPS 2019.
[6] Balanced meta-softmax for long-tailed visual recognition, NeurIPS 2020.

科技分类资讯推荐

充电易爆炸?多所高校禁用!罗马仕紧急声明 - 天天要闻

充电易爆炸?多所高校禁用!罗马仕紧急声明

近日,多位网友反映收到学校下发的排查通知,称“20000毫安的罗马仕牌充电器在充电时易发生爆炸”。6月14日早间,相关词条冲上热搜榜第一。6月14日下午,@ROMOSS罗马仕 发布公开声明:对于近期“北京多所高校禁用罗马仕充电宝”事件的讨论,我们就给师生及公众带来的困扰致以诚挚歉意,在此郑重承诺:任何经权威机构鉴定存...
20000毫安罗马仕充电宝易爆炸,被北京多所高校禁用?公司致歉:承诺经鉴定存缺陷的产品将担责 - 天天要闻

20000毫安罗马仕充电宝易爆炸,被北京多所高校禁用?公司致歉:承诺经鉴定存缺陷的产品将担责

近日,多位网友反映收到学校下发的排查通知,称“20000毫安的罗马仕牌充电器在充电时易发生爆炸”。 今早(6月14日),相关词条冲上热搜榜第一。 今天下午,涉事品牌方公开声明称,已第一时间展开核查,后续进展将会通过官方渠道通知。 事件相关截图。 6月14日下午,ROMOSS罗马仕在官方微博上发布公开声明称,对于近期“北...
终结西方超豪华品牌垄断,尊界S800重塑智能豪华新标准 - 天天要闻

终结西方超豪华品牌垄断,尊界S800重塑智能豪华新标准

何以为旗舰级轿车?在我的理解中,它应该是汽车科技创新的集大成者,是工业体系的技术结晶,是工业上的皇冠明珠。放在燃油车时代,聊到高端旗舰级轿车,多数人意识浮现的还是进口品牌,代表者如奔驰、宝马、奥迪,它们把机械玩出了艺术,打造出非常多豪华经典的车型,如今迈入了新
“充电宝易爆炸,多高校禁用”,冲上热搜第一!罗马仕发道歉声明 - 天天要闻

“充电宝易爆炸,多高校禁用”,冲上热搜第一!罗马仕发道歉声明

来源:@ROMOSS罗马仕、红星新闻、南方都市报版权归原作者所有,如有侵权请及时联系近日,多位网友反映收到学校下发的排查通知,称“20000毫安的罗马仕牌充电器在充电时易发生爆炸”。事件相关截图今天,相关词条冲上热搜榜第一。今天下午,@ROMOSS罗马仕 发布公开声明:对于近期“北京多所高校禁用罗马仕充电宝”事件的讨论...
2025莲花杯单一品牌赛开启 F1冠军级实力打造国家级赛车晋级平台 - 天天要闻

2025莲花杯单一品牌赛开启 F1冠军级实力打造国家级赛车晋级平台

5月30日,成都天府国际赛道——随着引擎轰鸣划破长空,2025莲花杯单一品牌赛揭幕战正式拉开帷幕。这场由中国汽车摩托车运动联合会认证、莲花品牌与铭泰集团联合打造的国家级 GT单一品牌赛,依托77年赛道基因沉淀与F1尖端技术传承,成为国内具备国际C级赛照升级资质
70.8万起售!尊界S800的“尊”在这些细节上 - 天天要闻

70.8万起售!尊界S800的“尊”在这些细节上

5月30日,尊界S800终于揭开了它最后一层“面纱”,新车共推出纯电、增程两个动力版本共4款配置,售价区间为70.8万-101.8万元。上市权益包括30000元的ADS智能辅助系统高阶包、30000元的选配金、4000元的智能辅助驾驶无忧服务权益和40000元
松下Panasonic sx电机抽搐不能加载的解决办法 - 天天要闻

松下Panasonic sx电机抽搐不能加载的解决办法

松下Panasonic sx系列有名的抖音王,打理起来极为简单,要么简单地换皮带完事,要么简单的丢掉了事。硬着头皮查电路,得不偿失,超薄时期的松下,在电路上极尽变态之能事,恨不得在针眼里做道场,像我这种显微镜加放大镜式的的眼睛,也不能凭肉眼