NeurIPS 2023 Spotlight: 面向不平衡學習的細粒度泛化分析

2023年12月29日13:55:20 科技 1065

講者簡介

王子泰

個人簡介：

中國科學院信息工程研究所19級直博生，導師為黃慶明教授，研究方向為數據挖掘與機器學習，尤其關注複雜場景下模型評價與優化。在 IEEE TPAMI、NeurIPS、AAAI、ACMMM 等國際期刊/會議上發表 CCF-A 類論文 8 篇，其中第一作者 6 篇，Oral/Spotlight論文 4 篇。

Title

面向不平衡學習的細粒度泛化分析

A Unified Generalization Analysis of Re-Weighting and Logit-Adjustment for Imbalanced Learning

Content

內容簡介

針對不平衡學習，一類簡單且有效的方法是修正原始損失函數，使學習過程更多關注少數類。當前損失修正方法，包括重加權與得分調整兩類，雖已取得顯著性能提升，但其理論分析仍然粗糙，無法解釋部分實驗結果。針對該問題，首先將局部化技術引入不平衡學習泛化分析，提出局部利普西茨性質及其壓縮引理，構造得到依賴損失函數局部性質的細粒度泛化誤差上界。其次，將上述泛化誤差上界應用於已有不平衡學習損失函數，不僅揭示了重加權、得分調整、延遲加權等機制與泛化性能的聯繫，還為已有損失函數提供了理論依據。進一步，根據理論分析結果，改進了已有不平衡學習方法，提出了對齊重加權機制與截斷得分調整機制，儘可能壓縮模型泛化誤差上界。在多個基準數據集上結果表明所提學習方法顯著改善了已有不平衡學習方法的性能。

論文鏈接：

https://arxiv.org/abs/2310.04752

代碼鏈接：

https://github.com/wang22ti/DDC

谷歌學術主頁：

https://scholar.google.com/citations?user=45qZ_LcAAAAJ&hl=zh-CN

1.研究背景

傳統機器學習方法通常假設樣本數量在類別間分布均衡，然而真實數據集分布往往呈現顯著不平衡態勢。在此場景下，經驗風險最小化框架（ERM）將偏向學習多數類，使得模型在少數類上泛化變得更為困難。鑒於此，一類簡單且有效的不平衡學習方法是修正原始損失函數，促使學習過程更加關注少數類。當前損失修正方法，可分為重加權與得分調整兩類，其中前者提高少數類樣本損失權重以鼓勵平衡學習，後者通過類別相關的得分調整項以改善每個類別間隔。常見的損失修正方法可形式化為如下形式，又名VS損失[1]：

同時，為準確評估模型性能，通常使用平衡準確率作為模型性能評價指標，即分別計算各類準確率，並以各類準確率均值作為性能評估指標。那麼，現有損失修正方法是否能夠保證模型在平衡準確率上的泛化性能？針對該問題，現有理論分析仍然粗糙，無法解釋部分實驗結果。具體而言，已有工作[5, 6]將各類別泛化誤差上界的均值直接作為整體泛化界，如下圖所示：

雖然簡單易懂，該泛化界存在兩方面問題：
理論層面，該泛化界粒度較粗且不夠緊緻。具體而言，不同損失函數間差異在於選擇不同的類別相關項，但證明唯一涉及的損失函數性質，即利普西茨連續性，是全局的，無法衡量這一差異。同時，由於求和項的上界小於各項上界的求和，若能夠直接約束整體泛化誤差，可獲得更為緊緻的泛化界：

經驗層面，雖然該泛化界誘導的LDAM損失優於CE損失，但效果並不顯著。而結合[5]中提出的延遲重加權機制（DRW），性能提升則更為顯著。然而，上述泛化誤差上界誤差解釋該經驗結果。

2. 理論分析

針對上述問題，首先提出直接約束整體泛化性能的引理，其中等式右側分母包含了最小類在訓練集佔比，直接揭示了不平衡學習泛化性能與數據不平衡程度的關聯：

進一步，為約束複合函數簇G，建模損失中類別相關項對泛化界的影響，提出局部利普西茨連續性及其誘導的壓縮引理：

綜合上述引理，並將之應用至VS損失，有如下定理：

其中，B_y(f)是各類樣本最小得分，與各類的最小間隔緊密相關。基於該泛化誤差，進一步有如下理論結果，詳見論文：（1）重加權與得分調整均可通過消除該泛化界中不平衡項改善模型泛化性能；（2）延遲重加權是必要的；（3）已有重加權項與得分調整項[2,3,4]均可改善模型泛化性能；（4）乘法調整可能與重加權存在不兼容問題，而加法調整項不存在該問題。

3. 所提方法

基於上述理論結果，本文改進了已有學習方法：（1）需綜合使用重加權、乘法得分調整、加法得分調整；（2）將重加權項直接與泛化界中不平衡項對齊，即Aligned DRW（ADRW）；（3）在使用重加權時取消使用乘法得分調整，即Truncated LA（TLA）。整體演算法如下圖所示：

4. 實驗結果

首先通過一系列實驗驗證理論分析結果，其中下左圖驗證了DRW機制的必要性，下有圖驗證了乘法調整與重加權存在不兼容問題。

進一步，在CIFAR10 LT、CIFAR-100 LT、ImageNet-LT、iNaturalist等多個基準數據集驗證了所提方法的有效性：

若加入更多增強技術，如延長訓練輪數至400、精調weight decay、使用randaug技術，可取得更優性能，如在CIFAR-100數據集上結果如下，更多結果詳見代碼鏈接。

參考文獻

[1] Label-imbalanced and group-sensitive classification under overparameterization, NeurIPS 2021.
[2] Class-balanced loss based on effective number of samples, CVPR, 2019.
[3] Long-tail learning via logit adjustment, ICLR, 2021
[4] Identifying and compensating for feature deviation in imbalanced deep learning, Arxiv, 2020.
[5] Learning imbalanced datasets with label-distribution-aware margin loss, NeurIPS 2019.
[6] Balanced meta-softmax for long-tailed visual recognition, NeurIPS 2020.

科技

售價接近，榮耀400正面交鋒REDMI K80至尊版，哪款更值得入手？ - 天天要聞

售價接近，榮耀400正面交鋒REDMI K80至尊版，哪款更值得入手？

對於正在關注2500元價位段中端手機的用戶來說，近期發布的榮耀400與REDMI K80至尊版如同兩顆耀眼的明星，它們雖然以截然不同的產品哲學爭奪用戶青睞，但它們的售價卻十分接近，也因此讓不少網友感到難以抉擇。一邊是2499元起售的榮耀40

07月07日 1283

微信右上角的加號，原來這麼好用，隱藏著4個實用功能 - 天天要聞

微信右上角的加號，原來這麼好用，隱藏著4個實用功能

微信右上角的加號原來這麼好用，還隱藏著四個實用功能，真的是太好用了。在使用微信聊天的時候會發現在聊天頁面右上角有一個加號，平常都知道打開之後可以掃一掃付款，也可以掃一掃添加好友。除了這幾個用途之外，其實右上角的加號還隱藏著四個非常實用的小功

07月07日 1932

央視曝光：大眾點評探店筆記造假，小紅書成網路水軍接派單「新陣地」！ - 天天要聞

央視曝光：大眾點評探店筆記造假，小紅書成網路水軍接派單「新陣地」！

（央視財經《財經調查》）《財經調查》記者接到消費者反映，他們在網路平台上吐槽某商品不好用的差評帖，莫名其妙就消失了。並且發現在好多直播電商平台的差評區里，充斥的竟然都是各種好評和「誇誇帖」。究竟是誰在互聯網各大平台上操控輿情，興風作浪？

07月06日 1730

最後的幻覺：小米為何仍不肯離開印度？ - 天天要聞

最後的幻覺：小米為何仍不肯離開印度？

撰文泰坦在全球化與地緣政治交織的棋盤上，小米正在印度進行一場越來越艱難的「持久戰」。面對印度政府的高壓政策、巨額罰款和持續的技術圍堵，小米的處境已形同「戰略圍困」。然而，令人疑惑的是，儘管盈利被嚴重壓縮、市場份額下滑、前景黯淡，小米依然沒

07月06日 1397

央視曝光：大眾點評給刷好評開綠燈 - 天天要聞

央視曝光：大眾點評給刷好評開綠燈

記者接到消費者反映，他們在網路平台上吐槽某商品不好用的差評帖，莫名其妙就消失了。並且發現在好多直播電商平台的差評區里，充斥的竟然都是各種好評和誇誇帖。究竟是誰，在互聯網各大平台上操控輿情，興風作浪呢？

07月06日 1588

三星電子2025上半年績效獎金公布：晶圓代工部門獲零獎金 - 天天要聞

三星電子2025上半年績效獎金公布：晶圓代工部門獲零獎金

IT之家 7 月 6 日消息，據 BusinessKorea 報道，行業消息人士透露，三星電子於 7 月 4 日通過內部網路公布了其上半年目標達成激勵（TAI）的支付比例。TAI 每半年發放一次，最高可達員工月薪的 100%，具體金額取決於

07月06日 1343

羅馬仕、安克超120萬台充電寶召回後續：生產過程混入金屬異物 - 天天要聞

羅馬仕、安克超120萬台充電寶召回後續：生產過程混入金屬異物

IT之家 7 月 6 日消息，近期，充電寶召回事件成為社會關注焦點，羅馬仕、安克創新等品牌相繼召回多款產品，召回產品超過 120 萬台，民航局也發布緊急通知，禁止旅客攜帶無 CCC 認證標識以及被召回型號的充電寶乘坐境內航班。

07月06日 1678

容聲冰箱官宣成為電影《長安的荔枝》官方合作夥伴，WILL養鮮W60系列新品發布 - 天天要聞

容聲冰箱官宣成為電影《長安的荔枝》官方合作夥伴，WILL養鮮W60系列新品發布

7月5日，古都西安，「WILL養鮮高能一夏」容聲WILL養鮮W60系列冰箱新品發布會隆重舉行。發布會上，容聲冰箱正式官宣成為即將上映的電影《長安的荔枝》官方合作夥伴。

07月06日 1773

給荔枝「開外掛」！容聲W60冰箱解鎖養鮮新境界 - 天天要聞

給荔枝「開外掛」！容聲W60冰箱解鎖養鮮新境界

7月5日，古都西安上演了一場跨越千年的「養鮮革命」。容聲冰箱以「WILL養鮮高能一夏」為主題，正式發布了WILL養鮮W60系列冰箱。

07月06日 1053

小米王化：「傳小米與徠卡終止合作」系謠言 - 天天要聞

小米王化：「傳小米與徠卡終止合作」系謠言

今日有傳聞稱，小米與徠卡的合作關係即將結束。對此，小米公關總經理王化回應稱：「上次是2023年6月1日，番茄發了個微博說小米14就是最後一代了。我轉發了文案搭配的是「這就胡說了」，這次居然進階了，來了個據報道，還有作者……我的回復也需要進階，請大家笑納：這還是胡說。」...

07月06日 9389