ICLR 2022 | 阿里達摩院聯合清華提出LOOK：遷移能力更強的有監督訓練算法

2022年07月14日13:08:29 科技 1300

近年來自監督學習方法得到了長足的進步和發展，在遷移泛化領域甚至取得了超越有監督學習的成果。在本篇工作中，來自阿里達摩院基礎視覺智能團隊與清華大學的研究者重新思考了有監督訓練方法存在的弊端，提出了一種

基於留一法k近鄰預測的有監督學習算法（Leave-One-Out K-Nearest-Neighbors, LOOK）

，在多個下游任務中超越了現有的有監督和無監督方法。目前工作已發表於ICLR 2022。

ICLR 2022 | 阿里達摩院聯合清華提出LOOK：遷移能力更強的有監督訓練算法 - 天天要聞

論文鏈接：
https://arxiv.org/pdf/2110.06014.pdf

一、背景

在表示學習相關領域中，基於「預訓練-微調」的基本範式已經得到了廣泛的應用，該範式首先在大規模的上游通用數據集上開展預訓練，再以完成訓練的模型在特定的下游數據集上微調應用。對於預訓練過程而言，較為常用的是基於交叉熵（Cross Entropy, C.E.）等的有監督訓練方法，基於樣本標籤開展模型訓練，從而學習與高度語義化標籤相關的特徵表示。

近年來，無需依賴樣本標籤的無監督表示學習取得了長足的進步和發展，特別是基於對比學習的方法取得了與有監督方法相近的性能表現，並在包括目標識別、語義分割、細粒度分類等下游任務上取得了超越有監督的結果；在代表性的無監督學習方法中，通過同一樣本的不同數據增強版本間的拉近，以及不同樣本間的推遠，實現了對數據中有效信息的捕捉。但由於缺少更貼近人類認知的標籤輔助，該類方法對於高階語義信息的提取能力較弱。

在此背景下，我們關注和重新思考了現有的有監督類型預訓練表示學習,並發現其遷移性能受限的原因是忽視了對類內差異語義信息的關注。圖1給出了兩種常見的有監督學習方法，包括交叉熵（C.E.）和有監督對比學習（Supervised Contrastive Learning, SupCon），我們以箭頭表示訓練中對於樣本特徵的優化方向。為實現對不同類別的區分，這兩類方法均會在訓練過程中將對應同類別的樣本特徵分佈拉近，但實現方式略有區別，C.E. 通過構建每類的參數化中心實現，而 SupCon 則是直接點對點進行拉近。通過圖中示例的分析可以發現，即使對於同類樣本而言，其自身也存在分佈的多樣性，即存在大量同類但內容差異大的樣本對，對這些樣本對的拉近將會損壞對圖像中自然信息的提取能力，從而使得模型丟棄能夠區分這些樣本的語義特徵，進一步影響了在下游數據集上的遷移能力，這一現象也可以被描述為對於上游數據集的過擬合。

圖1：現有有監督學習方法與本文方法對比示意

二、思路

針對有監督預訓練中存在的上游過擬合問題，本文利用留一法 k 近鄰（Leave-One-Out k-Nearest-Neighbor, LOOK）進行有監督訓練，僅對同類樣本間的高相似度樣本進行拉近，避免類內高差異樣本強行拉近帶來的遷移能力下降。圖2左側給出了基於交叉熵損失約束的預訓練特徵分佈效果，在同類樣本統一拉近的監督下，可以觀察到每一類數據均呈現清晰的單一團簇分佈。而所提方法LOOK與線性分類的模型相比，所使用的k 近鄰分類器並不要求同類內所有樣本表示趨於單一團簇分佈，給定某一查詢樣本，只要其近鄰範圍內的大部分樣本標籤與其一致，就能夠正確完成分類任務。

因此，在該優化目標下，所有訓練樣本的 k 近鄰範圍內同類樣本占多數即可，從而使得類別可以呈現多團簇分佈模式。圖2右側展示了基於這種方式訓練得到的樣本特徵分佈可視化，可以清晰觀察到所提方法形成的多團簇分佈情況。圖2中還進一步從團簇選取了部分樣本進行展示，可以觀察到即使在類別定義較為完備的 ImageNet數據集上，仍然存在類內差異化的可能性。如所展示的橄欖球頭盔類，事實上可以形成單一頭盔物體和比賽照片中的頭盔兩個子類，口琴類也存在單一口琴物體和演奏口琴兩個子類，而所提方法也能較好將這些子類區分開來，表明其保留了與區分這些子類相關的有價值的語義信息，從而進一步提升了下游的遷移泛化能力。

圖2：本文方法LOOK與交叉熵方法（C.E.）的特徵及樣本可視化對比

三、方法

3.1 LOOK：基於留一法的k近鄰監督學習

考慮上游大規模數據集預訓練場景，設上游數據集為，其中包含了個待學習樣本，對應標籤集表示數據集樣本的類別；所需要訓練的模型可表示為映射函數，可將樣本映射為高維空間表徵。

對於訓練樣本及對應表徵，設為在數據集中前近的鄰接樣本，基於此預測當前樣本類別：

其中為餘弦距離表示的聚集權重，是總維度為類別數的one-hot向量（位置的值為 1，其餘位置均為 0）。在此基礎上，利用帶溫度的 Softmax 函數對標籤聚集結果進行求和為 1 的正則化，並可進一步利用負對數函數構造損失函數：

其中為 Softmax 函數控制歸一化過程尖銳度的超參數，為標識符，當且僅當時取 1，剩餘情況取 0。

通過上述損失函數，模型在訓練過程中將連接的同類樣本的特徵拉近，異類節點間的特徵則會被推遠。但需要注意的是，在基於迭代參數更新的神經網絡訓練過程中，要求不斷基於當前參數進行近鄰圖的動態更新，而距離計算和排序函數將產生較大的計算複雜度，特別是對於上游數據集規模較大的情況，將嚴重影響預訓練的完成時間。針對這一效率問題，本文在後續章節設計了將所提方法拓展到大規模數據集上的高效計算和優化方法。

3.2 將LOOK適配至大規模數據集

本文所提出的 LOOK 方法在大規模數據集上面臨的計算問題主要有以下兩點：

一方面，在訓練模型的在線更新模式下，每次更新後遍歷所有的數據集樣本進行特徵重新提取的計算代價是無法承受的，從而使得在計算樣本間距離時需要處理用於特徵提取的模型和當前最新模型不匹配的問題；
另一方面，由於數據集規模較大，直接計算當前樣本對於整個數據集的 k 近鄰同樣會產生巨大的計算消耗，因此能否通過一個較小規模的子集來實現上述計算的逼近，對於解決該問題是關鍵的。

本章節針對上述問題，從以下角度實現大規模數據集上高效的LOOK算法學習。

（1）搜索空間構建

由於對整個數據集進行近鄰搜索非常耗時，本文探索了為其構造一個規模更小的搜索子空間的方式。子搜索空間應當滿足兩個條件：

搜索空間應該儘可能大以實現對於完整數據集的覆蓋；
搜索空間中包含的樣本特徵應該是時序同步的，從而保證進行樣本間距離度量的合理性。

為滿足上述需求，本文引入了動量對比學習（MoCo）中提出的動量隊列機制，即在訓練過程中，基於每批訓練樣本動態維護一個先進先出的樣本隊列，保留最近更新過的若干樣本。為保持隊列中樣本特徵的時序同步性，生成特徵的模型不再使用當前實時訓練更新的模型，而是額外維護一個動量模型，其更新移動速度顯著低於實時模型，因此可以近似地維護隊列中樣本的時序同步性，從而能夠提供一個較大的近似同步搜索空間。

（2）基於預測器的快速收斂優化

在使用動量隊列搜索空間的情況下，會出現收斂過於緩慢的問題，這是由於所提算法需要對近鄰樣本作特徵拉近，導致對實時模型和動量模型間的拉近效應，使得實時模型的更新速度被極大放緩。為解決該問題，本文在實時模型後添加了一個由多層感知器MLP組成的預測器模型結構來提供兩模型之間的緩衝，使其避免與動量模型的直接拉近效應導致的收斂過慢。

（3）近鄰超參的動態調整

在所提方法的設計中，近鄰圖範圍及其聚集的溫度超參對於訓練過程的影響很大，且對於這些超參數的需求事實上在不同訓練階段是不同的：在訓練前期，樣本點分佈對於類別而言較為分散和隨機，若近鄰定義範圍過小，則會容易出現範圍內無同類節點，進而只有樣本推遠效應的問題，影響模型收斂速度；在訓練中後期，樣本間已出現基本的同類聚集效應，在此情況下需要縮小近鄰圖聚集範圍，以避免將大量的同類相異樣本同時拉近，從而能夠形成動機中所描述的類內多簇分佈模型。基於上述分析，本文使用了針對近鄰超參的動態衰減策略，保證在訓練的不同階段均能滿足需求。

四、實驗

4.1 遷移性能實驗結果對比

表1：多個下游數據集上的線性遷移結果

表2：多個下游數據集上的完全訓練結果

上述結果表明所提方法LOOK在多個數據集上遷移任務中都取得了優於現有的有監督和無監督方法的實驗結果。

表3：基於不同下游遷移算法的實驗結果

上述結果表明，在使用更加複雜和先進的下游遷移算法的情況下，所提方法也能保持穩定的性能提升。

4.2 對比實驗

表4：對於隊列長度、動量超參和k近鄰範圍的對比實驗

以上結果為在9個下游數據集上的線性遷移結果平均值。結果表明所提方法對於超參設置展示了魯棒性，且在合適的k近鄰超參下表現出最優性能。

4.3 無訓練遷移實驗結果

除常規的遷移方式外，本文還探索了無訓練的遷移方式，即僅通過更新樣本特徵池的方式，以k近鄰算法在下游進行預測。實驗結果展示了所提方法在這一方式下的優越性，此外該部分實驗也可以為後續相關工作提供參考。

表5：無訓練遷移實驗結果

4.4 特徵可視化分析

圖3：特徵可視化對比

從上圖的t-SNE可視化結果可以看出，所提方法相較已有方法呈現了明顯的多簇和鬆散特徵分佈，與動機保持了一致。

五、結論

本文重新思考了現有的有監督學習算法，針對上游數據過擬合和類內差異忽視導致的泛化性下降問題，提出了留一法k近鄰預訓練方法（LOOK），並針對在大規模數據集中的學習效率問題進行了優化。實驗結果表明LOOK在下游遷移任務上相較現有方法取得了明顯提升，所學表示能夠形成類內差異相關的多簇分佈模式，提升了模型的泛化遷移能力。