ICLR 2022 | 阿里达摩院联合清华提出LOOK：迁移能力更强的有监督训练算法

2022年07月14日13:08:29 科技 1300

近年来自监督学习方法得到了长足的进步和发展，在迁移泛化领域甚至取得了超越有监督学习的成果。在本篇工作中，来自阿里达摩院基础视觉智能团队与清华大学的研究者重新思考了有监督训练方法存在的弊端，提出了一种

基于留一法k近邻预测的有监督学习算法（Leave-One-Out K-Nearest-Neighbors, LOOK）

，在多个下游任务中超越了现有的有监督和无监督方法。目前工作已发表于ICLR 2022。

ICLR 2022 | 阿里达摩院联合清华提出LOOK：迁移能力更强的有监督训练算法 - 天天要闻

论文链接：
https://arxiv.org/pdf/2110.06014.pdf

一、背景

在表示学习相关领域中，基于“预训练-微调”的基本范式已经得到了广泛的应用，该范式首先在大规模的上游通用数据集上开展预训练，再以完成训练的模型在特定的下游数据集上微调应用。对于预训练过程而言，较为常用的是基于交叉熵（Cross Entropy, C.E.）等的有监督训练方法，基于样本标签开展模型训练，从而学习与高度语义化标签相关的特征表示。

近年来，无需依赖样本标签的无监督表示学习取得了长足的进步和发展，特别是基于对比学习的方法取得了与有监督方法相近的性能表现，并在包括目标识别、语义分割、细粒度分类等下游任务上取得了超越有监督的结果；在代表性的无监督学习方法中，通过同一样本的不同数据增强版本间的拉近，以及不同样本间的推远，实现了对数据中有效信息的捕捉。但由于缺少更贴近人类认知的标签辅助，该类方法对于高阶语义信息的提取能力较弱。

在此背景下，我们关注和重新思考了现有的有监督类型预训练表示学习,并发现其迁移性能受限的原因是忽视了对类内差异语义信息的关注。图1给出了两种常见的有监督学习方法，包括交叉熵（C.E.）和有监督对比学习（Supervised Contrastive Learning, SupCon），我们以箭头表示训练中对于样本特征的优化方向。为实现对不同类别的区分，这两类方法均会在训练过程中将对应同类别的样本特征分布拉近，但实现方式略有区别，C.E. 通过构建每类的参数化中心实现，而 SupCon 则是直接点对点进行拉近。通过图中示例的分析可以发现，即使对于同类样本而言，其自身也存在分布的多样性，即存在大量同类但内容差异大的样本对，对这些样本对的拉近将会损坏对图像中自然信息的提取能力，从而使得模型丢弃能够区分这些样本的语义特征，进一步影响了在下游数据集上的迁移能力，这一现象也可以被描述为对于上游数据集的过拟合。

图1：现有有监督学习方法与本文方法对比示意

二、思路

针对有监督预训练中存在的上游过拟合问题，本文利用留一法 k 近邻（Leave-One-Out k-Nearest-Neighbor, LOOK）进行有监督训练，仅对同类样本间的高相似度样本进行拉近，避免类内高差异样本强行拉近带来的迁移能力下降。图2左侧给出了基于交叉熵损失约束的预训练特征分布效果，在同类样本统一拉近的监督下，可以观察到每一类数据均呈现清晰的单一团簇分布。而所提方法LOOK与线性分类的模型相比，所使用的k 近邻分类器并不要求同类内所有样本表示趋于单一团簇分布，给定某一查询样本，只要其近邻范围内的大部分样本标签与其一致，就能够正确完成分类任务。

因此，在该优化目标下，所有训练样本的 k 近邻范围内同类样本占多数即可，从而使得类别可以呈现多团簇分布模式。图2右侧展示了基于这种方式训练得到的样本特征分布可视化，可以清晰观察到所提方法形成的多团簇分布情况。图2中还进一步从团簇选取了部分样本进行展示，可以观察到即使在类别定义较为完备的 ImageNet数据集上，仍然存在类内差异化的可能性。如所展示的橄榄球头盔类，事实上可以形成单一头盔物体和比赛照片中的头盔两个子类，口琴类也存在单一口琴物体和演奏口琴两个子类，而所提方法也能较好将这些子类区分开来，表明其保留了与区分这些子类相关的有价值的语义信息，从而进一步提升了下游的迁移泛化能力。

图2：本文方法LOOK与交叉熵方法（C.E.）的特征及样本可视化对比

三、方法

3.1 LOOK：基于留一法的k近邻监督学习

考虑上游大规模数据集预训练场景，设上游数据集为，其中包含了个待学习样本，对应标签集表示数据集样本的类别；所需要训练的模型可表示为映射函数，可将样本映射为高维空间表征。

对于训练样本及对应表征，设为在数据集中前近的邻接样本，基于此预测当前样本类别：

其中为余弦距离表示的聚集权重，是总维度为类别数的one-hot向量（位置的值为 1，其余位置均为 0）。在此基础上，利用带温度的 Softmax 函数对标签聚集结果进行求和为 1 的正则化，并可进一步利用负对数函数构造损失函数：

其中为 Softmax 函数控制归一化过程尖锐度的超参数，为标识符，当且仅当时取 1，剩余情况取 0。

通过上述损失函数，模型在训练过程中将连接的同类样本的特征拉近，异类节点间的特征则会被推远。但需要注意的是，在基于迭代参数更新的神经网络训练过程中，要求不断基于当前参数进行近邻图的动态更新，而距离计算和排序函数将产生较大的计算复杂度，特别是对于上游数据集规模较大的情况，将严重影响预训练的完成时间。针对这一效率问题，本文在后续章节设计了将所提方法拓展到大规模数据集上的高效计算和优化方法。

3.2 将LOOK适配至大规模数据集

本文所提出的 LOOK 方法在大规模数据集上面临的计算问题主要有以下两点：

一方面，在训练模型的在线更新模式下，每次更新后遍历所有的数据集样本进行特征重新提取的计算代价是无法承受的，从而使得在计算样本间距离时需要处理用于特征提取的模型和当前最新模型不匹配的问题；
另一方面，由于数据集规模较大，直接计算当前样本对于整个数据集的 k 近邻同样会产生巨大的计算消耗，因此能否通过一个较小规模的子集来实现上述计算的逼近，对于解决该问题是关键的。

本章节针对上述问题，从以下角度实现大规模数据集上高效的LOOK算法学习。

（1）搜索空间构建

由于对整个数据集进行近邻搜索非常耗时，本文探索了为其构造一个规模更小的搜索子空间的方式。子搜索空间应当满足两个条件：

搜索空间应该尽可能大以实现对于完整数据集的覆盖；
搜索空间中包含的样本特征应该是时序同步的，从而保证进行样本间距离度量的合理性。

为满足上述需求，本文引入了动量对比学习（MoCo）中提出的动量队列机制，即在训练过程中，基于每批训练样本动态维护一个先进先出的样本队列，保留最近更新过的若干样本。为保持队列中样本特征的时序同步性，生成特征的模型不再使用当前实时训练更新的模型，而是额外维护一个动量模型，其更新移动速度显著低于实时模型，因此可以近似地维护队列中样本的时序同步性，从而能够提供一个较大的近似同步搜索空间。

（2）基于预测器的快速收敛优化

在使用动量队列搜索空间的情况下，会出现收敛过于缓慢的问题，这是由于所提算法需要对近邻样本作特征拉近，导致对实时模型和动量模型间的拉近效应，使得实时模型的更新速度被极大放缓。为解决该问题，本文在实时模型后添加了一个由多层感知器MLP组成的预测器模型结构来提供两模型之间的缓冲，使其避免与动量模型的直接拉近效应导致的收敛过慢。

（3）近邻超参的动态调整

在所提方法的设计中，近邻图范围及其聚集的温度超参对于训练过程的影响很大，且对于这些超参数的需求事实上在不同训练阶段是不同的：在训练前期，样本点分布对于类别而言较为分散和随机，若近邻定义范围过小，则会容易出现范围内无同类节点，进而只有样本推远效应的问题，影响模型收敛速度；在训练中后期，样本间已出现基本的同类聚集效应，在此情况下需要缩小近邻图聚集范围，以避免将大量的同类相异样本同时拉近，从而能够形成动机中所描述的类内多簇分布模型。基于上述分析，本文使用了针对近邻超参的动态衰减策略，保证在训练的不同阶段均能满足需求。

四、实验

4.1 迁移性能实验结果对比

表1：多个下游数据集上的线性迁移结果

表2：多个下游数据集上的完全训练结果

上述结果表明所提方法LOOK在多个数据集上迁移任务中都取得了优于现有的有监督和无监督方法的实验结果。

表3：基于不同下游迁移算法的实验结果

上述结果表明，在使用更加复杂和先进的下游迁移算法的情况下，所提方法也能保持稳定的性能提升。

4.2 对比实验

表4：对于队列长度、动量超参和k近邻范围的对比实验

以上结果为在9个下游数据集上的线性迁移结果平均值。结果表明所提方法对于超参设置展示了鲁棒性，且在合适的k近邻超参下表现出最优性能。

4.3 无训练迁移实验结果

除常规的迁移方式外，本文还探索了无训练的迁移方式，即仅通过更新样本特征池的方式，以k近邻算法在下游进行预测。实验结果展示了所提方法在这一方式下的优越性，此外该部分实验也可以为后续相关工作提供参考。

表5：无训练迁移实验结果

4.4 特征可视化分析

图3：特征可视化对比

从上图的t-SNE可视化结果可以看出，所提方法相较已有方法呈现了明显的多簇和松散特征分布，与动机保持了一致。

五、结论

本文重新思考了现有的有监督学习算法，针对上游数据过拟合和类内差异忽视导致的泛化性下降问题，提出了留一法k近邻预训练方法（LOOK），并针对在大规模数据集中的学习效率问题进行了优化。实验结果表明LOOK在下游迁移任务上相较现有方法取得了明显提升，所学表示能够形成类内差异相关的多簇分布模式，提升了模型的泛化迁移能力。