
機器之心報道
雙盲評審之下,圖靈獎得主的論文也會被拒。
上周,全球人工智能頂會 NeurIPS 2021 放出了今年的論文接收結果。正所謂有人歡喜有人憂,但也有人處於「歡喜」和「憂愁」之外的另一種狀態——被拒絕之後的「proud」。
這位擁有獨特心境的研究者便是大名鼎鼎的 Facebook 首席 AI 科學家、2018 年圖靈獎得主 Yann LeCun。

被拒絕的論文標題為《VICReg: Variance-Invariance-Covariance Regularization for Self-Supervised Learning 》。LeCun 表示,在這篇論文中,他們提出了一種極其簡單、高效的方法,用於聯合嵌入(joint-embedding)架構的自監督訓練。

VICReg 論文鏈接:https://arxiv.org/pdf/2105.04906.pdf
而領域主席給出的拒稿理由是:與 LeCun 等人之前發表於 ICML 2021 上的「Barlow Twins」論文相比,這篇「VICReg」提出的改進還不夠大。

Barlow Twins 論文鏈接:https://arxiv.org/pdf/2103.03230.pdf
但 LeCun 似乎並不這麼認為,他表示,VICReg 引入了方差正則化,這使得它適用於更廣泛的架構。

因此,在 LeCun 看來,他們的論文有足夠的創新之處,被拒絕並不是什麼丟人的事。「一些最具影響力的論文被拒絕過多次,比如 David Lowe 著名的 SIFT,」LeCun 在 twitter 上寫道。

對於「不要放棄」之類的鼓勵,LeCun 給出的回應是:「我的整個職業生涯都是基於『不放棄』的,現在也不會改變。」對於 LeCun 這種連「AI 寒冬」都經歷過的人,個別研究不被肯定又算得了什麼。

不過,對於普通研究者來說,LeCun 論文被拒讓人看到了頂會審稿機制透明的一面:看來雙盲評審還是有一定公平性的。

而且,審稿結果似乎並沒有被網絡上的宣傳所左右:該論文今年 5 月份就出現在了 arXiv 上,而且 LeCun 發表推特進行了宣傳。在 LeCun 看來,這是一種正常的學術信息交流,有利於技術進步。但不可忽略的一點是:在各種「交流」渠道中,不同地位的研究者所佔有的資源是非常懸殊的,這難免造成一些不公平,讓本身就很有學術號召力的研究者從中獲益。
不過,具體到「VICReg」這篇論文是否應該被接收,我們還是要看一下論文的具體內容。
「 VICReg 」是個什麼方法
自監督表徵學習在過去幾年取得了重大進展,在許多下游任務上幾乎達到了監督學習方法的性能。雖然可以顯式地防止崩潰(collapse),但許多方法都存在成本高昂的問題,需要大量內存和較大的批大小。
還有一些方法雖然有效,但是依賴於難以解釋的架構技巧。已有一些研究提供了關於如何通過非對稱方法避免崩潰的理論分析,但還遠不完備,並且這些方法可能不適用於其他自監督學習場景。最後,冗餘減少(redundancy reduction)的方法通過對錶征的維度進行去相關(decorrelate)操作來避免崩潰,從而使表徵能夠最大限度地提供有關其相應輸入的信息。這些方法的性能良好,能夠學習有意義的表徵,在去相關的同時保留表徵的方差,但所有這些都使用一個唯一的目標函數。VICReg 的研究提出將目標分解為三個獨立的目標函數,且每個目標函數都有明確的解釋。
在這篇論文中,研究者提出了一種新的自監督算法——VICReg(Variance-Invariance-Covariance Regularization,方差 - 不變性 - 協方差正則化),用於學習基於三個簡單 principle(方差、不變性和協方差)的圖像表徵,這些 principle 有明確的目標和解釋。

方差 principle 獨立地約束每個維度上嵌入的方差,是一種簡單而有效的防止崩潰的方法。更準確地說,研究者使用 hinge loss 來約束沿嵌入的批維度計算的標準差,以達到固定目標。與對比方法不同,這裡不需要 negative pair,嵌入被隱式地鼓勵不同於彼此,而且它們之間沒有任何直接的比較。
不變性 principle 使用標準的均方歐氏距離來學習對一張圖像多個視圖的不變性。
最後,協方差 principle 借鑒了 Barlow Twins 的協方差 criterion,後者將學習表徵的不同維度去相關,目標是在維度之間傳播信息,避免維度崩潰。這個 criterion 主要是懲罰嵌入的協方差矩陣的非對角係數。
在 SimCLR 中,negative pair 由批給出,這意味着該方法嚴重依賴於批大小。而 VICReg 則沒有這種依賴性。與 Barlow Twin 類似,VICReg 也不需要 siamese 權重差異。此外,VICReg 架構是對稱的,並且無需 SimSiam 的停止梯度(stop-gradient)操作、BYOL 的動量編碼器(momentum encoder)以及二者均用到的預測器。與之前用於表徵學習的任何自監督方法都不同,VICReg 的損失函數中不需要對嵌入進行任何形式的歸一化,這使得該方法相對簡單。
實驗結果
在很多下游任務中,研究者通過評估 VICReg 方法學到的表徵來測試其有效性。這些任務包括:ImageNet 線性和半監督評估以及其他一些分類、檢測和實例分割任務。他們進一步表明,在更複雜的架構和其他自監督表徵學習方法中加入文中提出的方差正則化,可以更好地提高下游任務的訓練穩定性和性能。可以說,VICReg 是自監督聯合嵌入學習中防止崩塌的一種簡單、有效的可解釋方法。

圖 1:在 ImageNet 上的評估結果。