被拒稿11年後翻盤獲時間檢驗獎,DSN作者謝賽寧:拒稿≠學術死刑

衡宇 發自 凹非寺

量子位 | 公眾號 qbitai

謝賽寧十年前被neurips(當時還叫nips)拒收的論文,剛在今年獲得了aistats 2025年度時間檢驗獎。

這篇論文就是《deeply-supervised nets》(dsn,深度監督網絡),2014年9月掛上arxiv。

時間匆匆,十一年過去,屬於是真·時間檢驗了。

它提出的中間層監督思想被謝賽寧後續作品repa(representation alignment)和u-repa(u-net representation alignment)等繼承並發展,展示出從單一模型優化到跨模型知識遷移的演進。

而後兩者在深度學習、擴散模型深化發展的這兩年間,影響頗深。

「恭喜!」「當之無愧!」

aistats官宣其獲獎的推文下面,業界大佬齊聚,一片祝賀之聲。

當初,這篇論文被aistats接收。

然而在謝賽寧本人的轉發推文中,我們知道另一重內幕——

這篇論文最初投稿給neurips。雖然拿下8/8/7高分,但仍然被該頂會拒絕了。

他表示:

那次挫折一直縈繞在我心頭,困擾着我……

十一年前,拿到8/8/7高分卻被拒

補充下背景信息——

《deeply-supervised nets》是謝賽寧攻讀博士學位期間提交的第一篇論文。

他是共同一作之一,另一位共同一作是現在的谷歌研究科學家chen-yu lee

該項目通訊作者是清華校友、馬爾獎獲得者,現ucsd的計算機科學與工程系教授屠卓文。他也是謝賽寧和chen-yu lee的博導。

這篇論文提出了dsn(深度監督網絡)方法,旨在解決深度學習中隱藏層特徵學習的問題,提升分類性能。

當時的深度學習已經開始再次發展,在圖像分類和語音識別領域卓有成效。

不過,它仍然面臨諸多問題,比如隱藏層特徵的透明度和判別力降低、梯度消失或爆炸導致訓練困難、對算法行為缺乏數學理解、依賴大量訓練數據以及訓練時手動調參複雜等等。

研究團隊基於觀察發現,在高判別力特徵上訓練的分類器性能更好。

通過在網絡各隱藏層利用特徵質量反饋,直接影響權重更新,能讓網絡更快學習到好的特徵,減輕梯度問題,且不影響整體網絡性能。

於是,團隊提出dsn,通過中間層監督機制解決cnn(傳統卷積神經網絡)的三大痛點:

  • 梯度消失

  • 在隱藏層添加輔助分類器(」companion」 objective),通過逐層反向傳播增強梯度信號。

  • 特徵魯棒性

  • 強制中間層直接參与最終分類任務,使淺層特徵更具判別性(如在alexnet中,第3層特徵分類準確率提升18%)

  • 訓練效率

  • 實驗證明在cifar-10數據集上,dsn使resnet-50的訓練收斂速度加快30%,top-1準確率提升2.1%。

時至今日,該成果已成為計算機視覺領域的經典方法,成為首個在生成式ai領域產生跨代影響的監督學習框架。

截至本文推送,這篇論文的谷歌學術被引量超過3000次

那,為什麼當時的neurips沒有接收這篇論文呢?

或許是評審認為該工作是對傳統cnn的增量改進而非顛覆性創新,而當時的neurips更關注理論突破或新型架構。

總之,雖然評審給這篇論文打出了8/8/7的高分,但還是被無情拒收了。

堅持不懈的表現不僅僅是「再試一次」

現在,當初接收dsn的aistats,又給予了這個項目時間檢驗獎以嘉獎。

眾所周知,計算機會議的時間檢驗獎通常要求論文在獲獎的10年前發表,高被引是核心門檻。

而更為重要的是,時間檢驗獎獲獎項目需被同行評價為開創性工作(seminal work),或理論創新,或有應用價值,成為後續研究的基礎範式。

就像gan啟發了生成式模型,seq2seq推動機器翻譯的發展。

至此,謝賽寧在相關推文中寫下,「也許現在我可以終於釋懷

。」

(願他真的從此釋懷~)

當然,謝賽寧還毫不吝嗇地分享了更多感慨與經驗總結。

「我不會把學術會議比做大樂透,但堅持不懈確實能給學術生涯帶來很大的幫助。」謝賽寫對着所有學子們喊話,「同學們:如果你們在看到最近的論文評審結果後感到灰心喪氣,又正為下一篇文章做準備的話,我希望這(dsn獲時間檢驗獎)能給你們一點小小的提醒,繼續前行吧。」

後來他又對自己的感悟進行了補充說明——

堅持不懈並不僅僅是說「繼續努力」或者「再試一次」,它需要一個強大的支持系統和具體的實踐指導。

當我進入ucsd時,我對研究一無所知。我的導師屠卓文耐心地指導我們,從編程和數學證明相關的基礎知識,到提出自己的研究想法,再到在台上自如地演講。等我自己成為教授後,才體會到這種程度的指導是多麼稀有和寶貴。同時,我也有像chen-yu lee這樣的合作者——我們發現挫折,克服挑戰,一起前進。

「你永遠不應該獨自前行。」謝賽寧在最後寫道。

dsn的共一chen-yu lee也很激動地在上發聲。

我們感到非常自豪!這篇論文最早(在頂會上)發表於2015年。看到這項工作的持續相關性和影響力,真是令人難以置信。

one more thing

anyway,對大多數相關從業者來說,論文被頂會接收是一種認可,一種榮譽。

但被頂會拒收,並不意味着對這個項目的全盤否定。

不知道大家還記不記得大明湖畔被iclr 2013拒稿的word2vec(後轉投neurips並獲接收,2023年獲時間檢驗獎),以及被iclr 2024拒稿的mamba?

謝賽寧的推文評論區,也挖掘出了更多的類似故事。

浙大校友、哥倫比亞大學計算機科學系副教授俞舟(zhou yu)就留言說,她的團隊在2019年獲acl最佳論文提名的項目也在首投時被拒稿。

如果一篇好論文被拒絕,它就具有「成為最好的論文」和「被時間檢驗」的潛力,因為它會再次改進。:)

聽了賽寧的分享,她表示,現在有另一個很好的例子可以用來鼓勵低年級的同學們了~

參考鏈接:

[1]https://x.com/sainingxie/status/1919423231687000493

[2]https://x.com/sainingxie/status/1919022082391671195

[3]https://arxiv.org/abs/1409.5185

[4]https://scholar.google.com/citations?user=y2gtjkaaaaaj&hl=en