被拒稿11年後翻盤獲時間檢驗獎，DSN作者謝賽寧：拒稿≠學術死刑

分類：科學

瀏覽數：8861

2025-05-06

衡宇發自凹非寺
量子位 | 公眾號 qbitai

謝賽寧十年前被neurips（當時還叫nips）拒收的論文，剛在今年獲得了aistats 2025年度時間檢驗獎。

這篇論文就是《deeply-supervised nets》（dsn，深度監督網絡），2014年9月掛上arxiv。

時間匆匆，十一年過去，屬於是真·時間檢驗了。

它提出的中間層監督思想被謝賽寧後續作品repa（representation alignment）和u-repa（u-net representation alignment）等繼承並發展，展示出從單一模型優化到跨模型知識遷移的演進。

而後兩者在深度學習、擴散模型深化發展的這兩年間，影響頗深。

「恭喜！」「當之無愧！」

aistats官宣其獲獎的推文下面，業界大佬齊聚，一片祝賀之聲。

當初，這篇論文被aistats接收。

然而在謝賽寧本人的轉發推文中，我們知道另一重內幕——

這篇論文最初投稿給neurips。雖然拿下8/8/7高分，但仍然被該頂會拒絕了。

他表示：

那次挫折一直縈繞在我心頭，困擾着我……

十一年前，拿到8/8/7高分卻被拒

補充下背景信息——

《deeply-supervised nets》是謝賽寧攻讀博士學位期間提交的第一篇論文。

他是共同一作之一，另一位共同一作是現在的谷歌研究科學家chen-yu lee。

該項目通訊作者是清華校友、馬爾獎獲得者，現ucsd的計算機科學與工程系教授屠卓文。他也是謝賽寧和chen-yu lee的博導。

這篇論文提出了dsn（深度監督網絡）方法，旨在解決深度學習中隱藏層特徵學習的問題，提升分類性能。

當時的深度學習已經開始再次發展，在圖像分類和語音識別領域卓有成效。

不過，它仍然面臨諸多問題，比如隱藏層特徵的透明度和判別力降低、梯度消失或爆炸導致訓練困難、對算法行為缺乏數學理解、依賴大量訓練數據以及訓練時手動調參複雜等等。

研究團隊基於觀察發現，在高判別力特徵上訓練的分類器性能更好。

通過在網絡各隱藏層利用特徵質量反饋，直接影響權重更新，能讓網絡更快學習到好的特徵，減輕梯度問題，且不影響整體網絡性能。

於是，團隊提出dsn，通過中間層監督機制解決cnn（傳統卷積神經網絡）的三大痛點：

梯度消失
在隱藏層添加輔助分類器（」companion」 objective），通過逐層反向傳播增強梯度信號。
特徵魯棒性
強制中間層直接參与最終分類任務，使淺層特徵更具判別性（如在alexnet中，第3層特徵分類準確率提升18%）。
訓練效率
實驗證明在cifar-10數據集上，dsn使resnet-50的訓練收斂速度加快30%，top-1準確率提升2.1%。

時至今日，該成果已成為計算機視覺領域的經典方法，成為首個在生成式ai領域產生跨代影響的監督學習框架。

截至本文推送，這篇論文的谷歌學術被引量超過3000次。

那，為什麼當時的neurips沒有接收這篇論文呢？

或許是評審認為該工作是對傳統cnn的增量改進而非顛覆性創新，而當時的neurips更關注理論突破或新型架構。

總之，雖然評審給這篇論文打出了8/8/7的高分，但還是被無情拒收了。

堅持不懈的表現不僅僅是「再試一次」

現在，當初接收dsn的aistats，又給予了這個項目時間檢驗獎以嘉獎。

眾所周知，計算機會議的時間檢驗獎通常要求論文在獲獎的10年前發表，高被引是核心門檻。

而更為重要的是，時間檢驗獎獲獎項目需被同行評價為開創性工作（seminal work），或理論創新，或有應用價值，成為後續研究的基礎範式。

就像gan啟發了生成式模型，seq2seq推動機器翻譯的發展。

至此，謝賽寧在相關推文中寫下，「也許現在我可以終於釋懷

。」

（願他真的從此釋懷～）

當然，謝賽寧還毫不吝嗇地分享了更多感慨與經驗總結。

「我不會把學術會議比做大樂透，但堅持不懈確實能給學術生涯帶來很大的幫助。」謝賽寫對着所有學子們喊話，「同學們：如果你們在看到最近的論文評審結果後感到灰心喪氣，又正為下一篇文章做準備的話，我希望這（dsn獲時間檢驗獎）能給你們一點小小的提醒，繼續前行吧。」

後來他又對自己的感悟進行了補充說明——

堅持不懈並不僅僅是說「繼續努力」或者「再試一次」，它需要一個強大的支持系統和具體的實踐指導。

當我進入ucsd時，我對研究一無所知。我的導師屠卓文耐心地指導我們，從編程和數學證明相關的基礎知識，到提出自己的研究想法，再到在台上自如地演講。等我自己成為教授後，才體會到這種程度的指導是多麼稀有和寶貴。同時，我也有像chen-yu lee這樣的合作者——我們發現挫折，克服挑戰，一起前進。

「你永遠不應該獨自前行。」謝賽寧在最後寫道。

dsn的共一chen-yu lee也很激動地在上發聲。

我們感到非常自豪！這篇論文最早（在頂會上）發表於2015年。看到這項工作的持續相關性和影響力，真是令人難以置信。

one more thing

anyway，對大多數相關從業者來說，論文被頂會接收是一種認可，一種榮譽。

但被頂會拒收，並不意味着對這個項目的全盤否定。

不知道大家還記不記得大明湖畔被iclr 2013拒稿的word2vec（後轉投neurips並獲接收，2023年獲時間檢驗獎），以及被iclr 2024拒稿的mamba？

謝賽寧的推文評論區，也挖掘出了更多的類似故事。

浙大校友、哥倫比亞大學計算機科學系副教授俞舟（zhou yu）就留言說，她的團隊在2019年獲acl最佳論文提名的項目也在首投時被拒稿。

如果一篇好論文被拒絕，它就具有「成為最好的論文」和「被時間檢驗」的潛力，因為它會再次改進。:)

聽了賽寧的分享，她表示，現在有另一個很好的例子可以用來鼓勵低年級的同學們了～

參考鏈接：

[1]https://x.com/sainingxie/status/1919423231687000493

[2]https://x.com/sainingxie/status/1919022082391671195

[3]https://arxiv.org/abs/1409.5185

[4]https://scholar.google.com/citations?user=y2gtjkaaaaaj&hl=en

科學分類資訊推薦