衡宇 發自 凹非寺
量子位 | 公眾號 qbitai
謝賽寧十年前被neurips(當時還叫nips)拒收的論文,剛在今年獲得了aistats 2025年度時間檢驗獎。
這篇論文就是《deeply-supervised nets》(dsn,深度監督網絡),2014年9月掛上arxiv。
時間匆匆,十一年過去,屬於是真·時間檢驗了。
它提出的中間層監督思想被謝賽寧後續作品repa(representation alignment)和u-repa(u-net representation alignment)等繼承並發展,展示出從單一模型優化到跨模型知識遷移的演進。
而後兩者在深度學習、擴散模型深化發展的這兩年間,影響頗深。
“恭喜!”“當之無愧!”
aistats官宣其獲獎的推文下面,業界大佬齊聚,一片祝賀之聲。
當初,這篇論文被aistats接收。
然而在謝賽寧本人的轉發推文中,我們知道另一重內幕——
這篇論文最初投稿給neurips。雖然拿下8/8/7高分,但仍然被該頂會拒絕了。
他表示:
那次挫折一直縈繞在我心頭,困擾着我……
十一年前,拿到8/8/7高分卻被拒
補充下背景信息——
《deeply-supervised nets》是謝賽寧攻讀博士學位期間提交的第一篇論文。
他是共同一作之一,另一位共同一作是現在的谷歌研究科學家chen-yu lee。
該項目通訊作者是清華校友、馬爾獎獲得者,現ucsd的計算機科學與工程系教授屠卓文。他也是謝賽寧和chen-yu lee的博導。
這篇論文提出了dsn(深度監督網絡)方法,旨在解決深度學習中隱藏層特徵學習的問題,提升分類性能。
當時的深度學習已經開始再次發展,在圖像分類和語音識別領域卓有成效。
不過,它仍然面臨諸多問題,比如隱藏層特徵的透明度和判別力降低、梯度消失或爆炸導致訓練困難、對算法行為缺乏數學理解、依賴大量訓練數據以及訓練時手動調參複雜等等。
研究團隊基於觀察發現,在高判別力特徵上訓練的分類器性能更好。
通過在網絡各隱藏層利用特徵質量反饋,直接影響權重更新,能讓網絡更快學習到好的特徵,減輕梯度問題,且不影響整體網絡性能。
於是,團隊提出dsn,通過中間層監督機制解決cnn(傳統卷積神經網絡)的三大痛點:
梯度消失
在隱藏層添加輔助分類器(”companion” objective),通過逐層反向傳播增強梯度信號。
特徵魯棒性
強制中間層直接參与最終分類任務,使淺層特徵更具判別性(如在alexnet中,第3層特徵分類準確率提升18%)。
訓練效率
實驗證明在cifar-10數據集上,dsn使resnet-50的訓練收斂速度加快30%,top-1準確率提升2.1%。
時至今日,該成果已成為計算機視覺領域的經典方法,成為首個在生成式ai領域產生跨代影響的監督學習框架。
截至本文推送,這篇論文的谷歌學術被引量超過3000次。
那,為什麼當時的neurips沒有接收這篇論文呢?
或許是評審認為該工作是對傳統cnn的增量改進而非顛覆性創新,而當時的neurips更關注理論突破或新型架構。
總之,雖然評審給這篇論文打出了8/8/7的高分,但還是被無情拒收了。
堅持不懈的表現不僅僅是“再試一次”
現在,當初接收dsn的aistats,又給予了這個項目時間檢驗獎以嘉獎。
眾所周知,計算機會議的時間檢驗獎通常要求論文在獲獎的10年前發表,高被引是核心門檻。
而更為重要的是,時間檢驗獎獲獎項目需被同行評價為開創性工作(seminal work),或理論創新,或有應用價值,成為後續研究的基礎範式。
就像gan啟發了生成式模型,seq2seq推動機器翻譯的發展。
至此,謝賽寧在相關推文中寫下,“也許現在我可以終於釋懷
。”
(願他真的從此釋懷~)
當然,謝賽寧還毫不吝嗇地分享了更多感慨與經驗總結。
“我不會把學術會議比做大樂透,但堅持不懈確實能給學術生涯帶來很大的幫助。”謝賽寫對着所有學子們喊話,“同學們:如果你們在看到最近的論文評審結果後感到灰心喪氣,又正為下一篇文章做準備的話,我希望這(dsn獲時間檢驗獎)能給你們一點小小的提醒,繼續前行吧。”
後來他又對自己的感悟進行了補充說明——
堅持不懈並不僅僅是說“繼續努力”或者“再試一次”,它需要一個強大的支持系統和具體的實踐指導。
當我進入ucsd時,我對研究一無所知。我的導師屠卓文耐心地指導我們,從編程和數學證明相關的基礎知識,到提出自己的研究想法,再到在台上自如地演講。
等我自己成為教授後,才體會到這種程度的指導是多麼稀有和寶貴。
同時,我也有像chen-yu lee這樣的合作者——我們發現挫折,克服挑戰,一起前進。
“你永遠不應該獨自前行。”謝賽寧在最後寫道。
dsn的共一chen-yu lee也很激動地在上發聲。
我們感到非常自豪!
這篇論文最早(在頂會上)發表於2015年。看到這項工作的持續相關性和影響力,真是令人難以置信。
one more thing
anyway,對大多數相關從業者來說,論文被頂會接收是一種認可,一種榮譽。
但被頂會拒收,並不意味着對這個項目的全盤否定。
不知道大家還記不記得大明湖畔被iclr 2013拒稿的word2vec(後轉投neurips並獲接收,2023年獲時間檢驗獎),以及被iclr 2024拒稿的mamba?
謝賽寧的推文評論區,也挖掘出了更多的類似故事。
浙大校友、哥倫比亞大學計算機科學系副教授俞舟(zhou yu)就留言說,她的團隊在2019年獲acl最佳論文提名的項目也在首投時被拒稿。
如果一篇好論文被拒絕,它就具有「成為最好的論文」和「被時間檢驗」的潛力,因為它會再次改進。:)
聽了賽寧的分享,她表示,現在有另一個很好的例子可以用來鼓勵低年級的同學們了~
參考鏈接:
[1]https://x.com/sainingxie/status/1919423231687000493
[2]https://x.com/sainingxie/status/1919022082391671195
[3]https://arxiv.org/abs/1409.5185
[4]https://scholar.google.com/citations?user=y2gtjkaaaaaj&hl=en