衡宇 发自 凹非寺
量子位 | 公众号 qbitai
谢赛宁十年前被neurips(当时还叫nips)拒收的论文,刚在今年获得了aistats 2025年度时间检验奖。
这篇论文就是《deeply-supervised nets》(dsn,深度监督网络),2014年9月挂上arxiv。
时间匆匆,十一年过去,属于是真·时间检验了。
它提出的中间层监督思想被谢赛宁后续作品repa(representation alignment)和u-repa(u-net representation alignment)等继承并发展,展示出从单一模型优化到跨模型知识迁移的演进。
而后两者在深度学习、扩散模型深化发展的这两年间,影响颇深。
“恭喜!”“当之无愧!”
aistats官宣其获奖的推文下面,业界大佬齐聚,一片祝贺之声。
当初,这篇论文被aistats接收。
然而在谢赛宁本人的转发推文中,我们知道另一重内幕——
这篇论文最初投稿给neurips。虽然拿下8/8/7高分,但仍然被该顶会拒绝了。
他表示:
那次挫折一直萦绕在我心头,困扰着我……
十一年前,拿到8/8/7高分却被拒
补充下背景信息——
《deeply-supervised nets》是谢赛宁攻读博士学位期间提交的第一篇论文。
他是共同一作之一,另一位共同一作是现在的谷歌研究科学家chen-yu lee。
该项目通讯作者是清华校友、马尔奖获得者,现ucsd的计算机科学与工程系教授屠卓文。他也是谢赛宁和chen-yu lee的博导。
这篇论文提出了dsn(深度监督网络)方法,旨在解决深度学习中隐藏层特征学习的问题,提升分类性能。
当时的深度学习已经开始再次发展,在图像分类和语音识别领域卓有成效。
不过,它仍然面临诸多问题,比如隐藏层特征的透明度和判别力降低、梯度消失或爆炸导致训练困难、对算法行为缺乏数学理解、依赖大量训练数据以及训练时手动调参复杂等等。
研究团队基于观察发现,在高判别力特征上训练的分类器性能更好。
通过在网络各隐藏层利用特征质量反馈,直接影响权重更新,能让网络更快学习到好的特征,减轻梯度问题,且不影响整体网络性能。
于是,团队提出dsn,通过中间层监督机制解决cnn(传统卷积神经网络)的三大痛点:
梯度消失
在隐藏层添加辅助分类器(”companion” objective),通过逐层反向传播增强梯度信号。
特征鲁棒性
强制中间层直接参与最终分类任务,使浅层特征更具判别性(如在alexnet中,第3层特征分类准确率提升18%)。
训练效率
实验证明在cifar-10数据集上,dsn使resnet-50的训练收敛速度加快30%,top-1准确率提升2.1%。
时至今日,该成果已成为计算机视觉领域的经典方法,成为首个在生成式ai领域产生跨代影响的监督学习框架。
截至本文推送,这篇论文的谷歌学术被引量超过3000次。
那,为什么当时的neurips没有接收这篇论文呢?
或许是评审认为该工作是对传统cnn的增量改进而非颠覆性创新,而当时的neurips更关注理论突破或新型架构。
总之,虽然评审给这篇论文打出了8/8/7的高分,但还是被无情拒收了。
坚持不懈的表现不仅仅是“再试一次”
现在,当初接收dsn的aistats,又给予了这个项目时间检验奖以嘉奖。
众所周知,计算机会议的时间检验奖通常要求论文在获奖的10年前发表,高被引是核心门槛。
而更为重要的是,时间检验奖获奖项目需被同行评价为开创性工作(seminal work),或理论创新,或有应用价值,成为后续研究的基础范式。
就像gan启发了生成式模型,seq2seq推动机器翻译的发展。
至此,谢赛宁在相关推文中写下,“也许现在我可以终于释怀
。”
(愿他真的从此释怀~)
当然,谢赛宁还毫不吝啬地分享了更多感慨与经验总结。
“我不会把学术会议比做大乐透,但坚持不懈确实能给学术生涯带来很大的帮助。”谢赛写对着所有学子们喊话,“同学们:如果你们在看到最近的论文评审结果后感到灰心丧气,又正为下一篇文章做准备的话,我希望这(dsn获时间检验奖)能给你们一点小小的提醒,继续前行吧。”
后来他又对自己的感悟进行了补充说明——
坚持不懈并不仅仅是说“继续努力”或者“再试一次”,它需要一个强大的支持系统和具体的实践指导。
当我进入ucsd时,我对研究一无所知。我的导师屠卓文耐心地指导我们,从编程和数学证明相关的基础知识,到提出自己的研究想法,再到在台上自如地演讲。等我自己成为教授后,才体会到这种程度的指导是多么稀有和宝贵。同时,我也有像chen-yu lee这样的合作者——我们发现挫折,克服挑战,一起前进。
“你永远不应该独自前行。”谢赛宁在最后写道。
dsn的共一chen-yu lee也很激动地在上发声。
我们感到非常自豪!这篇论文最早(在顶会上)发表于2015年。看到这项工作的持续相关性和影响力,真是令人难以置信。
one more thing
anyway,对大多数相关从业者来说,论文被顶会接收是一种认可,一种荣誉。
但被顶会拒收,并不意味着对这个项目的全盘否定。
不知道大家还记不记得大明湖畔被iclr 2013拒稿的word2vec(后转投neurips并获接收,2023年获时间检验奖),以及被iclr 2024拒稿的mamba?
谢赛宁的推文评论区,也挖掘出了更多的类似故事。
浙大校友、哥伦比亚大学计算机科学系副教授俞舟(zhou yu)就留言说,她的团队在2019年获acl最佳论文提名的项目也在首投时被拒稿。
如果一篇好论文被拒绝,它就具有「成为最好的论文」和「被时间检验」的潜力,因为它会再次改进。:)
听了赛宁的分享,她表示,现在有另一个很好的例子可以用来鼓励低年级的同学们了~
参考链接:
[1]https://x.com/sainingxie/status/1919423231687000493
[2]https://x.com/sainingxie/status/1919022082391671195
[3]https://arxiv.org/abs/1409.5185
[4]https://scholar.google.com/citations?user=y2gtjkaaaaaj&hl=en