被拒≠失敗!這些高影響力論文都被頂會拒收過
近日,Waymo 發布了一篇深度博客,詳細介紹了該公司的 AI 戰略以及以 Waymo 基礎模型為核心的整體 AI 方法。
谷歌首席科學家 Jeff Dean 也在 X 上分享了這篇博客,并重點介紹了 Waymo 用到的蒸餾方法,他寫到:「就像我們使用蒸餾從更大規模的專業模型中創建高質量、計算效率極高的 Gemini Flash 模型一樣,Waymo 也類似地使用了蒸餾,來基于更大的模型創建可機載運行的高計算效率模型。」

而在這條帖子下方,Jeff Dean 又再一次回憶了最初那篇蒸餾論文的悲慘遭遇:被 NeurIPS 2014 拒收了。而他收到的拒收理由是它「不太可能產生重大影響」。

當時,評審認為這篇由 Geoffrey Hinton、Oriol Vinyals、Jeff Dean 合著的論文只是對早期模型壓縮(Model Compression)工作的增量改進。而事后來看,NeurIPS 2014 評審的這個決定可謂是錯得非常離譜。如今,「知識蒸餾(Knowledge Distillation)」已然成為模型壓縮和大模型落地的標配方法。其論文引用量也已經超過了 2.8 萬!

這件事也成了 Jeff Dean 的意難平,讓他每有機會就會拿出來曬一曬。

其實 Jeff Dean 的遭遇并非個例。
回顧 AI 的發展歷程,同行評審制度雖然扮演著質量守門人的關鍵角色,但它并非全能。
事實上,當我們回溯歷史,會發現一個令人深思的現象:許多當下支撐起萬億級 AI 產業的基石技術(從訓練大模型的優化器,到計算機視覺的特征提取,再到自然語言處理的底層邏輯)在最初問世時,都曾被頂級會議拒之門外。
Geoffrey Hinton、Yann LeCun、Schmidhuber…… 這些如雷貫耳的名字,都曾站在拒稿信的對面。那些理由在今天看來甚至或許有些荒謬:「缺乏理論依據」、「只是工程技巧」、「太簡單了不可能有效」。
今天,我們盤點一下那些曾經淪為「棄子」、后來卻引發范式轉移(Paradigm Shift)的殿堂級論文。這不僅是對歷史的回顧,更是為了探尋一個問題的答案:當一項研究過于超前或離經叛道時,我們該如何識別它的價值?
LSTM:跨越 20 年的回響

- 論文:Long Short-Term Memory
- 作者:Sepp Hochreiter, Jürgen Schmidhuber
- 拒稿經歷:NIPS 1996 Rejected
- 如今引用量:139707
作為處理序列數據的里程碑,LSTM 在 1996 年被 NIPS 拒之門外。
當時正值神經網絡的寒冬(AI Winter),支持向量機(SVM)等統計方法大行其道。LSTM 引入的門控機制被認為參數過多、過于復雜且缺乏生物學合理性。
直到 2010 年代,隨著算力和大數據的爆發,LSTM 才在語音識別和機器翻譯中展現出統治級表現。這不僅是技術的勝利,更是對堅持者的獎賞。
SIFT:前深度學習時代的王者

- 論文:Object Recognition from Local Scale-Invariant Features
- 作者:David G. Lowe
- 拒稿經歷:ICCV 1997, CVPR 1998 Rejected
- 如今引用量:27389
David Lowe 提出的 SIFT(尺度不變特征變換)算法,曾統治 CV 領域長達 15 年。但在 1997 年和 1998 年,它先后被 ICCV 和 CVPR 拒稿。
拒稿理由很有時代特色。當時的學術界偏好基于幾何理論和嚴密數學推導的方法。SIFT 包含了一系列復雜的工程步驟(高斯差分金字塔、關鍵點定位等),被評審認為「過于繁瑣」、「不夠優雅」。
SIFT 最終以 Poster 形式發表。它證明了在處理現實世界圖像的旋轉、縮放和遮擋問題時,魯棒的工程設計往往比完美的數學理論更有生命力。
Dropout:被誤解的「有性繁殖」

- 論文:Dropout: A Simple Way to Prevent Neural Networks from Overfitting
- 作者:Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, Ruslan Salakhutdinov
- 拒稿經歷:NIPS 2012 Rejected
- 如今引用量:60231
如果說有一項技術定義了深度神經網絡的正則化方法,那非 Dropout 莫屬。然而,這項后來獲得 NeurIPS 時間檢驗獎(Test of Time Award) 的技術,在 2012 年投稿 NIPS 時卻遭遇了滑鐵盧。
在這篇論文中,Geoffrey Hinton 團隊提出的核心思想是在訓練中隨機「刪掉」一半神經元,而這在當時的評審看來過于激進且缺乏數理邏輯。Hinton 使用了生物學中「有性繁殖」的隱喻來解釋其有效性(基因不能依賴于特定的伙伴存在),這被一些嚴謹的評審人認為「不夠科學」,更像是一個工程 Hack。
盡管被拒,Dropout 迅速成為了 AlexNet 奪冠 ImageNet 的秘密武器。它證明了在過參數化的深度網絡中,通過引入隨機性來打破特征間的共適應(Co-adaptation),比復雜的貝葉斯正則化更為有效。
Word2Vec:被質疑的「工程奇跡」

- 論文:Efficient Estimation of Word Representations in Vector Space
- 作者:Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean
- 拒稿經歷:ICLR 2013 Strong Reject
- 如今引用量:50855
是的,這里又出現了 Jeff Dean 的名字。
Word2Vec 讓 King - Man + Woman = Queen 成為了 AI 領域最著名的算式,但在首屆 ICLR 會議上,它收到了「Strong Reject」。
其收到的評審意見極其尖銳,認為作者 Tomas Mikolov 等人「比較不科學」、「定義模糊」,且過度關注工程優化(如分層 Softmax、負采樣),缺乏對「為何簡單的線性映射能捕捉復雜語義」的理論解釋。
而作者直接開源了代碼。憑借極高的訓練效率,Word2Vec 迅速橫掃 NLP 社區,成為深度學習時代文本表示的基石。2023 年,NeurIPS 授予這篇曾被拒稿的論文「時間檢驗獎」,完成了歷史性的「平反」。

知識蒸餾:被低估的「暗知識」

- 論文:Distilling the Knowledge in a Neural Network
- 作者:Geoffrey Hinton, Oriol Vinyals, Jeff Dean
- 拒稿經歷:NIPS 2014 Rejected
- 如今引用量:28600
這正是前文提到的論文。
在當時,評審未能洞察到 Hinton 提出的 「暗知識」(Dark Knowledge) 這一概念的深遠意義:神經網絡學到的知識不僅存在于正確的預測中,更隱含在對錯誤類別的概率分布里(比如寶馬像垃圾車的概率遠高于像胡蘿卜的概率)。

https://www.ttic.edu/dl/dark14.pdf
這篇論文最終僅在 Workshop 發表。它開啟了模型壓縮作為獨立研究領域的序幕,更成為了如今大模型向小模型遷移能力的理論源頭。
YOLO:速度與精度的偏見

- 論文:You Only Look Once: Unified, Real-Time Object Detection
- 作者:Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi
- 拒稿經歷:ICCV 2015 Rejected
- 如今引用量:69782
YOLO(You Only Look Once)徹底改變了物體檢測的游戲規則,將檢測問題從分類問題轉化為回歸問題。
其被拒理由也很簡單。在 R-CNN 系列(雙階段檢測器)統治的時代,評審們習慣了用 mAP(平均精度均值)的微小提升來衡量價值。YOLO 雖然實現了驚人的 45 FPS 實時檢測,但其定位精度確實不如 R-CNN。評審因其「定位不準」而拒絕了它,卻忽視了數量級的速度提升所開啟的全新應用場景(如自動駕駛、實時監控)。
YOLO 系列如今已迭代至 v13,成為工業界最受歡迎的檢測框架。它提醒我們:在工程應用中,速度本身就是一種精度。
RoBERTa:被嘲諷為「炒冷飯」的調參藝術

- RoBERTa: A Robustly Optimized BERT Pretraining Approach
- 作者:Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov
- 拒稿經歷:ICLR 2020 Rejected
- 如今引用量:23479
如果說前面的論文是因為「太超前」被拒,那么 RoBERTa 的被拒則是因為「看起來太平庸」。
2019 年,BERT 橫空出世,風頭無兩。Facebook AI(現 Meta AI)的研究人員并沒有急于提出一種全新的架構,而是耐心地對 BERT 的預訓練過程進行了極其詳盡的復現和優化。他們發現,BERT 實際上被「訓練不足」了。通過調整超參數、增加數據量、去除 Next Sentence Prediction (NSP) 任務,RoBERTa 在所有基準測試上都超越了原始 BERT。
然而,這篇扎實的工作在投稿 ICLR 2020 時,卻遭到了評審的冷遇。評審意見非常直白且刺耳:「這篇論文的新穎性和技術貢獻相當有限」。在評審看來,只是發現「仔細調參很有用」和「更多數據很有用」,并不足以登上頂會的舞臺。
最終,RoBERTa 只能再次以被拒稿的身份流傳于世。但歷史證明了它的價值:RoBERTa 不僅成為了后續 NLP 研究的標準基線,更向業界揭示了一個樸素的真理 —— 在深度學習時代,清洗數據和優化訓練細節,往往比設計花哨的新架構更具實戰價值。
Mamba:挑戰 Transformer 霸權的「落選者」

- 論文:Mamba: Linear-Time Sequence Modeling with Selective State Spaces
- 作者:Albert Gu, Tri Dao
- 拒稿經歷:ICLR 2024 Rejected
- 如今引用量:6799
這可能是最近發生的最具戲劇性的「拒稿」事件。
在 Transformer 一統天下的今天,Mamba 的出現原本被視為一種顛覆。作者 Albert Gu 和 Tri Dao 提出了一種基于選擇性狀態空間模型(SSM)的架構,它在實現線性時間復雜度的同時,居然在語言建模任務上達到了媲美 Transformer 的性能。這意味著,我們終于有望打破 Attention 機制帶來的計算瓶頸,讓大模型在長序列推理上實現飛躍。
然而,這篇在 arXiv 上一經發布就引爆社區、被無數開發者復現和膜拜的神作,卻在 ICLR 2024 的評審中折戟沉沙。評審給出的分數并不高,理由集中在「與其前作 S4 相比增量不足」、「在某些特定任務上未能全面超越 Transformer」以及對實驗細節的質疑。
結果十分諷刺:當 ICLR 2024 公布接收結果時,AI 社區討論最熱烈的話題之一卻是「Mamba 竟然被拒了?」。就在被拒稿的短短幾個月后,基于 Mamba 的變體(如 Jamba、Vision Mamba)如雨后春筍般涌現,它實際上已經成為了 2024 年最具影響力的架構創新之一。Mamba 的遭遇再次提醒我們:當一種反共識的新范式出現時,舊范式的評價標準往往會失效。
科研評價體系的局限與反思
綜合上述案例,我們可以看到頂會評審系統在面對顛覆性創新時,往往存在某種系統性的認知滯后:
- 簡單性陷阱:評審傾向于將「數學復雜性」等同于「研究貢獻」。當 Dropout 或 Word2Vec 這樣簡單有效的方法出現時,評審的第一反應往往是質疑其理論深度。
- 范式慣性:評審往往是舊范式的維護者。當 YOLO 提出放棄 Region Proposal,或 Deep Image Prior 提出無需學習的先驗時,舊范式的標準(如精度、數據依賴)成為了阻礙新思想的壁壘。
- 嚴謹性的暴政:在深度學習這個實驗科學屬性極強的領域,過度要求理論證明(如 Adam 優化器初期面臨的收斂性質疑)可能會扼殺具有巨大實用價值的工程突破。
寫在最后
這些「被拒稿的杰作」向我們揭示了科學發展的非線性。它們證明了,同行評審雖然是科學共同體的基石,但它很難擺脫人類認知的局限性 —— 它善于識別錯誤,卻往往拙于鑒別天才。
事實上,這種遭遇并非 AI 領域的特產,甚至連物理學神壇上的名字也無法幸免。
1936 年,阿爾伯特?愛因斯坦(Albert Einstein)將一篇關于引力波的論文投給了權威期刊《Physical Review》。在此之前,愛因斯坦習慣了編輯直接錄用他的文章,但這一次,主編 John Tate 決定將其送審。
隨后,愛因斯坦收到了一份寫滿修改意見的匿名評審報告。這位驕傲的物理學家被徹底激怒了,他在給主編的回信中寫下了一段著名的話:「我把文章寄給你是為了發表,并沒有授權你在它付印前拿給專家看。我沒有通過以此來回答你們那匿名專家的錯誤評論的必要。」隨后,他撤回了論文。
雖然歷史極其幽默地反轉了 —— 那位匿名評審人其實指出了愛因斯坦論文中一個致命的數學錯誤(愛因斯坦后來在另一本期刊發表時悄悄修正了它),但這個故事依然不僅是一個關于「糾錯」的軼事,更是一個關于「摩擦」的隱喻。

阿爾伯特·愛因斯坦和內森·羅森關于引力波的解的修訂版論文最后發表在 Journal of the Franklin Institute 上
對于正在經歷 Peer Review 陣痛的研究者而言,Jeff Dean 的憤怒、YOLO 的委屈、甚至愛因斯坦的傲慢,都指向了同一個事實:真正決定一項研究生命力的,從來不是幾位評審在幾周內做出的決定,而是它是否真正解決了問題,以及它在時間長河中留下的回響。
如果你的 Paper 最近也被拒了,別灰心。你只是加入了一個包括圖靈獎得主和諾貝爾獎得主在內的「被拒稿俱樂部」而已。
保持韌性,真理有時只是遲到了一點。
你還知道哪些雖被拒稿但影響深遠的論文?























