離了大譜,21%的ICLR 2026審稿意見竟是AI生成的?官方回應來了
剛過去的這個周末,圍繞 ICLR 2026 審稿意見中很多被標記為完全由 AI 生成的說法,引發(fā)了社區(qū)熱烈討論。本屆會議將于 2026 年 4 月 23 日至 27 日在巴西里約熱內(nèi)盧舉行。
隨著首輪分數(shù)的公布,有第三方機構開始對 ICLR 2026 的審稿意見進行系統(tǒng)性統(tǒng)計,其中發(fā)現(xiàn)了大量 AI 審稿的現(xiàn)象。
在對 75800 篇論文的審稿意見統(tǒng)計中,竟然有 21% 完全由 AI 生成、4% 重度由 AI 編輯、9% 中度由 AI 編輯、22% 輕度由 AI 編輯,完全由人類(審稿人)撰寫的僅占 43%。

圖源:X@ Graham Neubig
并且還呈現(xiàn)出一些趨勢,包括 AI 審稿意見篇幅更長、AI 審稿更可能給出高分。

這項統(tǒng)計是由潘格拉姆實驗室(Pangram Labs)完成的,這是一家專門檢測 AI 生成(自動撰寫或由大語言模型生成文字內(nèi)容)的科技公司。此次,該機構對 ICLR 2026 投稿人和審稿人使用 AI 的情況進行了詳盡的分析。

圖源:X@ Pangram Labs 首席執(zhí)行官 Max Spero
為了處理每篇論文,Pangram Labs 下載了 PDF,并使用 Mistral-OCR 解析其中的文本內(nèi)容。這樣可以去除預印本中的行號,得到較為干凈的文本用于分析。他們針對所有文檔運行了 Pangram 的生產(chǎn)模型,其在底層使用滑動窗口算法來估計 AI 使用的程度。
雖然許多文檔檢測到 AI 使用程度在 0% 到 10% 之間,但這些大多是因為論文中包含了作為研究內(nèi)容的 LLM 輸出示例,而不是在論文主體寫作中使用了 AI。因此這一類全部被歸為「完全由人類撰寫」。

投稿論文的 AI 使用程度以及平均得分劃分。
對于投稿論文,最終發(fā)現(xiàn)有 39% 以某種方式使用了 AI 作為寫作助手。但有趣的是,論文中的 AI 使用程度與較低的評分呈相關性。其中,199 篇被 Pangram Labs 標記為「90–100%」AI 內(nèi)容的投稿,它們的平均得分竟然只有 2.9 分。

對于審稿意見,由于評審文本很短,因此無法依賴滑動窗口來區(qū)分「AI 輔助」與「AI 生成」。因此,Pangram Labs 使用了 EditLens—— 一個全新模型,旨在量化一段文本中 AI 輔助的程度。

審稿意見中 AI 使用程度的預測、評分以及置信度。
結果發(fā)現(xiàn) 21% 的審稿意見被 EditLens 標記為完全由 AI 生成。并且,完全由 AI 生成的評審平均得分高出 0.3 分,長度也比完全由人類撰寫的評審長了 26%!

完全由 AI 生成的審稿意見示例如下:

對于有人詢問的 AI 評審的「置信度」問題,Pangram Labs 發(fā)現(xiàn):完全由 AI 生成的評審比人類或 AI 輔助撰寫的評審更傾向于給出置信度為 3 的評價。不過,這個差異幅度較小,因此仍需謹慎解讀。

另外,為了驗證所用模型的準確性(假陽性率),Pangram Labs 使用 ICLR 2022 的審稿意見運行了 EditLens,結果發(fā)現(xiàn):輕度 AI 編輯的假陽性率為千分之一,中度 AI 編輯的假陽性率為五千分之一,重度 AI 編輯的假陽性率為萬分之一,而完全由 AI 生成的未出現(xiàn)任何假陽性。

評論區(qū)有審稿人現(xiàn)身說法,表示自己評審的一篇論文在收到另外兩個低分評審時被打了回去,而這兩個評審正好被標記為完全由 AI 生成。

官方回應來了
就在今天早上,ICLR 2026 發(fā)布了一則官方回應,表示「我們已經(jīng)注意到低質(zhì)量的評審以及由大語言模型生成的評審,目前正在討論應采取的適當措施。就目前而言,收到質(zhì)量非常差或由 LLM 生成評審的作者,應將其標注并反饋給所在領域主席(AC)。我們感謝社區(qū)在報告這些問題上的努力!」

對于使用 AI 的審稿人,有人給出了處理建議:移除不良評審,并自動使這些不良審稿人被認定為「未履行評審職責」,隨后自動拒絕他們提交的論文。

評論區(qū)有沒有向本屆 ICLR 投稿的作者,可以參考 Pangram Labs 的統(tǒng)計結果,查看自己論文的 AI 審稿情況。
統(tǒng)計鏈接:https://iclr.pangram.com/submissions



































