作者 | 蔣寶尚
編輯 | 陳彩嫻
11月11日凌晨,ICLR 2021初審結果在官網公布,目前正式進入Rebuttal階段。據Criteo AI Lab機器學習研究科學家Sergey Ivanov統計分析得到結論:如果論文接收率為20%,那麼論文平均分數要達到6分以上才能被接收。
另外一個結論是:所有論文的平均分數為5.16(中位數為5.25)。這意味着,低於平均分的論文作者,要好好準備rebuttal的材料了。
還有一類作者已經得到了明確的答覆。在reddit上一位網友說,他的論文有一個得分為3,原因是:用了商業軟件,增加了強化學習進入的門檻。
1
因提高AI門檻被拒?
據OpenReview官網介紹,該論文標號為2137,主要的貢獻是一個數據集,可以用於深度數據驅動的強化學習。
具體而言,它為離線的強化學習設計了一個基準,設計根據是現實數據集的關鍵屬性。另外,作者還發佈了基準任務和數據集,對現有算法和評估協議進行了全面評估,並提供了一個開源代碼庫。
目前,這篇文章有4個評審一名領域主席進行打分,得到了兩個6分,一個3分,一個2分。其中,2分和3分代表着「強烈的拒絕」。
正如前面所述,有評審給出3分的理由是:使用了MuJoCo,這是一款商業軟件包。評審說:「六個任務(Maze2D,AntMaze,Gym-mujoco)中的一半嚴重依賴於MuJoCo模擬器,該模擬器是一種商業軟件,即使在學術上也不免費。另外,個人MuJoCo許可的費用為每年500美元。因此,我擔心大多數究人員無法訪問MuJoCo。」
另外,評審表示:「鑒於MuJoCo潛在的高影響力,本文確實將極大地促進MuJoCo的使用,使RL更具有特權(意思是,使用有門檻),如果可訪問性(易得性)問題得到解決,例如使用PyBullet作為引擎,我很樂意提高我的分數。
對於這一評審意見,一位名為Rasool Fakoor的讀者持反對意見:1、同意評審關於「許可」的說法,但這不是拒絕該論文的理由,評審忽略了該論文的真正貢獻。2、評審要求用PyBullet構建一個基準,但這可能需要花費幾個月的時間。3、這種拒絕理由,只會打擊研究人員投資建建立這類基準的信心,顯然給領域帶來負面影響。
經過討論,原來給6分的評委也轉變了態度。他說:我在撰寫評語的時候,沒有意識到此基準測試需要商業軟件(Mujoco),我完全同意「這對於標準化基準測試是非常不利」的觀點。
除此之外,給出2分的評審沒有聚焦於「商業軟件」的話題,他的理由是:雖然作者提供的數據集對離線強化學習研究人員來說非常有用,但在新的想法方面卻沒有任何進展。總體而言,這項工作的主要貢獻是:在某個地方收集線下數據,減少了其他研究人員這樣做所需的時間,因此,除了對數據進行標註外,作者似乎並沒有做任何重要的工作。所以,我不認為這項工作應該在「高端會議」上發表。
最後,領域主席也發表了看法:許可證(易得性)問題是可以理解的,但不要拿這點大作文章,最重要的是考慮這篇文章最新的貢獻在哪。正如第一位評審(給出2分的)所給的評價那樣,我們會考慮所有因素,從而做出決定。
換句話說,根據2分評委的建議,這篇文章大概是涼了。
而在reddit上,大多數網友都是都是持同情的態度:把科學領域的可重複性等同於任何人的可重複性是一種愚蠢!
2
「吐槽大會」
本次ICLR 2021一共有3013篇論文提交,其中有856篇論文是來自NeurIPS 2020 Rejection 之後重新提交的。
回憶去年ICLR 2020的審稿,可謂是吐槽與爭議不斷。
比如,一篇ICLR 2020的論文在拿到滿分評價後,其他的兩位審稿人又連續給了2個1分評價,還有的論文三位審稿人均給出了6-6-6的高分,但區域主席卻做出了不適用自己論文的評語。
另外在去年的時候,南京大學周志華教授曾曝出:ICLR 2020竟然有47%的審稿人從來沒有在本領域發表過論文。
後來周教授又指出:開放評審進當參與者都是相當level的專家才有效,否則更容易被誤導。學術判斷不能「講平等」,一般從業者與高水平專家的見識和判斷力不可同日而語,頂會能「頂」正是因為有高水平專家把關,但現在已不可能了......