DeepMind發布AI編程系統AlphaCode,可達到競賽級編程水平

2022年12月09日22:30:17 科技 1878

人工智能AI)的飛速發展有目共睹,如今,AI 在下圍棋、玩星際爭霸等遊戲、生成藝術作品、甚至是優化微芯片的架構等方面都達到或超過了人類的水平。接下來,AI 會在編程方面也超過人類嗎?


事實上,自動化編程已經不是一個新鮮話題。今天已經有一些功能強大的大規模語言模型,在網頁設計等簡單的編程任務中,展現出了在代碼生成方面的潛力。然而,要想讓 AI 通過編程來解決那些較為複雜且隱晦的問題,仍有很長的路要走。


而最近來自DeepMind 開發的名為 AlphaCode 的系統,可通過基於轉換器的語言模型來生成代碼,並且針對那些需要深度推理的編程問題,能夠創建新穎的解決方案。在 10 場有 5000 多名人類參與者的競賽級別的編程比賽中,AlphaCode 排名位於前 54.3%。也就是說,其已達到了平均人類水平。


近日,相關論文以《可實現完成競賽級別的代碼生成任務的 AlphaCode》(Competition-level code generation with AlphaCode)為題發表在 Science,並成為當期封面論文[1]。



DeepMind發布AI編程系統AlphaCode,可達到競賽級編程水平 - 天天要聞

圖 | AlphaCode 相關論文(來源:Science)


讓 AI 實現編程有着許多挑戰,尤其是即使對於同一個問題,可提供的解決方案也可能看起來截然不同,而如何讓 AI 對部分正確或不正確的程序進行判斷,是一項艱巨的挑戰。


此前已經有一些可完成簡單編程任務的 AI 系統,例如 Codex 可以完成簡短的敘述總結等任務。但是,當真正面對複雜的編程問題,這些 AI 系統便顯得捉襟見肘。尤其是如何讓 AI 編程,使用 C++ 或 Python 等通用編程語言來生成整個程序,來解決諸如較長的自然語言描述任務等,在這方面一直進展不多。


為解決這一問題,DeepMind 為 AlphaCode 設置了以下三個關鍵組件,使其得以在代碼生成任務中實現可以與人類競爭的水平:一是選用廣泛且簡潔的競爭性編程數據集,以便進行訓練和評估;二是採用大型、且具備高效採樣能力的架構;三是通過大規模模型抽樣來縮小探索空間,並根據程序行為對一小組提交內容進行過濾。


AlphaCode 訓練時所選擇的數據集,是競爭性的編程數據集。該數據集也正是這些複雜編程問題的代表集,AI 不僅需要理解複雜的自然語言描述,對以前未見過的問題進行推理,還要掌握範圍廣泛的算法和數據結構,並能精確地實施跨越數百行的解決方案。此外,由於每年都有全球數十萬編程者廣泛參與,因此競爭性編程問題集可以更好地確保針對問題找到最佳解決捷徑,從而提供更好的判別基準。



DeepMind發布AI編程系統AlphaCode,可達到競賽級編程水平 - 天天要聞

圖 | AlphaCode 系統的概述(來源:arXiv)


如上圖所示,是 AlphaCode 系統的概述,簡單來說系統工作主要分為以下四個過程:


首先,系統會在有着標準語言建模目標的 GitHub 代碼集上,對基於轉換器的語言模型進行預訓練。這樣模型便可實現合理地將問題在人類的編碼空間定位,從而大大減少了問題搜索範圍。


然後,系統以 GOLD 作為訓練目標,在競爭性編程數據集上進行模型的微調。這可以進一步將搜索空間縮小,並可以通過預訓練來補償少量的競爭性編程數據。


接下來,系統會為每個問題生成大量樣本。


最後,系統對這些樣本進行過濾,並獲得數量不超過 10 個的一小組候選樣本提交。然後通過使用示例測試和聚類等,對所選樣本進行隱藏的測試評估,然後根據程序的反饋來選擇樣本。


可以看出 AlphaCode 中有個獨特的設置,就是在大規模採樣後進行過濾,這大大提高了問題解決率,能夠促進更快捷、高效的採樣。


為了對 AlphaCode 的性能進行評估,研究人員將其在著名的編程競賽 Codeforces 和 CodeContests 平台上進行了評估。



DeepMind發布AI編程系統AlphaCode,可達到競賽級編程水平 - 天天要聞

圖 | AlphaCode 系統在 10 次 Codeforces 中的排名(越低越好)(來源:arXiv)


經過評估,AlphaCode 系統在 10 次 Codeforces 競賽中,平均排名可達到前 54.3%,也就是已經與平均人類編程者的水平。


概括來說,此次人工智能輔助編碼平台的開發,會顯着提高程序員的生產力。同期Science 評論中寫道:“它代表了機器學習模型向前邁出的實質性一步,該模型可以通過合成計算機程序來解決一些挑戰性問題。”另據悉,論文作者告訴媒體,雖然 AlphaCode 是從 0% 到 30% 的重要一步,但仍有很多工作要做,下一步其將繼續完善 AlphaCode。


參考資料

1.Yujia Li et al. Science 378, 6624,1092-1097(2022).DOI: 10.1126/science.abq1158

科技分類資訊推薦

WiFi 總掉線?搞清路由器連接上限是關鍵! - 天天要聞

WiFi 總掉線?搞清路由器連接上限是關鍵!

家裡 WiFi 多台設備一同時連接,網絡就崩潰?很可能是路由器 “超負荷” 了!今天我們一起來了解一下路由器的連接上限:1.硬件配置:路由器的 CPU、內存直接決定 “帶機量”。
山東創新建設的跨境電商特色產業帶工作站,是做什麼的? - 天天要聞

山東創新建設的跨境電商特色產業帶工作站,是做什麼的?

山東創新建設跨境電商特色產業帶工作站,推進跨境電商與特色產業帶融合發展 幫助特色產業鏈接全球市場 山東建成了95個跨境電商特色產業帶工作站。它們依託縣(市、區)商務部門、產業園區或龍頭企業組建,作為服務樞紐和決策支點,紮根縣域經濟腹地,通過整合資源、制定規劃、搭建載體、培育主體等方式,讓“跨境電商+產業...
以種適地、以蟲治蟲……山東科技賦能“三夏”繪就好“豐”景 - 天天要聞

以種適地、以蟲治蟲……山東科技賦能“三夏”繪就好“豐”景

眼下,我國小麥大規模機收基本結束。近日,在山東濱州,鹽鹼地試驗田的小麥迎來豐收,收割機忙着在田間作業,研究人員則抓緊測產。 這是山東濱州國家農業科技園的麥田,聯合收割機正在田間穿梭。飽滿的麥粒傾斜而下,經過丈量、機收脫粒稱重、水分測定、雜質率測定等環節,新品種的畝產達到了600多公斤,屬於輕中度鹽鹼地的...
愛普生髮布P9380/P7380大幅面打印機,賦能印刷打樣與高端影像行業 - 天天要聞

愛普生髮布P9380/P7380大幅面打印機,賦能印刷打樣與高端影像行業

近日,愛普生推出全新44英寸、24英寸大幅面彩色噴墨打印機Epson SureColor P9380/P7380,專為印刷打樣和高端影像行業設計。這款新品進一步豐富了愛普生大幅面影像產品線,以高精度、廣色域和色彩穩定等優勢,滿足專業高端影像輸出的多樣化需求。Epson SureColor P9380/P7380搭載了愛普生新一代2.64英寸的PRECISIO
企業級與家用WiFi的深度對比:如何根據需求選擇最適合的無線網絡方案 - 天天要聞

企業級與家用WiFi的深度對比:如何根據需求選擇最適合的無線網絡方案

在數字化生活全面滲透的今天,穩定高效的無線網絡已經成為現代人工作和生活的必需品。無論是家庭中的影音娛樂、遠程辦公,還是企業環境中的業務運營、客戶服務,WiFi網絡的質量都直接影響着使用體驗。然而面對市場上琳琅滿目的路由器產品,很多消費者都會產生一個根本性的困惑:究竟應該選擇家用WiFi還是企業級WiFi?這兩者...
【產業互聯網周報】  OpenAI開始提供ChatGPT企業版折扣;國家互聯網信息辦公室:中國已有433款大模型完成備案;消息稱微軟計劃裁員數千人,主要集中在銷售部門 - 天天要聞

【產業互聯網周報】 OpenAI開始提供ChatGPT企業版折扣;國家互聯網信息辦公室:中國已有433款大模型完成備案;消息稱微軟計劃裁員數千人,主要集中在銷售部門

【產業互聯網周報是由鈦媒體TMTpost發布的特色產品,將整合本周最重要的企業級服務、雲計算、大數據領域的前沿趨勢、重磅政策及行研報告。】國內資訊華為自研倉頡編程語言將於7月30日開源在華為開發者大會HDC2025期間,華為宣布倉頡編程語言將於7月30日開源。倉頡編程語言是華為研發的一款面向全場景應用開發的編程語言,支...