DeepMind發佈AI編程系統AlphaCode,可達到競賽級編程水平

2022年12月09日22:30:17 科技 1878

人工智能AI)的飛速發展有目共睹,如今,AI 在下圍棋、玩星際爭霸等遊戲、生成藝術作品、甚至是優化微芯片的架構等方面都達到或超過了人類的水平。接下來,AI 會在編程方面也超過人類嗎?


事實上,自動化編程已經不是一個新鮮話題。今天已經有一些功能強大的大規模語言模型,在網頁設計等簡單的編程任務中,展現出了在代碼生成方面的潛力。然而,要想讓 AI 通過編程來解決那些較為複雜且隱晦的問題,仍有很長的路要走。


而最近來自DeepMind 開發的名為 AlphaCode 的系統,可通過基於轉換器的語言模型來生成代碼,並且針對那些需要深度推理的編程問題,能夠創建新穎的解決方案。在 10 場有 5000 多名人類參與者的競賽級別的編程比賽中,AlphaCode 排名位於前 54.3%。也就是說,其已達到了平均人類水平。


近日,相關論文以《可實現完成競賽級別的代碼生成任務的 AlphaCode》(Competition-level code generation with AlphaCode)為題發表在 Science,並成為當期封面論文[1]。



DeepMind發佈AI編程系統AlphaCode,可達到競賽級編程水平 - 天天要聞

圖 | AlphaCode 相關論文(來源:Science)


讓 AI 實現編程有着許多挑戰,尤其是即使對於同一個問題,可提供的解決方案也可能看起來截然不同,而如何讓 AI 對部分正確或不正確的程序進行判斷,是一項艱巨的挑戰。


此前已經有一些可完成簡單編程任務的 AI 系統,例如 Codex 可以完成簡短的敘述總結等任務。但是,當真正面對複雜的編程問題,這些 AI 系統便顯得捉襟見肘。尤其是如何讓 AI 編程,使用 C++ 或 Python 等通用編程語言來生成整個程序,來解決諸如較長的自然語言描述任務等,在這方面一直進展不多。


為解決這一問題,DeepMind 為 AlphaCode 設置了以下三個關鍵組件,使其得以在代碼生成任務中實現可以與人類競爭的水平:一是選用廣泛且簡潔的競爭性編程數據集,以便進行訓練和評估;二是採用大型、且具備高效採樣能力的架構;三是通過大規模模型抽樣來縮小探索空間,並根據程序行為對一小組提交內容進行過濾。


AlphaCode 訓練時所選擇的數據集,是競爭性的編程數據集。該數據集也正是這些複雜編程問題的代表集,AI 不僅需要理解複雜的自然語言描述,對以前未見過的問題進行推理,還要掌握範圍廣泛的算法和數據結構,並能精確地實施跨越數百行的解決方案。此外,由於每年都有全球數十萬編程者廣泛參與,因此競爭性編程問題集可以更好地確保針對問題找到最佳解決捷徑,從而提供更好的判別基準。



DeepMind發佈AI編程系統AlphaCode,可達到競賽級編程水平 - 天天要聞

圖 | AlphaCode 系統的概述(來源:arXiv)


如上圖所示,是 AlphaCode 系統的概述,簡單來說系統工作主要分為以下四個過程:


首先,系統會在有着標準語言建模目標的 GitHub 代碼集上,對基於轉換器的語言模型進行預訓練。這樣模型便可實現合理地將問題在人類的編碼空間定位,從而大大減少了問題搜索範圍。


然後,系統以 GOLD 作為訓練目標,在競爭性編程數據集上進行模型的微調。這可以進一步將搜索空間縮小,並可以通過預訓練來補償少量的競爭性編程數據。


接下來,系統會為每個問題生成大量樣本。


最後,系統對這些樣本進行過濾,並獲得數量不超過 10 個的一小組候選樣本提交。然後通過使用示例測試和聚類等,對所選樣本進行隱藏的測試評估,然後根據程序的反饋來選擇樣本。


可以看出 AlphaCode 中有個獨特的設置,就是在大規模採樣後進行過濾,這大大提高了問題解決率,能夠促進更快捷、高效的採樣。


為了對 AlphaCode 的性能進行評估,研究人員將其在著名的編程競賽 Codeforces 和 CodeContests 平台上進行了評估。



DeepMind發佈AI編程系統AlphaCode,可達到競賽級編程水平 - 天天要聞

圖 | AlphaCode 系統在 10 次 Codeforces 中的排名(越低越好)(來源:arXiv)


經過評估,AlphaCode 系統在 10 次 Codeforces 競賽中,平均排名可達到前 54.3%,也就是已經與平均人類編程者的水平。


概括來說,此次人工智能輔助編碼平台的開發,會顯着提高程序員的生產力。同期Science 評論中寫道:「它代表了機器學習模型向前邁出的實質性一步,該模型可以通過合成計算機程序來解決一些挑戰性問題。」另據悉,論文作者告訴媒體,雖然 AlphaCode 是從 0% 到 30% 的重要一步,但仍有很多工作要做,下一步其將繼續完善 AlphaCode。


參考資料

1.Yujia Li et al. Science 378, 6624,1092-1097(2022).DOI: 10.1126/science.abq1158

科技分類資訊推薦

全球首款雙形態人形機械人正式發佈! - 天天要聞

全球首款雙形態人形機械人正式發佈!

前言首次定義具身人形機械人商用範式。近日消息,全球首款雙形態人形機械人——數字華夏IP系列開山之作星行俠P01正式發佈。顏值高、智商高、易使用首次定義具身人形機械人商用範式據悉,數字華夏推出IP系列的初衷,是打造屬於這個時代的「商用機械人」。「外形潮流時尚、智商情商兼具、使用維護極簡,首次定義具身人形機...
三星One UI 8測試版或下月推出 給後續修復留出時間 - 天天要聞

三星One UI 8測試版或下月推出 給後續修復留出時間

【CNMO科技消息】三星已經開始內部測試全新的One UI 8系統,同時也在包括Galaxy Z Flip6在內的多款設備上進行適配測試。按照目前的進度來看,這次更新的到來時間可能比很多人預想得更早,有可能會在今年7月或8月之前就正式推出。 和以往一樣,三星應該會先上線One UI 8的測試版計劃,給部分用戶提前嘗鮮的機會。根據最新消...
蘋果引入Anthropic開發的Claude AI系統 欲放棄自研? - 天天要聞

蘋果引入Anthropic開發的Claude AI系統 欲放棄自研?

【CNMO科技消息】蘋果最近開始引入Anthropic公司開發的Claude AI系統,用於協助其工程師更高效地編寫代碼。 長期以來,蘋果一直堅持自主研發核心技術,很少依賴外部力量。但這一次,它選擇與Anthropic合作,將後者的Claude Sonnet模型集成到自家開發工具Xcode的升級版本中。據彭博社報道,這項合作已經開始在內部落地,主要...
6 大升級!Apple Watch SE 3 入門款到底有多能打? - 天天要聞

6 大升級!Apple Watch SE 3 入門款到底有多能打?

文 | 路邊同學還有 4 個月,蘋果將推出新一代入門級智能手錶 —— Apple Watch SE 3。這款原計劃在 2024 年發佈的機型,因市場節奏調整延後至今,卻也讓外界對其升級細節有了更充分的爆料空間。
亞馬遜近千項產品均漲價三成 外國人凌晨排隊搶購中國品牌 - 天天要聞

亞馬遜近千項產品均漲價三成 外國人凌晨排隊搶購中國品牌

英國泡泡瑪特的排隊人數有幾百人。 圖源:小紅書網友 「本來購物車的東西加起來有300美元,現在變成400多美元了。」「Shein平台上,女同事一直在看的一款外套,原價23美元,現在漲價到了53美元」。近日,Temu、Shein均發佈公告稱,由於「近期全球貿易規則及關稅變動」導致運營成本上升,從4月25日開始實施價格調整。但另一...
全力服務科技創新,上海各家金融機構表態了 - 天天要聞

全力服務科技創新,上海各家金融機構表態了

4月29日,習近平總書記在上海考察時強調,上海承擔著建設國際科技創新中心的歷史使命,要搶抓機遇,以服務國家戰略為牽引,不斷增強科技創新策源功能和高端產業引領功能,加快建成具有全球影響力的科技創新高地。習近平總書記重要講話精神在上海金融界引發強烈反響,令正在奮力做好科技金融大文章的上海金融人倍感振奮、深...
突發,華為nova14這次要降維打擊! - 天天要聞

突發,華為nova14這次要降維打擊!

時間已經來到5月份了,距離上一代華為nova13系列的發佈,已經過去7個月了。按照目前華為新機的發佈排期,也輪到華為nova新機的發佈了。而且,這次華為nova14系列的硬件配置很高,據稱將要降維打擊。根據渠道消息顯示,華為已經正在準備這個
年薪3.63億元!黃仁勛,基本工資10年來首漲 - 天天要聞

年薪3.63億元!黃仁勛,基本工資10年來首漲

據新浪財經報道,根據英偉達於當地時間5月1日遞交給美國證交所(SEC)的一份新文件顯示,黃仁勛2025財年的基本年薪漲至150萬美元,較2024財年增長了49%。他的可變現金也比2024財年增加了100萬美元,增幅為50%。
哪吒汽車App被曝斷網!官網已無法訪問 - 天天要聞

哪吒汽車App被曝斷網!官網已無法訪問

5月4日,哪吒汽車再次被曝出App斷網的問題,相關話題也迅速登上抖音、微博等平台熱搜。據多位哪吒車主在社交平台發佈的消息,從5月2日開始,不少車主都遇到了哪吒汽車App斷網、App控車無法使用等問題。