DeepMind发布AI编程系统AlphaCode,可达到竞赛级编程水平

2022年12月09日22:30:17 科技 1878

人工智能AI)的飞速发展有目共睹,如今,AI 在下围棋、玩星际争霸等游戏、生成艺术作品、甚至是优化微芯片的架构等方面都达到或超过了人类的水平。接下来,AI 会在编程方面也超过人类吗?


事实上,自动化编程已经不是一个新鲜话题。今天已经有一些功能强大的大规模语言模型,在网页设计等简单的编程任务中,展现出了在代码生成方面的潜力。然而,要想让 AI 通过编程来解决那些较为复杂且隐晦的问题,仍有很长的路要走。


而最近来自DeepMind 开发的名为 AlphaCode 的系统,可通过基于转换器的语言模型来生成代码,并且针对那些需要深度推理的编程问题,能够创建新颖的解决方案。在 10 场有 5000 多名人类参与者的竞赛级别的编程比赛中,AlphaCode 排名位于前 54.3%。也就是说,其已达到了平均人类水平。


近日,相关论文以《可实现完成竞赛级别的代码生成任务的 AlphaCode》(Competition-level code generation with AlphaCode)为题发表在 Science,并成为当期封面论文[1]。



DeepMind发布AI编程系统AlphaCode,可达到竞赛级编程水平 - 天天要闻

图 | AlphaCode 相关论文(来源:Science)


让 AI 实现编程有着许多挑战,尤其是即使对于同一个问题,可提供的解决方案也可能看起来截然不同,而如何让 AI 对部分正确或不正确的程序进行判断,是一项艰巨的挑战。


此前已经有一些可完成简单编程任务的 AI 系统,例如 Codex 可以完成简短的叙述总结等任务。但是,当真正面对复杂的编程问题,这些 AI 系统便显得捉襟见肘。尤其是如何让 AI 编程,使用 C++ 或 Python 等通用编程语言来生成整个程序,来解决诸如较长的自然语言描述任务等,在这方面一直进展不多。


为解决这一问题,DeepMind 为 AlphaCode 设置了以下三个关键组件,使其得以在代码生成任务中实现可以与人类竞争的水平:一是选用广泛且简洁的竞争性编程数据集,以便进行训练和评估;二是采用大型、且具备高效采样能力的架构;三是通过大规模模型抽样来缩小探索空间,并根据程序行为对一小组提交内容进行过滤。


AlphaCode 训练时所选择的数据集,是竞争性的编程数据集。该数据集也正是这些复杂编程问题的代表集,AI 不仅需要理解复杂的自然语言描述,对以前未见过的问题进行推理,还要掌握范围广泛的算法和数据结构,并能精确地实施跨越数百行的解决方案。此外,由于每年都有全球数十万编程者广泛参与,因此竞争性编程问题集可以更好地确保针对问题找到最佳解决捷径,从而提供更好的判别基准。



DeepMind发布AI编程系统AlphaCode,可达到竞赛级编程水平 - 天天要闻

图 | AlphaCode 系统的概述(来源:arXiv)


如上图所示,是 AlphaCode 系统的概述,简单来说系统工作主要分为以下四个过程:


首先,系统会在有着标准语言建模目标的 GitHub 代码集上,对基于转换器的语言模型进行预训练。这样模型便可实现合理地将问题在人类的编码空间定位,从而大大减少了问题搜索范围。


然后,系统以 GOLD 作为训练目标,在竞争性编程数据集上进行模型的微调。这可以进一步将搜索空间缩小,并可以通过预训练来补偿少量的竞争性编程数据。


接下来,系统会为每个问题生成大量样本。


最后,系统对这些样本进行过滤,并获得数量不超过 10 个的一小组候选样本提交。然后通过使用示例测试和聚类等,对所选样本进行隐藏的测试评估,然后根据程序的反馈来选择样本。


可以看出 AlphaCode 中有个独特的设置,就是在大规模采样后进行过滤,这大大提高了问题解决率,能够促进更快捷、高效的采样。


为了对 AlphaCode 的性能进行评估,研究人员将其在著名的编程竞赛 Codeforces 和 CodeContests 平台上进行了评估。



DeepMind发布AI编程系统AlphaCode,可达到竞赛级编程水平 - 天天要闻

图 | AlphaCode 系统在 10 次 Codeforces 中的排名(越低越好)(来源:arXiv)


经过评估,AlphaCode 系统在 10 次 Codeforces 竞赛中,平均排名可达到前 54.3%,也就是已经与平均人类编程者的水平。


概括来说,此次人工智能辅助编码平台的开发,会显着提高程序员的生产力。同期Science 评论中写道:“它代表了机器学习模型向前迈出的实质性一步,该模型可以通过合成计算机程序来解决一些挑战性问题。”另据悉,论文作者告诉媒体,虽然 AlphaCode 是从 0% 到 30% 的重要一步,但仍有很多工作要做,下一步其将继续完善 AlphaCode。


参考资料

1.Yujia Li et al. Science 378, 6624,1092-1097(2022).DOI: 10.1126/science.abq1158

科技分类资讯推荐

WiFi 总掉线?搞清路由器连接上限是关键! - 天天要闻

WiFi 总掉线?搞清路由器连接上限是关键!

家里 WiFi 多台设备一同时连接,网络就崩溃?很可能是路由器 “超负荷” 了!今天我们一起来了解一下路由器的连接上限:1.硬件配置:路由器的 CPU、内存直接决定 “带机量”。
山东创新建设的跨境电商特色产业带工作站,是做什么的? - 天天要闻

山东创新建设的跨境电商特色产业带工作站,是做什么的?

山东创新建设跨境电商特色产业带工作站,推进跨境电商与特色产业带融合发展 帮助特色产业链接全球市场 山东建成了95个跨境电商特色产业带工作站。它们依托县(市、区)商务部门、产业园区或龙头企业组建,作为服务枢纽和决策支点,扎根县域经济腹地,通过整合资源、制定规划、搭建载体、培育主体等方式,让“跨境电商+产业...
以种适地、以虫治虫……山东科技赋能“三夏”绘就好“丰”景 - 天天要闻

以种适地、以虫治虫……山东科技赋能“三夏”绘就好“丰”景

眼下,我国小麦大规模机收基本结束。近日,在山东滨州,盐碱地试验田的小麦迎来丰收,收割机忙着在田间作业,研究人员则抓紧测产。 这是山东滨州国家农业科技园的麦田,联合收割机正在田间穿梭。饱满的麦粒倾斜而下,经过丈量、机收脱粒称重、水分测定、杂质率测定等环节,新品种的亩产达到了600多公斤,属于轻中度盐碱地的...
爱普生发布P9380/P7380大幅面打印机,赋能印刷打样与高端影像行业 - 天天要闻

爱普生发布P9380/P7380大幅面打印机,赋能印刷打样与高端影像行业

近日,爱普生推出全新44英寸、24英寸大幅面彩色喷墨打印机Epson SureColor P9380/P7380,专为印刷打样和高端影像行业设计。这款新品进一步丰富了爱普生大幅面影像产品线,以高精度、广色域和色彩稳定等优势,满足专业高端影像输出的多样化需求。Epson SureColor P9380/P7380搭载了爱普生新一代2.64英寸的PRECISIO
企业级与家用WiFi的深度对比:如何根据需求选择最适合的无线网络方案 - 天天要闻

企业级与家用WiFi的深度对比:如何根据需求选择最适合的无线网络方案

在数字化生活全面渗透的今天,稳定高效的无线网络已经成为现代人工作和生活的必需品。无论是家庭中的影音娱乐、远程办公,还是企业环境中的业务运营、客户服务,WiFi网络的质量都直接影响着使用体验。然而面对市场上琳琅满目的路由器产品,很多消费者都会产生一个根本性的困惑:究竟应该选择家用WiFi还是企业级WiFi?这两者...
【产业互联网周报】  OpenAI开始提供ChatGPT企业版折扣;国家互联网信息办公室:中国已有433款大模型完成备案;消息称微软计划裁员数千人,主要集中在销售部门 - 天天要闻

【产业互联网周报】 OpenAI开始提供ChatGPT企业版折扣;国家互联网信息办公室:中国已有433款大模型完成备案;消息称微软计划裁员数千人,主要集中在销售部门

【产业互联网周报是由钛媒体TMTpost发布的特色产品,将整合本周最重要的企业级服务、云计算、大数据领域的前沿趋势、重磅政策及行研报告。】国内资讯华为自研仓颉编程语言将于7月30日开源在华为开发者大会HDC2025期间,华为宣布仓颉编程语言将于7月30日开源。仓颉编程语言是华为研发的一款面向全场景应用开发的编程语言,支...