9月28日,浪潮人工智能研究院在京发布人工智能巨量模型“源1.0”,这是目前为止全球最大的人工智能巨量模型。据悉,它的参数量达2457亿,训练采用的中文数据集达5000GB,相比于美国的GPT-3模型1750亿参数量和570GB训练数据集,源1.0参数规模领先40%,训练数据集规模领先近10倍,荣膺世界第一。
算法、数据、算力三大层面均实现超大规模
据了解,“源1.0”不管在算法、数据还是算力上,都做到了超大规模和巨量化。
首先,算法方面,相比于1750亿参数的英文语言模型GTP-3,“源1.0”共包含了2457亿个参数,是前者参数量的1.404倍。而且最重要的是,“源1.0”和GPT-3一样都是单体模型,而不是由很多小模型堆砌起来。就单单在这一方面,“源1.0”就可以荣登全球最大的自然语言理解模型之位。
其次,在数据方面,“源1.0”几乎是把近5年整个中文互联网的浩瀚内容全部读完。通过自研的文本分类模型,获得了5TB高质量中文数据集,在训练数据集规模上领先近10倍。“源1.0”还阅读了大约2000个亿词。这是什么概念呢?假如人一个月能读十本书,一年读一百本书,读50年,一生也就读5000本书,一本书假如20万字,加起来也只有10亿字,需要一万年才能读完2000亿词。在如此大规模的数据加持下,“源1.0”的数据集也自然成为了全球最大的高质量中文数据集。
此外,算力方面,“源1.0”共消耗约4095PD(PetaFlop/s-day)。相对于GPT-3消耗3640PD计算量得到1750亿参数,计算效率大幅提升。若让“源1.0”一天24小时不间断“阅读”的话,只需要16天就可以看完近五年中文互联网的几乎全部内容。
全球最大跻身全球最强 刷新多项世界纪录
CLUE作为目前公认最权威的中文语言模型评估基准,“源1.0”占据其零样本学习(zero-shot)和小样本学习(few-shot)2项榜单的榜首,在零样本学习榜单中,“源1.0”超越业界最佳成绩18.3%,在文献分类、新闻分类,商品分类、原生中文推理、成语阅读理解填空、名词代词关系6项任务中获得冠军;在小样本学习的文献分类、商品分类、文献摘要识别、名词代词关系等4项任务获得冠军。在成语阅读理解填空项目中,源1.0的表现已超越人类得分。
同时,在对“源1.0”进行的“图灵测试”中,将源1.0模型生成的对话、小说续写、新闻、诗歌、对联与由人类创作的同类作品进行混合并由人群进行分辨。测试结果表明,人群能够准确分辨人与“源1.0”作品差别的成功率已低于50%。
目前,浪潮“源1.0”大模型只是一个开始,它只是提供一片广阔的肥沃土壤,为诸多应用任务泛化支持提供统一强大的算法支撑。未来,浪潮源“源1.0”大模型将推动创新企业及个人开发者基于大模型构建智能化水平更高的场景应用,赋能实体经济智能化升级,促进数字经济高质量发展。