阿里云发布通义千问2.0 性能超GPT-3.5 加速追赶GPT-4

2023年10月31日16:10:15 科技 1418

潮新闻客户端 记者 张云山 何慧婷 张鑫 俞叶波

10月31日,阿里云正式发布千亿级参数大模型通义千问2.0。在10个权威测评中,通义千问2.0综合性能超过GPT-3.5,正在加速追赶GPT-4。当天,通义千问APP在各大手机应用市场正式上线,所有人都可通过APP直接体验最新模型能力。

阿里云发布通义千问2.0 性能超GPT-3.5 加速追赶GPT-4 - 天天要闻

通义千问72B即将开源

过去6个月,通义千问2.0在性能上取得巨大飞跃,相比4月发布的1.0版本,通义千问2.0在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均有显著提升。目前,通义千问的综合性能已经超过GPT-3.5,加速追赶GPT-4。

阿里云发布通义千问2.0 性能超GPT-3.5 加速追赶GPT-4 - 天天要闻

通义千问2.0综合性能超过GPT-3.5,正在加速追赶GPT-4

在MMLU、C-Eval、GSM8K、HumanEval、MATH等10个主流Benchmark测评集上,通义千问2.0的得分整体超越Meta的Llama-2-70B,相比OpenAI的Chat-3.5是九胜一负,相比GPT-4则是四胜六负,与GPT-4的差距进一步缩小。

中英文理解能力是大语言模型的基本功。英语任务方面,通义千问2.0在MMLU基准的得分是82.5,仅次于GPT-4,通过大幅增加参数量,通义千问2.0能更好地理解和处理复杂的语言结构和概念;中文任务方面,通义千问2.0以明显优势在C-Eval基准获得最高得分,这是由于模型在训练中学习了更多中文语料,进一步强化了中文理解和表达能力。

在数学推理、代码理解等领域,通义千问2.0进步明显。在推理基准测试GSM8K中,通义千问排名第二,展示了强大的计算和逻辑推理能力;在HumanEval测试中,通义千问得分紧跟GPT-4和GPT-3.5,该测试主要衡量大模型理解和执行代码片段的能力,这一能力是大模型应用于编程辅助、自动代码修复等场景的基础。

阿里云发布通义千问2.0 性能超GPT-3.5 加速追赶GPT-4 - 天天要闻

通义千问2.0发布

通义千问更成熟了,也更好用了。通义千问2.0在指令遵循、工具使用、精细化创作等方面作了技术优化,能够更好地被下游应用场景集成。通义大模型官网上线了多模态和插件功能,支持图片输入、文档解析等细分任务。

与此同时,基于通义大模型训练的8大行业模型组团上线,他们分别是通义灵码-智能编码助手、通义智文-AI阅读助手、通义听悟-工作学习AI助手、通义星尘-个性化角色创作平台、通义点金-智能投研助手、通义晓蜜-智能客服、通义仁心-个人专属健康助手、通义法睿-AI法律顾问。8大行业模型面向当下最受欢迎的多个垂直场景,使用领域数据进行专门训练。用户可以在官网直接体验模型功能,开发者可以通过网页嵌入、API/SDK调用等方式,将模型能力集成到自己的大模型应用和服务中。

阿里云发布通义千问2.0 性能超GPT-3.5 加速追赶GPT-4 - 天天要闻

通义大模型家族全面升级,8大行业模型组团上线

截至10月,阿里云已与60多个行业头部伙伴进行深度合作,推动通义千问在办公、文旅、电力、政务、医保、交通、制造、金融、软件开发等领域的落地。

周靖人透露,阿里云计划近期开源通义千问72B版本,此前,阿里云已先后开源7B和14B版本模型,模型累计下载量超过100万。阿里云将持续支持千行百业的开发者基于通义千问开源模型进行模型和应用创新。

“转载请注明出处”

科技分类资讯推荐

拓朋D50数字对讲机:建材行业的“全天候通讯指挥官” - 天天要闻

拓朋D50数字对讲机:建材行业的“全天候通讯指挥官”

在粉尘飞扬的水泥厂、轰鸣震耳的搅拌站、机械林立的建筑工地……建筑材料行业的生产与施工场景堪称“极限挑战”。拓朋D50数字对讲机凭借军工级防护、超强信号穿透、智能调度功能,正成为砂石料场、混凝土公司、建筑承包商的“全天候通讯指挥官”,重塑建材
专家称“无菌蛋”很难做到完全无菌 还能放心吃吗? - 天天要闻

专家称“无菌蛋”很难做到完全无菌 还能放心吃吗?

近期,各大电商平台涌现出大量“无菌蛋”产品,商家宣称这类鸡蛋“安全无菌,食用更放心”。所谓“无菌蛋”真的能做到完全无菌吗?“无菌蛋”与可生食鸡蛋是一种产品吗?农业农村部食物与营养发展研究所研究员 朱大洲:实际上,对于鸡蛋来讲是很难做到完全无
“3C认证”成充电宝登机门槛,相机电池、国际航班受影响吗? - 天天要闻

“3C认证”成充电宝登机门槛,相机电池、国际航班受影响吗?

机场收的充电宝15元甩卖?这一现象引发了公众对收缴充电宝是否正规流转的质疑。近日,民航局发布紧急通知,自6月28日起禁止旅客携带没有3C标识、3C标识不清晰、被召回型号或批次的充电宝乘坐境内航班。与此同时,国际航线是否受影响、相机电池等电子产品是否需3C认证等问题也备受关注。新规落地,机场收缴充电宝疑似流入二...
“滞留”机场的充电宝流入二手平台? - 天天要闻

“滞留”机场的充电宝流入二手平台?

近日,民航局发布紧急通知,自6月28日起禁止旅客携带没有3C标识、3C标识不清晰、属于被召回型号或批次的充电宝乘坐境内航班。这两天,社交平台上,不少人晒出一些机场安检处,游客自弃的充电宝堆满回收筐的....
上海海思 AC9610 系列高精度 ADC 芯片全面开售 - 天天要闻

上海海思 AC9610 系列高精度 ADC 芯片全面开售

IT之家 6 月 30 日消息,上海海思今日宣布,海思 AC9610 产品通过 4 个月的客户测试,该产品获得了市场高度认可。即日起,AC9610 系列高精度 ADC 正式进入批量供应阶段。▲ 图源上海海思官方公众号,下同本次共推出 4 款新品 ——AC9610D-24、AC9610D-18、AC9611D-24、AC9611D-18,以差异化性能组合,精准
小米在北京、南京为员工提供小米青年公寓,租金平均1999元/月 - 天天要闻

小米在北京、南京为员工提供小米青年公寓,租金平均1999元/月

IT之家 6 月 30 日消息,据小米行政公众号今日推文,小米在北京、南京上线了一批青年公寓,租金标准为 1999 元 / 月。据了解,公寓所有房型一房一价,均价为公寓所有房型平均月租金,租期在 2025 年 7 月-2028 年 6 月之间享受安居折扣价。IT之家汇总此次上线的“小米青年公寓”主要信息如下:小米北京青年公寓坐落昌平定泗...