阿里云发布通义千问2.0 性能超GPT-3.5 加速追赶GPT-4

2023年10月31日16:10:15 科技 1418

潮新闻客户端 记者 张云山 何慧婷 张鑫 俞叶波

10月31日,阿里云正式发布千亿级参数大模型通义千问2.0。在10个权威测评中,通义千问2.0综合性能超过GPT-3.5,正在加速追赶GPT-4。当天,通义千问APP在各大手机应用市场正式上线,所有人都可通过APP直接体验最新模型能力。

阿里云发布通义千问2.0 性能超GPT-3.5 加速追赶GPT-4 - 天天要闻

通义千问72B即将开源

过去6个月,通义千问2.0在性能上取得巨大飞跃,相比4月发布的1.0版本,通义千问2.0在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均有显著提升。目前,通义千问的综合性能已经超过GPT-3.5,加速追赶GPT-4。

阿里云发布通义千问2.0 性能超GPT-3.5 加速追赶GPT-4 - 天天要闻

通义千问2.0综合性能超过GPT-3.5,正在加速追赶GPT-4

在MMLU、C-Eval、GSM8K、HumanEval、MATH等10个主流Benchmark测评集上,通义千问2.0的得分整体超越Meta的Llama-2-70B,相比OpenAI的Chat-3.5是九胜一负,相比GPT-4则是四胜六负,与GPT-4的差距进一步缩小。

中英文理解能力是大语言模型的基本功。英语任务方面,通义千问2.0在MMLU基准的得分是82.5,仅次于GPT-4,通过大幅增加参数量,通义千问2.0能更好地理解和处理复杂的语言结构和概念;中文任务方面,通义千问2.0以明显优势在C-Eval基准获得最高得分,这是由于模型在训练中学习了更多中文语料,进一步强化了中文理解和表达能力。

在数学推理、代码理解等领域,通义千问2.0进步明显。在推理基准测试GSM8K中,通义千问排名第二,展示了强大的计算和逻辑推理能力;在HumanEval测试中,通义千问得分紧跟GPT-4和GPT-3.5,该测试主要衡量大模型理解和执行代码片段的能力,这一能力是大模型应用于编程辅助、自动代码修复等场景的基础。

阿里云发布通义千问2.0 性能超GPT-3.5 加速追赶GPT-4 - 天天要闻

通义千问2.0发布

通义千问更成熟了,也更好用了。通义千问2.0在指令遵循、工具使用、精细化创作等方面作了技术优化,能够更好地被下游应用场景集成。通义大模型官网上线了多模态和插件功能,支持图片输入、文档解析等细分任务。

与此同时,基于通义大模型训练的8大行业模型组团上线,他们分别是通义灵码-智能编码助手、通义智文-AI阅读助手、通义听悟-工作学习AI助手、通义星尘-个性化角色创作平台、通义点金-智能投研助手、通义晓蜜-智能客服、通义仁心-个人专属健康助手、通义法睿-AI法律顾问。8大行业模型面向当下最受欢迎的多个垂直场景,使用领域数据进行专门训练。用户可以在官网直接体验模型功能,开发者可以通过网页嵌入、API/SDK调用等方式,将模型能力集成到自己的大模型应用和服务中。

阿里云发布通义千问2.0 性能超GPT-3.5 加速追赶GPT-4 - 天天要闻

通义大模型家族全面升级,8大行业模型组团上线

截至10月,阿里云已与60多个行业头部伙伴进行深度合作,推动通义千问在办公、文旅、电力、政务、医保、交通、制造、金融、软件开发等领域的落地。

周靖人透露,阿里云计划近期开源通义千问72B版本,此前,阿里云已先后开源7B和14B版本模型,模型累计下载量超过100万。阿里云将持续支持千行百业的开发者基于通义千问开源模型进行模型和应用创新。

“转载请注明出处”

科技分类资讯推荐

YU7销量为何没受前段时间小米负面的影响? - 天天要闻

YU7销量为何没受前段时间小米负面的影响?

为什么前段时间小米负面不断,但是现在SU7发布之后,一样是卖爆了呢?其实我之前就说过了,这些负面不会影响到小米的销量。互联网是健忘的。之前那个小米手机发生高速车祸,很多人在说小米的自驾问题。但是实际上大家要明白,真正会去买小米这个汽车的人,他们的侧重点是什么?
华为发布新一代OceanStor Dorado 3000融合全闪存存储:最高1600块SSD、8PiB容量 - 天天要闻

华为发布新一代OceanStor Dorado 3000融合全闪存存储:最高1600块SSD、8PiB容量

快科技6月30日消息,华为今日正式发布新一代OceanStor Dorado 3000融合全闪存存储。最大支持2 TB内存、1600块SSD,提供高达8 PiB(‌1PiB=1024TB)可用容量,单系统最大可扩展到16个控制器。具有以下三大优势:全新融合:华为新一代OceanStor Dorado 3000采用原生块、文件、对象并行架构,一套存储满足多种业
千元机太有“料”,5500mAh+OIS防抖+1.5K大屏,太香了! - 天天要闻

千元机太有“料”,5500mAh+OIS防抖+1.5K大屏,太香了!

随着技术的飞速发展,即使是千元价位的手机也能提供令人惊艳的性能表现,彻底颠覆了人们对"低价低配"的刻板印象。Redmi Note14 Pro正是这样一款打破常规的产品,它以亲民的价格带来了旗舰级的体验,成为2025年手机市场中当之无愧的"性
5年不换机,iPhone16持续跌价,亲民捡漏选择! - 天天要闻

5年不换机,iPhone16持续跌价,亲民捡漏选择!

你是否还记得上一次换手机是什么时候?随着科技的飞速发展,智能手机的迭代速度越来越快,但大多数人的换机周期却在逐渐延长。过去,许多人可能一年一换,甚至半年一换,追求最新款、最强性能;而如今,越来越多的人开始理性消费,选择2年左右更换一次手机。
“魅族科技”回归,魅族22进入倒计时! - 天天要闻

“魅族科技”回归,魅族22进入倒计时!

近日,有网友发现,魅族的公众号和官微都已从原来的“星纪魅族科技”更名为“魅族科技”。据相关平台记录,这一变动在2025年6月29日完成,而在不到一年前的2024年8月19日,这两个平台的命名才刚从“魅族科技”更名为“星纪魅族科技”。那么,这