阿里林俊旸：大模型对很多人来说不够用，打造多模态Agent是关键

2024年05月04日11:22:43 科技 3225

编辑部整理自 aigc峰会

量子位 | 公众号 qbitai

在过去一年中，通义千问系列模型持续开源。

不仅频繁放出多种版本，涉及不同的规模和模态，成绩在大模型竞技场中也名列前茅。

比如目前最大的72b模型，表现就胜过了llama 2-70b和moe开源模型mixtral。

而纵观整个大模型行业，开源开放也正促进着aigc新应用的涌现。

过去一年，通义千问团队都做了什么，又有哪些经验值得开源模型开发者参考？

中国aigc产业峰会上，阿里高级算法专家林俊旸给出了他的答案。

林俊旸参与了通义千问大模型的研发、开源、与外部系统融合等探索工作，还曾参与超大规模预训练模型系列m6、通用统一多模态预训练模型ofa等大模型的打造。

为了完整体现林俊旸的思考，在不改变原意的基础上，量子位对演讲内容进行了编辑整理，希望能给你带来更多启发。

中国aigc产业峰会是由量子位主办的行业峰会，20位产业代表与会讨论。线下参会观众近千人，线上直播观众300万，获得了主流媒体的广泛关注与报道。

演讲要点

开源大模型要更深地融入整个生态，才能给用户带来便捷的使用体验。

除了基础模型benchmark之外，多语言、长序列和agent能力，也是衡量大模型表现的关键指标。

大语言模型发展下去，终将变成多模态模型，因为一个非常智能的模型，不仅要有语言能力，还应该融入对视觉语音方面的理解。

以下为林俊旸演讲全文：

融入生态，让大模型使用更加便捷

相信国内朋友都听说过通义千问的开源模型，我们从去年8月份开始一直开源，到现在我们开源的系列模型已经非常多了，刚开始先从7b、14b开始开源，直到现在1.5系列的72b版本，用户使用下来的感觉还不错。

当然，我们的1.5系列模型，涵盖的规模非常全，除了72b还有0.5b、1.8b这样的小规模版本，最新还有一个小的moe的模型，大概是14b的参数量，激活参数量大概是2.7b。

我们的模型现在在lmsys chatbot arena，也就是人工评测上面取得比较不错的成绩，在刚开始登榜的时候，我们是开源的第一名，刚刚才被千亿参数的command-r-plus给超越。

如果只在相同规模中比较，那么截止到现在（4月17日），我们的72b模型还是最好的。

除此之外，我们也听从了开发者的建议，发布了32b模型，因为开发者反馈说72b模型太大，14b又好像还不够用。

最新推出的这个32b模型也取得了比较不错的成绩，跻身到了前15的行列，表现非常接近72b的模型，跟moe架构的mixtral相比也具有一定优势。

而除了不断提高模型的表现，最近几个月我们还做了一些不太一样的事情，就是让千问系列模型更好地去融入大模型生态，让用户使用起来更加便捷。

具体的举措有这样几点，第一是千问的代码已经融入了hugging face的官方代码当中，大家使用通义千问1.5的模型时就不需要再用transformer code来调用了。

除此之外，我们很多三方框架都做了比较好的支持，包括llama.cpp、vllm，现在还有像ollama也非常方便，都可以一键使用我们的模型。

如果你用lm studio，也可以从中使用我们的gguf的模型。如果想对我们模型进行微调的话，其实可以用到比如说axolotl以及国内的llama-factory等工具。

多语言和长文本能力是关键指标

接下来我会给大家详细介绍一下我们模型的构成以及模型当前表现水平。

首先要看base language model是一个什么样的水平，因为只有基础语言模型的表现好了，才能实现对齐，去进一步做一个比较好的模型。

我们各个size都做了对比，其中72b的模型在各个benchmark上的表现都比较有竞争力。

当然，我们现在开源模型跟gpt-4还会有差距，但是相比于此前的llama2-70b以及mixtral，都有比较明显的优势。

很长一段时间，如果大家关注hugging face open llm leaderboard，会发现其实有很多模型是基于我们的72b模型微调出来的，因为海外朋友很多非常喜欢微调这个模型，然后登到这个榜上去。

同时我们不仅仅有7b及以上的大模型，也有小一些的模型，又叫做small language model这一块，我们最小的模型参数量是0.5b，也就是5亿。

我们还有像1.8b、4b这些规模的模型，跟phi-2、gemma-2b等模型相比的话，我们的模型都非常有竞争力。

另外一个方面是多语言的能力，我们此前的模型在qwen1的时候，没有对多语言进行检测，但本质上是多语言的模型。

大家可能会有一些想法，比如说阿里训出来的模型就是中文的模型，或者是中英双语的模型，其实不是这样，我们最近对多语言能力做一些检测，发现它的表现还不错，所以我们进一步在这个基础上做了多语言方面的对齐。

在12个比较大的语言上面去跟gpt-3.5相比，我们的模型表现都比较有竞争力。

如果大家关注社交媒体，会看到有很多朋友在使用我们的多语言的能力。

从目前收到的一些反馈来看，它的越南语能力还不错，还有人跟我说，孟加拉语也还可以。

最近还出现了一个模型东南亚语言模型salior，它是基于qwen1.5继续训练然后微调出来的。

而在小模型方面，有反馈说在法语上的表现不错，家如果看chatbot arena法语榜上，qwen1.5表现也是非常有竞争力的。

在长序列方面，目前我们看32k长度上的表现是比较稳定的，有些模型size甚至可以通过外推的方式推的更长，接下来的版本也会有更长的上下文窗口。

我们除了做简单的大海捞针的实验之外，也对一些针对序列评测的榜单做评估，发现我们的chat模型在长序列方面，是可以做一些使用方面的东西。

下一个部分就是常说的post-training，今天大家对大模型感兴趣，主要也是因为post-training让大模型的潜力爆发出来，能够成为一个assistant来帮助我们。

我们在post-training做了非常长时间的工作，包括sft（指导监督微调），主要是在数据方面做了一些比较扎实的工作。

我们最近在dpo方面也做了比较多的工作，之后如果有机会会通过技术报告的方式跟大家分享更多相关的细节。我们做完这些之后，会发现模型在一些评测上面的表现更有竞争力。

除了人工评测之外，还有像mt-bench和alpaca-eval这样的测试，我们模型的表现也都非常有竞争力，尤其是alpaca-eval。

另一方面我们讲agent方面的能力，这是我们一直非常关心的。

但我们刚开始给qwen系列模型做sft的时候，发现模型不太具备agent相关的能力。

解决的方式是做更多的数据标注，时间长了之后，经验越来越丰富，就可以做一些agent相关的任务了。

下一站是多模态agent

今天我们还会关心另外一个问题，就是“大”模型对于很多人来说是不够用的。

因为大模型发展下去，终将变成多模态的模型，因为一个非常智能的模型，应该能够融入对视觉语音方面的理解。

过去几年的时间里，我们在多模态领域也做了比较多的工作，再把之前的一些经验融入进来，就有了qwen-vl系列模型。

qwen-vl系列模型的训练方法也相对来说比较简单，分为三个阶段。

首先是非常扎实对齐的预训练，实现视觉和语言模型的对齐，让我们的语言模型能够睁开双眼看世界，能够理解视觉方面的信息。

接下来是能力的注入和对齐，我们vl核心开发同学，他有一天刚好去医院，对医院密密麻麻拍了一个照问它说肚子疼去哪里，模型把相关信息都能准确识别出来。

这是今天vl模型跟过去不一样的点，今天对ocr的识别比以往做的好很多。

在这个基础上我们想做更加冒险的事情，比如说打造vl方面的agent，如果能成功的话，将会非常有吸引力。

比如说，如果想对手机屏幕进行操作，如果看到的是一堆代码，那么操作起来将会非常困难，而对人来说不管怎么看、不管颜色、logo怎么变我们都能理解，屏幕上面有哪些东西我们都能做出正确选择。

所以我们也让模型进行了一些尝试，发现它能准确识别出来这些位置，所以我相信随着vl模型水平不断提升，在agent方面的潜力会越来越大。

如果让我们模型看见世界，能不能让它听见呢？方法也非常简单，简单说就是把audio encoder接入我们的模型，再基于刚才所说的几个阶段进行训练，就能得到非常好的效果。

而能够听见声音的大模型，可以做的事情非常多。

比如我在海外旅游，到了某个国家去，不太会说当地的语言，希望有一款产品能帮我进行翻译。

而在这种产品背后需要解决几个问题，需要先对语音进行识别，然后再进行机器翻译，这个过程其实非常麻烦。

但有了大模型之后，这样的任务只需要一个prompt就能解决，并且还能翻译成不同的语言，只需要跟模型交互就可以了。

除此之外，还有对自然声音和音乐的理解，asr模型只能理解人的说话并转成文字，但现实中的声音包括自然声音以及音乐等多种类型。

而我们的模型可以做音乐的赏析，听到一段声音就能写出一首诗，可以看到大语言模型在多模态方面潜力十足。

另外，今年非常重要的一个趋势是大模型与视频的结合，我们下一步会做出更多模态，其中视频就是一个重点。

最后我做一个简单的总结，我们现在的base模型和chat模型每一次都会推出几个版本，最新的模型就在几个小时前，还推出了code专项模型，叫做codeqwen 1.5，是一个7b规模的模型，在代码方面的benchmark表现比较突出，大家可以去尝试。

接下来我们会去做进一步的scaling，包括模型本身和数据的scaling，接下来还有模态方面的scaling，也就是接入更多的模态。

我们最终的目标是实现一个非常强大的大预言模型，能够理解各种模态的信息，甚至实现不同模态的输入和输出。所以，接下来大家可以持续关注我们的进展。

科技

为何雷军花100亿造车大卖，而恒大砸700亿却输得一塌糊涂？ - 天天要闻

为何雷军花100亿造车大卖，而恒大砸700亿却输得一塌糊涂？

同样是入局造车，恒大和小米为啥差距如此之大？恒大砸了700亿，结果只造出了900辆，可谓是功亏一篑。而小米雷军呢，只花了100亿，就成功造出了热销的小米Su7，一上市就被抢购一空。据说年规划产能达到一年15万辆。

05月18日 1730

阿里公益助力，山西平顺举办系列助残活动，科技赋能开创美好未来 - 天天要闻

阿里公益助力，山西平顺举办系列助残活动，科技赋能开创美好未来

在全国助残日之际，山西省平顺县政府携手山西省博物院、阿里巴巴公益及魔豆妈妈，在平顺县特殊教育学校精心策划了一系列助残活动，旨在鼓励残疾人群体更好地融入社会，共享和谐美好的生活。此次活动不仅为特殊教育学校的孩子们提供了一个展示自我、锻炼才能的平台，更是展现了科技在助残事业中的独特魅力和巨大潜力。平顺县...

05月18日 9748

想要更快实现科技成果转化？来成都这座“岛”！系列支持政策出台 - 天天要闻

想要更快实现科技成果转化？来成都这座“岛”！系列支持政策出台

在成都，有一座科技含量满满的“岛”，占地1006亩、建筑面积140万平方米，总投资200亿元。自2023年10月底试运营以来，这里已累计策划举办科创活动50余场，发布科技成果394项，成为全市科技成果转化有力有效的主平台。这就是成都科创生态岛。5月18日，2024投资成都招商大会在成都召开。大会上，聚焦投资者最关心的产业基金、...

05月18日 3169

世界电信日|率先“点亮”京城，5G-A如何改变生产和生活 - 天天要闻

世界电信日|率先“点亮”京城，5G-A如何改变生产和生活

这两天，北京的一些移动用户惊喜地发现，自己手机上的5G图标变成了5G-A图标。记者了解到，北京移动于上个月启动“5G-A点亮京城”行动。持有5G-A终端的用户进入“点亮”区域后，就能感受5G-A技术带来的超高速率。5G-A（全称5G-Advanced，也被部分厂商称作5.5G）是5G的增强，相较于5G，能够在容量、速率、时延、定位等方面实...

05月18日 4839

人工智能、深空宇宙、脑机接口……这场论坛带你奔赴科技的星辰大海 - 天天要闻

人工智能、深空宇宙、脑机接口……这场论坛带你奔赴科技的星辰大海

5月17日“世界电信日”当天，2024搜狐科技年度论坛在北京举办。科技工作者与产业界领袖齐聚一堂，畅谈人工智能、深空宇宙、脑机接口等前沿科技，奔赴科技的星辰大海。　　本届论坛线上线下结合，开启了全天的思想盛宴。搜狐创始人、董事局主席兼首席执行官、物理学博士张朝阳在致辞中表示，“科学是人类智慧的发现，科技工...

05月18日 3034

雷军在杭州亲自交付小米SU7：握手、鞠躬、送花感谢每位车主 - 天天要闻

雷军在杭州亲自交付小米SU7：握手、鞠躬、送花感谢每位车主

快科技5月18日消息，今天早上8:30，雷军开启了一场超过3小时的连续直播，驾驶小米SU7 Pro从上海世纪大道附近开往杭州。在杭州交付中心，雷军亲自为5位车主交付了SU7。雷军还是保持了一如既往的高格局，向每一位车主鞠躬、握手，并送上花束，不断的感谢车主。不过因为场地受限，所以并没有像在北京工厂的首批交付上亲自为车...

05月18日 5369

向“新”向好， “星式生活”助推释放消费活力 - 天天要闻

向“新”向好， “星式生活”助推释放消费活力

日前，随着一张巨幅画卷在上海豫园的中心广场上展开，近百组家庭来到现场共同绘制“星式生活”画卷，点亮“复星之星”。5月15日是国际家庭日，复星作为创新驱动的全球家庭消费产业集团，秉持让全球家庭生活更幸福的使命，自2019年将“复星家庭日”设立在这一天，联合生态内品牌回馈广大用户，通过多种年度权益日活动打造“...

05月18日 1776

“科普网红”也能评上研究员，上海率先面向市场端开展科技传播职称认定 - 天天要闻

“科普网红”也能评上研究员，上海率先面向市场端开展科技传播职称认定

走上2024上海科技节红毯的“科技传播红人”“没想到我能评上上海市科技传播高级职称。”接过证书，B站百大UP“稚晖君”、智元机器人科技有限公司创始人彭志辉惊喜地说。今天（18日）开幕的上海科技节举行了全国首批科技传播专业高级职称获得者授证仪式，除彭志辉外，还有网名“菠萝”的科普作家李治中、“混子哥”陈磊等20...

05月18日 1656

IOS17.5“照片复活门”升级：二手设备出现原机主照片，令人深思 - 天天要闻

IOS17.5“照片复活门”升级：二手设备出现原机主照片，令人深思

IOS17.5前段时间出现的“照片”问题，今日又升级了，二手设备居然可以显示原机主的照片，这是一个非常严重的问题，这个问题恐怕会让苹果从此跌下“最安全手机”的神坛。5月15日，部分用户反应升级到最新的IOS17.

05月18日 1957

部分用户反馈苹果 M4 iPad Pro 屏幕颗粒感问题 - 天天要闻

部分用户反馈苹果 M4 iPad Pro 屏幕颗粒感问题

IT之家 5 月 18 日消息，部分用户在开箱体验苹果 M4 OLED iPad Pro 平板之后，反馈图像看起来有颗粒感，部分用户猜测可能是双层串联 OLED 技术错位导致的。不过也有用户反馈这个问题可能是 Mura Effect 导致的，这是所有 OLED 屏幕的通病，主要是因为亮度 / 颜色不均匀导致的。当薄膜晶体管（TFT）向 OLED 显示屏提供不

05月18日 7047