3B模型不输7B LLaVA！北大多模态MoE模型登GitHub热榜

2024年02月24日00:31:34 动漫 5001

小炒汤圆投稿

量子位 | 公众号 qbitai

混合专家（moe）架构已支持多模态大模型，开发者终于不用卷参数量了！

北大联合中山大学、腾讯等机构推出的新模型moe-llava，登上了github热榜。

它仅有3b激活参数，表现却已和7b稠密模型持平，甚至部分指标比13b的模型还要好。

从一张图表中，moe-llava可以精准分析之中的细节，连线条的颜色都能把控到位。

推理能力也十分优秀，能够根据照片场景针对性地给出旅行建议。

在物体幻觉基准测试中，moe-llava取得了近87分的成绩，超过了一众13b模型，占据了成为成绩-参数量图线左上角的位置。

性能方面，在8块v100上，仅需两天时间就能完成moe-llava的训练。

与简单粗暴地提高参数量相比，moe架构大幅降低了多模态模型的训练和推理成本。

目前，研究团队已经开放了所有的数据、代码和模型，那么它的表现到底如何呢？

成绩不输13b稠密模型

在图像问答数据集和benchmark工具上，moe-llava都取得了优异的测试成绩。

与前sota方法llava-1.5相比，moe-llava-2.7b×4展现了强大的图片理解能力，在5个数据集上的表现非常接近llava-1.5。

其中，在sqa数据集上，moe-llava的成绩比llava-1.5-7b还要领先1.9个百分点。

而相比于小规模多模态模型tinygpt-v，moe-llava-1.8b×4在相当的激活参数下，在gqa和viswiz数据集中分别超出27.5和10个百分点，说明了moe-llava拥有强大的视觉理解能力。

为了更全面的验证moe-llava的多模态理解能力，研究团队在4个benchmark工具包上评估了它的性能。

benchmark工具包中的答案通常是开放性的，而且没有固定模板，目的是验证模型能否能完成自然语言问答任务。

结果，moe-llava-1.8b×4超过了图片分辨率更高的qwen-vl，说明moe-llava这一稀疏模型可以用更少的激活参数达到和稠密模型相当甚至更好的性能。

此外，研究团队还采用pope工具评估了验证moe-llava的幻觉，结果它表现最好的性能，意味着它能准确辨别图像内容。

具体来说，moe-llava-1.8b×4以2.2b的激活参数量，超过了13b的llava-1.5。

另外，moe-llava的yes ratio占比处于较均衡状态，说明它能够根据问题做出正确的反馈。

那么，moe-llava具体是如何实现的呢？

向多模态模型中引入moe架构

moe-llava采用三阶段的训练策略，整体工作流程如下图所示。

前两个阶段中，图像和文本信息分别被视觉编码器（ve）和文本嵌入层（wel）转化为token。

具体来看，阶段1的目标是把视觉token转换成llm能理解的形式。

为了实现这一点，研究团队采用一个多层感知机（mlp）将视觉token投影到llm的输入域，使其作为llm能理解的伪文本token。

在这个阶段，llm被训练学会描述图片，为理解更高层次的图片语义的打下基础。

阶段2是用多模态的指令数据来对llm进行微调，使之成为有多模态理解能力的模型。

这个阶段的指令更加复杂，包含图片逻辑推理、文字识别等高级任务，对模型的多模态理解能力有了更高的要求。

通常来说，如果是稠密多模态模型，训练过程到此就完成了，但研究团队发现同时将llm多模态化和稀疏化是有一定困难的。

为了解决这个问题，研究团队把该阶段的权重作为阶段3的初始化依据，以降低稀疏模型学习的难度。

作为初始化，研究团队把前馈神经网络（ffn）复制多份，作为专家集合的初始化权重。

当视觉token和文本token被送入moe架构时，router会计算每一个token和专家们的匹配权重，然后被送入最匹配的top-k个专家进行处理，最后根据router的权重加权求和汇聚成输出。

当top-k个专家被激活时，其余的专家保持静默，这种模型构成了具有无限可能的稀疏通路的moe-llava。

整体上，在scienceqa数据集上训练时，所有的moe layer中的专家的负载比较平衡。

然而随着模型逐渐被稀疏化，第17到27层的专家的负载突然增大，甚至几乎包揽了所有tokens。

对于浅层的5-11层，主要是由专家2、3、4共同协作。值得关注的是，专家1几乎只在第1-3层工作，随着模型变深，专家1逐渐退出了工作。

可以看出，moe-llava的专家们学到了某种特定的模式，它能够按照一定的规律进行专家们的分工。

进一步地，研究团队还分析了不同专家的模态分布，发现文本和图像的专家分布极其相似。

例如，当专家3在17-27层工作时，它所处理的文本和图像的占比是相似的，这展现出moe-llava中的专家对于模态并无明显的偏好。

同时，研究团队还在token层次上观察了专家们的行为，跟踪了所有token在稀疏网络中的轨迹在下游任务。

通过pca降维方式，研究团队分析了对文本和图像所有的激活的通路，得到了主要的10条通路。

团队还发现，对于某个未见的文本或图像token，moe-llava始终偏向于派发专家2和3来处理；专家1、4则倾向于处理初始化的token。

作者简介

moe-llava由北大深研院信息工程学院袁粒课题组主导，该课题组主要研究机器视觉、机器学习和脑科学。

去年推出的法律大模型chatlaw和ai表格工具酷表（chatexcel），该课题组都有参与其中。

本文第一作者是该实验室的硕士生林彬，此前他还以一作或共同一作的身份参与过和多模态对齐框架languagebind（入选iclr 2024）、视频大模型video-llava等工作。

此外，来自中山大学、腾讯、farreel ai lab、鹏城实验室等机构的研究人员也参与了本项目。

github:

https://github.com/pku-yuangroup/moe-llava

论文地址:

https://arxiv.org/abs/2401.15947

demo:

https://huggingface.co/spaces/languagebind/moe-llava

动漫

何不对“我妻之死”男主人公多一些共情？|新京报快评 - 天天要闻

何不对“我妻之死”男主人公多一些共情？|新京报快评

▲《我妻之死》作者在微信公众号上发布的家人照片。图/微信公众号“偶有管见”据红星新闻报道，最近，一篇题为《我妻之死》的自媒体文章，在网络上引发强烈关注。文章作者以万字长文，记录了结婚13年的妻子在加拿大患癌到病逝的全过程。文章发布之后，连日来受到广泛关注，相关话题也登上热搜。但文章随后也陷入了争议。有...

05月02日 3859

5月朵莉亚新皮肤巨美，大乔花嫁返场，不知火舞限定归来 - 天天要闻

5月朵莉亚新皮肤巨美，大乔花嫁返场，不知火舞限定归来

王者真奇妙，阿呆来介绍，大家好，我是阿呆，在这里每天会给你分享王者荣耀的皮肤爆料，最新攻略，最新调整。 5月份到来之后，除了朋友节活动之外，还有一个重大活动，相信很多玩家应该都猜到了，也就....

05月02日 9567

新势力4月销量“出炉”：理想、蔚来、零跑稳居前三，小米首公布交付成绩单 - 天天要闻

新势力4月销量“出炉”：理想、蔚来、零跑稳居前三，小米首公布交付成绩单

每经记者：孙磊每经编辑：裴健如5月1日，多家新能源汽车企业公布了2024年4月的销售成绩。具体来看，造车新势力方面，理想汽车4月交付约2.58万辆汽车，同比增长0.4%。截至今年四月底，理想汽车累计交付车辆接近74万辆。制表：每经记者孙磊据了解，理想汽车在4月初基本完成了组织架构的调整，把矩阵型组织2.0的架构...

05月01日 9118

美国大V念《星球大战》剧情，被打了 - 天天要闻

美国大V念《星球大战》剧情，被打了

4月29日，美国演员兼时评博主沃尔特·马斯特森来到美国哥伦比亚大学，他头戴电影《星球大战》角色帽子，站在马路中间对分别支持巴勒斯坦和以色列的抗议者念电影剧情。然而，他的寥寥数语很快激怒了....

05月01日 1122

五一假期杭州径山花海开启动漫狂欢 - 天天要闻

五一假期杭州径山花海开启动漫狂欢

潮新闻客户端记者林云龙拍友陈海燕 5月1日，追光逐梦·“音”你而来动漫嘉年华活动在杭州余杭区径山花海缤纷开启。本次活动贯穿整个五一假期，陆续推出“奥特曼线下见面会”“宝可梦卡牌对战....

05月01日 9716

科普书单｜“中华优秀科普图书榜”2023年度榜单发布 - 天天要闻

科普书单｜“中华优秀科普图书榜”2023年度榜单发布

近日，在云南昆明举办的第三届全民阅读大会·科普阅读论坛上，中华优秀科普图书榜2023年度榜单正式向社会公众发布。共有20种优秀科普图书获得上榜推荐，有10种优秀科普图书获得提名推荐，有5种优秀科普图书获得出版融合推荐。本次活动由中国出版协会、中国期刊协会、韬奋基金会主办，中国大百科全书出版社协办，《百科知识...

05月01日 6309

班凯罗轰39+8+4仍无缘今日最佳！对不起，你碰到暴走的马克西了 - 天天要闻

班凯罗轰39+8+4仍无缘今日最佳！对不起，你碰到暴走的马克西了

北京时间5月1日，NBA季后赛继续进行，联盟今天共安排了3组对决，具体战况如下：76人队112-106险胜尼克斯队，魔术队103-104惜败骑士队，步行者队92-115惨负雄鹿队。在这些比赛当中，布....

05月01日 2699

《城中之城》大结局，“四大财子”一死一走二入狱，陶无忌升职！ - 天天要闻

《城中之城》大结局，“四大财子”一死一走二入狱，陶无忌升职！

《城中之城》超前点映，一口气看完全剧，主打的就是违法乱纪是要付出代价的，有人入狱，有人升职，有人离开，终有意难平。 1、深茂银行上海分行行长赵辉：犯受贿罪、国有公司、企业、事业单位人员滥....

05月01日 4758

《城中之城》将大结局，最大赢家不是白宇帆，也非于和伟，而是这对活宝 - 天天要闻

《城中之城》将大结局，最大赢家不是白宇帆，也非于和伟，而是这对活宝

文/娱情派电视剧《城中之城》自播出以来，引发了越来越多观众的关注，不仅口碑持续上扬，收视率也是高开高走，已经连续6天收视率破2，最高收视率高达2.665%，可见，该剧的受关注程度正在快速....

05月01日 3448

把蔡赖P成邪教头目会挨罚？王鸿薇霸气喊：欢迎过来！ - 天天要闻

把蔡赖P成邪教头目会挨罚？王鸿薇霸气喊：欢迎过来！

由阮经天主演的本土电影《周处除三害》，其中一段关于邪教头目“尊者”的段落，被网友拿来做成梗图，将头像换成台湾地区领导人蔡英文、副领导人赖清德等人。因此有民众搜集资料向台湾警方检举，台“刑事局”认此举....

05月01日 9697