3B模型不输7B LLaVA!北大多模态MoE模型登GitHub热榜

2024年02月24日00:31:34 动漫 5001

小炒汤圆 投稿

量子位 | 公众号 qbitai

混合专家(moe)架构已支持多模态大模型,开发者终于不用卷参数量了!

北大联合中山大学、腾讯等机构推出的新模型moe-llava,登上了github热榜。

仅有3b激活参数,表现却已和7b稠密模型持平,甚至部分指标比13b的模型还要好。

3B模型不输7B LLaVA!北大多模态MoE模型登GitHub热榜 - 天天要闻

从一张图表中,moe-llava可以精准分析之中的细节,连线条的颜色都能把控到位。

3B模型不输7B LLaVA!北大多模态MoE模型登GitHub热榜 - 天天要闻

推理能力也十分优秀,能够根据照片场景针对性地给出旅行建议。

3B模型不输7B LLaVA!北大多模态MoE模型登GitHub热榜 - 天天要闻

在物体幻觉基准测试中,moe-llava取得了近87分的成绩,超过了一众13b模型,占据了成为成绩-参数量图线左上角的位置。

3B模型不输7B LLaVA!北大多模态MoE模型登GitHub热榜 - 天天要闻

性能方面,在8块v100上,仅需两天时间就能完成moe-llava的训练

与简单粗暴地提高参数量相比,moe架构大幅降低了多模态模型的训练和推理成本。

目前,研究团队已经开放了所有的数据、代码和模型,那么它的表现到底如何呢?

成绩不输13b稠密模型

在图像问答数据集和benchmark工具上,moe-llava都取得了优异的测试成绩。

与前sota方法llava-1.5相比,moe-llava-2.7b×4展现了强大的图片理解能力,在5个数据集上的表现非常接近llava-1.5

其中,在sqa数据集上,moe-llava的成绩比llava-1.5-7b还要领先1.9个百分点。

而相比于小规模多模态模型tinygpt-v,moe-llava-1.8b×4在相当的激活参数下,在gqa和viswiz数据集中分别超出27.5和10个百分点,说明了moe-llava拥有强大的视觉理解能力。

3B模型不输7B LLaVA!北大多模态MoE模型登GitHub热榜 - 天天要闻

为了更全面的验证moe-llava的多模态理解能力,研究团队在4个benchmark工具包上评估了它的性能。

benchmark工具包中的答案通常是开放性的,而且没有固定模板,目的是验证模型能否能完成自然语言问答任务。

结果,moe-llava-1.8b×4超过了图片分辨率更高的qwen-vl,说明moe-llava这一稀疏模型可以用更少的激活参数达到和稠密模型相当甚至更好的性能

3B模型不输7B LLaVA!北大多模态MoE模型登GitHub热榜 - 天天要闻

此外,研究团队还采用pope工具评估了验证moe-llava的幻觉,结果它表现最好的性能,意味着它能准确辨别图像内容。

具体来说,moe-llava-1.8b×4以2.2b的激活参数量,超过了13b的llava-1.5。

另外,moe-llava的yes ratio占比处于较均衡状态,说明它能够根据问题做出正确的反馈。

3B模型不输7B LLaVA!北大多模态MoE模型登GitHub热榜 - 天天要闻

那么,moe-llava具体是如何实现的呢?

向多模态模型中引入moe架构

moe-llava采用三阶段的训练策略,整体工作流程如下图所示。

前两个阶段中,图像和文本信息分别被视觉编码器(ve)和文本嵌入层(wel)转化为token。

具体来看,阶段1的目标是把视觉token转换成llm能理解的形式。

为了实现这一点,研究团队采用一个多层感知机(mlp)将视觉token投影到llm的输入域,使其作为llm能理解的伪文本token。

在这个阶段,llm被训练学会描述图片,为理解更高层次的图片语义的打下基础。

阶段2是用多模态的指令数据来对llm进行微调,使之成为有多模态理解能力的模型。

这个阶段的指令更加复杂,包含图片逻辑推理、文字识别等高级任务,对模型的多模态理解能力有了更高的要求。

3B模型不输7B LLaVA!北大多模态MoE模型登GitHub热榜 - 天天要闻

通常来说,如果是稠密多模态模型,训练过程到此就完成了,但研究团队发现同时将llm多模态化和稀疏化是有一定困难的。

为了解决这个问题,研究团队把该阶段的权重作为阶段3的初始化依据,以降低稀疏模型学习的难度。

作为初始化,研究团队把前馈神经网络(ffn)复制多份,作为专家集合的初始化权重。

当视觉token和文本token被送入moe架构时,router会计算每一个token和专家们的匹配权重,然后被送入最匹配的top-k个专家进行处理,最后根据router的权重加权求和汇聚成输出。

当top-k个专家被激活时,其余的专家保持静默,这种模型构成了具有无限可能的稀疏通路的moe-llava。

3B模型不输7B LLaVA!北大多模态MoE模型登GitHub热榜 - 天天要闻

整体上,在scienceqa数据集上训练时,所有的moe layer中的专家的负载比较平衡。

然而随着模型逐渐被稀疏化,第17到27层的专家的负载突然增大,甚至几乎包揽了所有tokens。

对于浅层的5-11层,主要是由专家2、3、4共同协作。值得关注的是,专家1几乎只在第1-3层工作,随着模型变深,专家1逐渐退出了工作。

可以看出,moe-llava的专家们学到了某种特定的模式,它能够按照一定的规律进行专家们的分工。

3B模型不输7B LLaVA!北大多模态MoE模型登GitHub热榜 - 天天要闻

进一步地,研究团队还分析了不同专家的模态分布,发现文本和图像的专家分布极其相似。

例如,当专家3在17-27层工作时,它所处理的文本和图像的占比是相似的,这展现出moe-llava中的专家对于模态并无明显的偏好。

3B模型不输7B LLaVA!北大多模态MoE模型登GitHub热榜 - 天天要闻

同时,研究团队还在token层次上观察了专家们的行为,跟踪了所有token在稀疏网络中的轨迹在下游任务。

通过pca降维方式,研究团队分析了对文本和图像所有的激活的通路,得到了主要的10条通路。

团队还发现,对于某个未见的文本或图像token,moe-llava始终偏向于派发专家2和3来处理;专家1、4则倾向于处理初始化的token。

3B模型不输7B LLaVA!北大多模态MoE模型登GitHub热榜 - 天天要闻

作者简介

moe-llava由北大深研院信息工程学院袁粒课题组主导,该课题组主要研究机器视觉、机器学习和脑科学。

去年推出的法律大模型chatlaw和ai表格工具酷表(chatexcel),该课题组都有参与其中。

本文第一作者是该实验室的硕士生林彬,此前他还以一作或共同一作的身份参与过和多模态对齐框架languagebind(入选iclr 2024)、视频大模型video-llava等工作。

3B模型不输7B LLaVA!北大多模态MoE模型登GitHub热榜 - 天天要闻

此外,来自中山大学、腾讯、farreel ai lab、鹏城实验室等机构的研究人员也参与了本项目。

github:

https://github.com/pku-yuangroup/moe-llava

论文地址:

https://arxiv.org/abs/2401.15947

demo:

https://huggingface.co/spaces/languagebind/moe-llava

动漫分类资讯推荐

幻化大赛,机械侏儒也可以幻化的很帅! - 天天要闻

幻化大赛,机械侏儒也可以幻化的很帅!

来看看本期选手的发挥,没想到机械侏儒可以弄的那么帅。友情提醒:因为微信公众号平台改变了规则,请在阅读后点击“在看”并加星标,这样才能在下一次推送时及时收到本号文章。- 更多内容,点击上方 -关注“魔兽世界研究所”公众号关注魔兽世界研究所,在后台回复抽奖二字,可参与魔兽世界蛋蛋手办的抽奖活动,每月都有,永...
火山引擎引爆大模型市场首场价格战 - 天天要闻

火山引擎引爆大模型市场首场价格战

万模大战现在难言胜者,但价格战已经开始,它无疑大大降低了用户使用的成本,火山引擎一面降价一面成立了手机、汽车两个生态联盟。汽车领域的合作伙伴包括吉利汽车、长城汽车、捷途汽车、赛力斯、智己汽车等20余家厂商。文丨智驾网  王欣编辑丨浪浪山与明知山字节系的火山引擎又搅起了大模型领域的一场激战,划出了一个从...
夜读丨50条微信个性签名(第二拨),来了! - 天天要闻

夜读丨50条微信个性签名(第二拨),来了!

昨晚《夜读》发布《50条微信个性签名,喜欢自取!》后,不到半天就收到了超过3000条评论,大家除了分享自己的微信签名外,还有很多这样的留言:一约既定,小编又带着图文来啦!  50条微信个性签名(第二拨来啦)01.欢迎光临我的快乐02.阅己,悦己,越己03.云边有个小卖部,货架堆着岁月和夕阳04.趁我还鲜活,不允许...
谁“辜负”了2024年这轮大涨? - 天天要闻

谁“辜负”了2024年这轮大涨?

2024年,A股市场迎来暌违多年的系统性筑底上涨表现,由此带动主动权益类金融产品整体有较强表现。初步统计有85%左右的新基金(权益为主方向)实现了净收益。而就在偏股混合基金年内“走出来”之时,年内依然有几只新发的偏股基金出现了明显的回撤。初始仓位很轻,偏股指数又系统性上涨,这些基金是如何在这样的有利环境下亏...
粗心爷爷接孙子放学结果走散 好心人“送娃” - 天天要闻

粗心爷爷接孙子放学结果走散 好心人“送娃”

新民晚报讯(记者 徐驰)昨天晚高峰5时20分左右,热心市民刘先生向轨交3号线虹桥路值班站长王欢欢反映,站台上孤零零地站着一个男孩子,身边没有家长陪同,疑似走失。  王欢欢前往现场后发现,男孩大约7岁,背着一只书包,正在不断地观察着四周的情况,看上去十分紧张。“小朋友,你要去哪里呀?是不是在等家长?”面对询...
漫漫评 | “幽灵枪”追凶 - 天天要闻

漫漫评 | “幽灵枪”追凶

枪声在校园和街道真切响起,执法部门却束手无策。枪支暴力带来的伤痛真实存在,悲剧接连不断。旧痕未愈,再添新伤。在此起彼伏的枪声中,没有枪支序号,无法被执法部门追踪的“幽灵枪”,无疑再次加深了美国社会问题的疮疤,为此埋单的是那些无辜逝去的生命和一个个破碎的家庭。监制:孟祥麟策划:刘慧漫画:刘俊文字:岳秋...
耕海牧渔,向海洋要食物 | 现场评论 - 天天要闻

耕海牧渔,向海洋要食物 | 现场评论

耕海牧渔,向海洋要食物——树立并践行大食物观悠悠万事,吃饭为大。解决吃饭问题,不能光盯着有限的耕地,要把思路打开,树立大食物观。在福建工作期间,习近平同志在《摆脱贫困》一书中就提出:“现在讲的粮食即食物,大粮食观念替代了以粮为纲的旧观念。”本版今起推出系列评论,聚焦福建树立并践行大食物观的实践探索...
市内四区明起禁飞“低慢小” - 天天要闻

市内四区明起禁飞“低慢小”

为确保我市近期举办的多项大型活动顺利举行,切实维护公共安全,杜绝各类违法违规飞行活动,5 月 15 日,市政府发布了《关于对无人机等"低慢小"航空器及空飘物实施临时管控的通告》。■管控对象"低慢小"航空器和空飘物,主要包括无人机、飞艇、航空模型、三角翼、滑翔伞、动力伞、热气球、无人驾驶自由气球、孔明灯等。■管...