3B模型不輸7B LLaVA!北大多模態MoE模型登GitHub熱榜

2024年02月24日00:31:34 動漫 5001

小炒湯圓 投稿

量子位 | 公眾號 qbitai

混合專家(moe)架構已支持多模態大模型,開發者終於不用卷參數量了!

北大聯合中山大學、騰訊等機構推出的新模型moe-llava,登上了github熱榜。

僅有3b激活參數,表現卻已和7b稠密模型持平,甚至部分指標比13b的模型還要好。

3B模型不輸7B LLaVA!北大多模態MoE模型登GitHub熱榜 - 天天要聞

從一張圖表中,moe-llava可以精準分析之中的細節,連線條的顏色都能把控到位。

3B模型不輸7B LLaVA!北大多模態MoE模型登GitHub熱榜 - 天天要聞

推理能力也十分優秀,能夠根據照片場景針對性地給出旅行建議。

3B模型不輸7B LLaVA!北大多模態MoE模型登GitHub熱榜 - 天天要聞

在物體幻覺基準測試中,moe-llava取得了近87分的成績,超過了一眾13b模型,佔據了成為成績-參數量圖線左上角的位置。

3B模型不輸7B LLaVA!北大多模態MoE模型登GitHub熱榜 - 天天要聞

性能方面,在8塊v100上,僅需兩天時間就能完成moe-llava的訓練

與簡單粗暴地提高參數量相比,moe架構大幅降低了多模態模型的訓練和推理成本。

目前,研究團隊已經開放了所有的數據、代碼和模型,那麼它的表現到底如何呢?

成績不輸13b稠密模型

在圖像問答數據集和benchmark工具上,moe-llava都取得了優異的測試成績。

與前sota方法llava-1.5相比,moe-llava-2.7b×4展現了強大的圖片理解能力,在5個數據集上的表現非常接近llava-1.5

其中,在sqa數據集上,moe-llava的成績比llava-1.5-7b還要領先1.9個百分點。

而相比於小規模多模態模型tinygpt-v,moe-llava-1.8b×4在相當的激活參數下,在gqa和viswiz數據集中分別超出27.5和10個百分點,說明了moe-llava擁有強大的視覺理解能力。

3B模型不輸7B LLaVA!北大多模態MoE模型登GitHub熱榜 - 天天要聞

為了更全面的驗證moe-llava的多模態理解能力,研究團隊在4個benchmark工具包上評估了它的性能。

benchmark工具包中的答案通常是開放性的,而且沒有固定模板,目的是驗證模型能否能完成自然語言問答任務。

結果,moe-llava-1.8b×4超過了圖片解析度更高的qwen-vl,說明moe-llava這一稀疏模型可以用更少的激活參數達到和稠密模型相當甚至更好的性能

3B模型不輸7B LLaVA!北大多模態MoE模型登GitHub熱榜 - 天天要聞

此外,研究團隊還採用pope工具評估了驗證moe-llava的幻覺,結果它表現最好的性能,意味著它能準確辨別圖像內容。

具體來說,moe-llava-1.8b×4以2.2b的激活參數量,超過了13b的llava-1.5。

另外,moe-llava的yes ratio佔比處於較均衡狀態,說明它能夠根據問題做出正確的反饋。

3B模型不輸7B LLaVA!北大多模態MoE模型登GitHub熱榜 - 天天要聞

那麼,moe-llava具體是如何實現的呢?

向多模態模型中引入moe架構

moe-llava採用三階段的訓練策略,整體工作流程如下圖所示。

前兩個階段中,圖像和文本信息分別被視覺編碼器(ve)和文本嵌入層(wel)轉化為token。

具體來看,階段1的目標是把視覺token轉換成llm能理解的形式。

為了實現這一點,研究團隊採用一個多層感知機(mlp)將視覺token投影到llm的輸入域,使其作為llm能理解的偽文本token。

在這個階段,llm被訓練學會描述圖片,為理解更高層次的圖片語義的打下基礎。

階段2是用多模態的指令數據來對llm進行微調,使之成為有多模態理解能力的模型。

這個階段的指令更加複雜,包含圖片邏輯推理、文字識別等高級任務,對模型的多模態理解能力有了更高的要求。

3B模型不輸7B LLaVA!北大多模態MoE模型登GitHub熱榜 - 天天要聞

通常來說,如果是稠密多模態模型,訓練過程到此就完成了,但研究團隊發現同時將llm多模態化和稀疏化是有一定困難的。

為了解決這個問題,研究團隊把該階段的權重作為階段3的初始化依據,以降低稀疏模型學習的難度。

作為初始化,研究團隊把前饋神經網路(ffn)複製多份,作為專家集合的初始化權重。

當視覺token和文本token被送入moe架構時,router會計算每一個token和專家們的匹配權重,然後被送入最匹配的top-k個專家進行處理,最後根據router的權重加權求和匯聚成輸出。

當top-k個專家被激活時,其餘的專家保持靜默,這種模型構成了具有無限可能的稀疏通路的moe-llava。

3B模型不輸7B LLaVA!北大多模態MoE模型登GitHub熱榜 - 天天要聞

整體上,在scienceqa數據集上訓練時,所有的moe layer中的專家的負載比較平衡。

然而隨著模型逐漸被稀疏化,第17到27層的專家的負載突然增大,甚至幾乎包攬了所有tokens。

對於淺層的5-11層,主要是由專家2、3、4共同協作。值得關注的是,專家1幾乎只在第1-3層工作,隨著模型變深,專家1逐漸退出了工作。

可以看出,moe-llava的專家們學到了某種特定的模式,它能夠按照一定的規律進行專家們的分工。

3B模型不輸7B LLaVA!北大多模態MoE模型登GitHub熱榜 - 天天要聞

進一步地,研究團隊還分析了不同專家的模態分布,發現文本和圖像的專家分布極其相似。

例如,當專家3在17-27層工作時,它所處理的文本和圖像的佔比是相似的,這展現出moe-llava中的專家對於模態並無明顯的偏好。

3B模型不輸7B LLaVA!北大多模態MoE模型登GitHub熱榜 - 天天要聞

同時,研究團隊還在token層次上觀察了專家們的行為,跟蹤了所有token在稀疏網路中的軌跡在下游任務。

通過pca降維方式,研究團隊分析了對文本和圖像所有的激活的通路,得到了主要的10條通路。

團隊還發現,對於某個未見的文本或圖像token,moe-llava始終偏向於派發專家2和3來處理;專家1、4則傾向於處理初始化的token。

3B模型不輸7B LLaVA!北大多模態MoE模型登GitHub熱榜 - 天天要聞

作者簡介

moe-llava由北大深研院信息工程學院袁粒課題組主導,該課題組主要研究機器視覺、機器學習和腦科學。

去年推出的法律大模型chatlaw和ai表格工具酷表(chatexcel),該課題組都有參與其中。

本文第一作者是該實驗室的碩士生林彬,此前他還以一作或共同一作的身份參與過和多模態對齊框架languagebind(入選iclr 2024)、視頻大模型video-llava等工作。

3B模型不輸7B LLaVA!北大多模態MoE模型登GitHub熱榜 - 天天要聞

此外,來自中山大學、騰訊、farreel ai lab、鵬城實驗室等機構的研究人員也參與了本項目。

github:

https://github.com/pku-yuangroup/moe-llava

論文地址:

https://arxiv.org/abs/2401.15947

demo:

https://huggingface.co/spaces/languagebind/moe-llava

動漫分類資訊推薦

現有合同剩3年1.66億!恩比德今夏有資格和76人簽3年1.935億合同 - 天天要聞

現有合同剩3年1.66億!恩比德今夏有資格和76人簽3年1.935億合同

直播吧05月03日訊 76人在主場以115-118不敵尼克斯,大比分2-4首輪出局結束賽季征程。薪資專家Bobby Marks在文章中談到了76人,其中關於恩比德「錢景」部分如下:從7月19日起,恩比德有資格簽下一份3年1.935億美元的合同,這對76人管理層來說似乎是一個不需要動腦筋的決定。恩比德正處於職業生涯的黃金時期(今年3月剛滿30歲...
看完《微暗之火》第13集才知,徐毅對南雅態度轉變的真正原因 - 天天要聞

看完《微暗之火》第13集才知,徐毅對南雅態度轉變的真正原因

徐毅之前那麼喜歡南雅,為什麼在得到南雅之後反而不珍惜了呢?看完《微暗之火》第13集才知,徐毅對南雅態度轉變的真正原因。胡立帆的死那天,徐毅想約南雅看電影,在電影院等了許久都不見南雅來,便去茶廠找她,意外撞見了胡立帆想要強暴南雅。胡立帆人高馬大,徐毅和南雅都不是他的對手,眼看南雅被撞暈,徐毅情急之下,用...
「當時蛇害怕極了」!海關發布了開箱查驗視頻 - 天天要聞

「當時蛇害怕極了」!海關發布了開箱查驗視頻

近日,海口海關所屬海口美蘭機場海關在監管入境客運航班時,現場關員通過先期機檢發現1件託運行李圖像存在異常。攜帶該件行李的旅客通關時選擇無申報通道,未向海關申報任何物品。經現場關員開箱查驗,在其行李物品內查獲4個裝有活物的白色布袋,拆開後發現每隻布袋中均包裹有活體蛇類1條,共計4條。經鑒定,這4條活體蛇為...
鐵軍風采 | 五四青年節特輯·青春護綠,奮鬥正當時(上篇) - 天天要聞

鐵軍風采 | 五四青年節特輯·青春護綠,奮鬥正當時(上篇)

五四青年節到來之際,為展示生態環境青年執法精兵「政治強、本領高、作風硬、敢擔當」的青春本色,弘揚「特別能吃苦、特別能戰鬥、特別能奉獻」的鐵軍精神,生態環境部推出五四青年節特輯宣傳,發布一批榮獲2023年全國生態環境保護執法大練兵表現突出個人青年執法精兵先進事迹,致敬青年力量,扛起時代之責。一胡幸寧:深耕...
「擋刀女孩」的這段講述,讓人淚目! - 天天要聞

「擋刀女孩」的這段講述,讓人淚目!

這是一段讓人熱血沸騰又熱淚盈眶的視頻這是一些關於勇敢和平凡的青春故事在離太陽最近的珠峰腳下珠峰邊境派出所的年輕人任憑風割、日晒、冰凍每日與寂寞和野狼為伴只為肩負守衛國門的重任在風景秀美的浙江諸暨楓橋派出所的年輕人每日走訪、排查與街坊鄰里家長里短只為將矛盾化解在萌芽在四季如春的雲南昆明雲豹突擊大隊的年...
救出6人的梅大高速救人者劉永縉:「爆炸聲就在我們救人的十米開外炸響,沒想到我那麼勇敢」 - 天天要聞

救出6人的梅大高速救人者劉永縉:「爆炸聲就在我們救人的十米開外炸響,沒想到我那麼勇敢」

「小孩先來!」藉助手機電筒的微光,沿著「Z」型路線順坡而下,劉永縉喊道:「人在哪?應一下?」走下距離路面約5米的斜坡下方,劉永縉看到在車邊驚魂未定、年僅3歲的小女孩。他和隨行的小伙把小女孩抱到路邊的應急車道。隨後,他們又折回將另一名6歲的小男孩抱起,接力傳送到應急車道安放。此後,讓這個小夥子守護兩個小孩...
何不對「我妻之死」男主人公多一些共情?|新京報快評 - 天天要聞

何不對「我妻之死」男主人公多一些共情?|新京報快評

▲《我妻之死》作者在微信公眾號上發布的家人照片。圖/微信公眾號「偶有管見」據紅星新聞報道,最近,一篇題為《我妻之死》的自媒體文章,在網路上引發強烈關注。文章作者以萬字長文,記錄了結婚13年的妻子在加拿大患癌到病逝的全過程。文章發布之後,連日來受到廣泛關注,相關話題也登上熱搜。但文章隨後也陷入了爭議。有...
新勢力4月銷量「出爐」:理想、蔚來、零跑穩居前三,小米首公布交付成績單 - 天天要聞

新勢力4月銷量「出爐」:理想、蔚來、零跑穩居前三,小米首公布交付成績單

每經記者:孫磊    每經編輯:裴健如5月1日,多家新能源汽車企業公布了2024年4月的銷售成績。具體來看,造車新勢力方面,理想汽車4月交付約2.58萬輛汽車,同比增長0.4%。截至今年四月底,理想汽車累計交付車輛接近74萬輛。製表:每經記者 孫磊據了解,理想汽車在4月初基本完成了組織架構的調整,把矩陣型組織2.0的架構...