3B模型不輸7B LLaVA!北大多模態MoE模型登GitHub熱榜

2024年02月24日00:31:34 動漫 5001

小炒湯圓 投稿

量子位 | 公眾號 qbitai

混合專家(moe)架構已支持多模態大模型,開發者終於不用卷參數量了!

北大聯合中山大學、騰訊等機構推出的新模型moe-llava,登上了github熱榜。

僅有3b激活參數,表現卻已和7b稠密模型持平,甚至部分指標比13b的模型還要好。

3B模型不輸7B LLaVA!北大多模態MoE模型登GitHub熱榜 - 天天要聞

從一張圖表中,moe-llava可以精準分析之中的細節,連線條的顏色都能把控到位。

3B模型不輸7B LLaVA!北大多模態MoE模型登GitHub熱榜 - 天天要聞

推理能力也十分優秀,能夠根據照片場景針對性地給出旅行建議。

3B模型不輸7B LLaVA!北大多模態MoE模型登GitHub熱榜 - 天天要聞

在物體幻覺基準測試中,moe-llava取得了近87分的成績,超過了一眾13b模型,佔據了成為成績-參數量圖線左上角的位置。

3B模型不輸7B LLaVA!北大多模態MoE模型登GitHub熱榜 - 天天要聞

性能方面,在8塊v100上,僅需兩天時間就能完成moe-llava的訓練

與簡單粗暴地提高參數量相比,moe架構大幅降低了多模態模型的訓練和推理成本。

目前,研究團隊已經開放了所有的數據、代碼和模型,那麼它的表現到底如何呢?

成績不輸13b稠密模型

在圖像問答數據集和benchmark工具上,moe-llava都取得了優異的測試成績。

與前sota方法llava-1.5相比,moe-llava-2.7b×4展現了強大的圖片理解能力,在5個數據集上的表現非常接近llava-1.5

其中,在sqa數據集上,moe-llava的成績比llava-1.5-7b還要領先1.9個百分點。

而相比於小規模多模態模型tinygpt-v,moe-llava-1.8b×4在相當的激活參數下,在gqa和viswiz數據集中分別超出27.5和10個百分點,說明了moe-llava擁有強大的視覺理解能力。

3B模型不輸7B LLaVA!北大多模態MoE模型登GitHub熱榜 - 天天要聞

為了更全面的驗證moe-llava的多模態理解能力,研究團隊在4個benchmark工具包上評估了它的性能。

benchmark工具包中的答案通常是開放性的,而且沒有固定模板,目的是驗證模型能否能完成自然語言問答任務。

結果,moe-llava-1.8b×4超過了圖片解析度更高的qwen-vl,說明moe-llava這一稀疏模型可以用更少的激活參數達到和稠密模型相當甚至更好的性能

3B模型不輸7B LLaVA!北大多模態MoE模型登GitHub熱榜 - 天天要聞

此外,研究團隊還採用pope工具評估了驗證moe-llava的幻覺,結果它表現最好的性能,意味著它能準確辨別圖像內容。

具體來說,moe-llava-1.8b×4以2.2b的激活參數量,超過了13b的llava-1.5。

另外,moe-llava的yes ratio佔比處於較均衡狀態,說明它能夠根據問題做出正確的反饋。

3B模型不輸7B LLaVA!北大多模態MoE模型登GitHub熱榜 - 天天要聞

那麼,moe-llava具體是如何實現的呢?

向多模態模型中引入moe架構

moe-llava採用三階段的訓練策略,整體工作流程如下圖所示。

前兩個階段中,圖像和文本信息分別被視覺編碼器(ve)和文本嵌入層(wel)轉化為token。

具體來看,階段1的目標是把視覺token轉換成llm能理解的形式。

為了實現這一點,研究團隊採用一個多層感知機(mlp)將視覺token投影到llm的輸入域,使其作為llm能理解的偽文本token。

在這個階段,llm被訓練學會描述圖片,為理解更高層次的圖片語義的打下基礎。

階段2是用多模態的指令數據來對llm進行微調,使之成為有多模態理解能力的模型。

這個階段的指令更加複雜,包含圖片邏輯推理、文字識別等高級任務,對模型的多模態理解能力有了更高的要求。

3B模型不輸7B LLaVA!北大多模態MoE模型登GitHub熱榜 - 天天要聞

通常來說,如果是稠密多模態模型,訓練過程到此就完成了,但研究團隊發現同時將llm多模態化和稀疏化是有一定困難的。

為了解決這個問題,研究團隊把該階段的權重作為階段3的初始化依據,以降低稀疏模型學習的難度。

作為初始化,研究團隊把前饋神經網路(ffn)複製多份,作為專家集合的初始化權重。

當視覺token和文本token被送入moe架構時,router會計算每一個token和專家們的匹配權重,然後被送入最匹配的top-k個專家進行處理,最後根據router的權重加權求和匯聚成輸出。

當top-k個專家被激活時,其餘的專家保持靜默,這種模型構成了具有無限可能的稀疏通路的moe-llava。

3B模型不輸7B LLaVA!北大多模態MoE模型登GitHub熱榜 - 天天要聞

整體上,在scienceqa數據集上訓練時,所有的moe layer中的專家的負載比較平衡。

然而隨著模型逐漸被稀疏化,第17到27層的專家的負載突然增大,甚至幾乎包攬了所有tokens。

對於淺層的5-11層,主要是由專家2、3、4共同協作。值得關注的是,專家1幾乎只在第1-3層工作,隨著模型變深,專家1逐漸退出了工作。

可以看出,moe-llava的專家們學到了某種特定的模式,它能夠按照一定的規律進行專家們的分工。

3B模型不輸7B LLaVA!北大多模態MoE模型登GitHub熱榜 - 天天要聞

進一步地,研究團隊還分析了不同專家的模態分布,發現文本和圖像的專家分布極其相似。

例如,當專家3在17-27層工作時,它所處理的文本和圖像的佔比是相似的,這展現出moe-llava中的專家對於模態並無明顯的偏好。

3B模型不輸7B LLaVA!北大多模態MoE模型登GitHub熱榜 - 天天要聞

同時,研究團隊還在token層次上觀察了專家們的行為,跟蹤了所有token在稀疏網路中的軌跡在下游任務。

通過pca降維方式,研究團隊分析了對文本和圖像所有的激活的通路,得到了主要的10條通路。

團隊還發現,對於某個未見的文本或圖像token,moe-llava始終偏向於派發專家2和3來處理;專家1、4則傾向於處理初始化的token。

3B模型不輸7B LLaVA!北大多模態MoE模型登GitHub熱榜 - 天天要聞

作者簡介

moe-llava由北大深研院信息工程學院袁粒課題組主導,該課題組主要研究機器視覺、機器學習和腦科學。

去年推出的法律大模型chatlaw和ai表格工具酷表(chatexcel),該課題組都有參與其中。

本文第一作者是該實驗室的碩士生林彬,此前他還以一作或共同一作的身份參與過和多模態對齊框架languagebind(入選iclr 2024)、視頻大模型video-llava等工作。

3B模型不輸7B LLaVA!北大多模態MoE模型登GitHub熱榜 - 天天要聞

此外,來自中山大學、騰訊、farreel ai lab、鵬城實驗室等機構的研究人員也參與了本項目。

github:

https://github.com/pku-yuangroup/moe-llava

論文地址:

https://arxiv.org/abs/2401.15947

demo:

https://huggingface.co/spaces/languagebind/moe-llava

動漫分類資訊推薦

看那顆星星,正在發光(15) - 天天要聞

看那顆星星,正在發光(15)

【編者按】在近期播出的影視作品和綜藝中,總有那麼一些可可愛愛,又令人難忘的藝人。他們有的是新生代演員,有的是初出茅廬的小愛豆,也有的是蟄伏多年的實力綠葉。本欄目希望藉此機會,捕捉那些已經在努力發光發亮的星星。今天主打的,是國產劇里的那些令人眼前一亮的「老婆們」。高露要說爆開劇王《慶余年2》里,截至目...
誅仙修訂版大結局改的多離譜?難怪很多人看後受不了 - 天天要聞

誅仙修訂版大結局改的多離譜?難怪很多人看後受不了

誅仙動漫第二季現在已經播出近半,我都沒想到,作為原著作者的蕭鼎居然突然動念要修改誅仙原著,隨後就發聲要推出一部所謂的修訂版。現在誅仙修訂版已經出來了,剛開始的時候我還以為就算作者要修訂也不會有多大改動,只是在原有的劇情上填一些坑,或者給一些人物增加一些劇情。
斗羅大陸:唐三為何要引來深淵位面?只因一點,可惜卻被人罵慘了 - 天天要聞

斗羅大陸:唐三為何要引來深淵位面?只因一點,可惜卻被人罵慘了

在斗羅大陸第三部中,唐三已經成為神王了。他在成為神王之後便做了一件事,這件事是什麼呢?便是引來深淵位面。對此可以說很多人不滿,更有人寫了詩諷刺他,說邊疆之處立火域,引來深淵可為人,說的就是斗破蒼穹的主角蕭炎可比唐三好多了,在大千世界的邊疆之處建立無盡火域對抗域外邪組。
吞噬星空導演緊急修改第118集,卻再遭網友群嘲,只因兩點 - 天天要聞

吞噬星空導演緊急修改第118集,卻再遭網友群嘲,只因兩點

吞噬星空年番第118集已經出來了,很多人應該都去看了。但是大家知道嗎?這一集剛出來沒有多久導演就搞了一個大動作。這個大動作是什麼呢?就是趕緊回去修改這一集。剛開始我還不知道,還是別人說了才知道。第118集有什麼內容被修改了呢?感興趣的話可以來看看。
「獻血警長」點亮「小桔燈」 為無數人送上生命的「火種」 - 天天要聞

「獻血警長」點亮「小桔燈」 為無數人送上生命的「火種」

這位「獻血警長」,他叫杲光興,來自河北省邯鄲市的館陶縣,16年來,他一直堅持無償獻血。6年前,他在當地還發起成立了「小桔燈」無償獻血志願服務隊,帶領800多名志願者一同獻血,為無數陌生患者送上生命的「火種」,一起走進他們的故事。 警長堅持無償獻血16年 成立志願服務隊1974年出生的杲光興,從警已有20年,如今是...
海賊王1104集:凱多海賊團退群吧!焰雲纏身,覺醒卡庫激戰索隆 - 天天要聞

海賊王1104集:凱多海賊團退群吧!焰雲纏身,覺醒卡庫激戰索隆

#海賊王#凱多的百獸海賊團可以退群了。海賊王動畫1104集,又一位動物系覺醒了,CP0的卡庫黑色焰雲纏身,以覺醒的姿態激戰索隆。看著覺醒的長頸鹿,不由想起,凱多的百獸海賊團,有覺醒的嗎?惡魔果實開發到更高一層的能力,就是覺醒。能力者覺醒很難,但一旦覺醒,就能獲得強大的力量。
「搶七」,意料之中的劇情? - 天天要聞

「搶七」,意料之中的劇情?

極目新聞記者 鄧鵬偉北京時間5月17日,NBA季後賽西部半決賽進行G6的較量,衛冕冠軍掘金客場70:115不敵森林狼,被這幫「狼崽子」揍得滿地找牙。雙方的比分就這樣來到了3:3,誰能進入西部決賽,就是一場比賽的事了。這場比賽太出乎人們的意料了:掘金「二人轉」之一的穆雷打出「罪犯式」的表現,垃圾時間之前,一群替補們居...
唯一登場率不足1%的戰士,卻能瞬秒猴子,吊打鎧,排位居然沒人用 - 天天要聞

唯一登場率不足1%的戰士,卻能瞬秒猴子,吊打鎧,排位居然沒人用

唯一登場率不足1%的戰士,卻能瞬秒猴子,吊打鎧,排位居然沒人用在王者榮耀裡面,每位英雄的登場率都不一樣,一般來說登場率高的英雄,說明這個英雄在當前版本很強勢,這個英雄在當前版本很熱門,我們可以通過英雄登場率的高低,來判斷這個英雄目前是不是很強勢,最近我發現有這樣一個戰士,他的登場率居然連1%都沒有,不過...