3B模型不輸7B LLaVA！北大多模態MoE模型登GitHub熱榜

2024年02月24日00:31:34 動漫 5001

小炒湯圓投稿

量子位 | 公眾號 qbitai

混合專家（moe）架構已支持多模態大模型，開發者終於不用卷參數量了！

北大聯合中山大學、騰訊等機構推出的新模型moe-llava，登上了github熱榜。

它僅有3b激活參數，表現卻已和7b稠密模型持平，甚至部分指標比13b的模型還要好。

從一張圖表中，moe-llava可以精準分析之中的細節，連線條的顏色都能把控到位。

推理能力也十分優秀，能夠根據照片場景針對性地給出旅行建議。

在物體幻覺基準測試中，moe-llava取得了近87分的成績，超過了一眾13b模型，佔據了成為成績-參數量圖線左上角的位置。

性能方面，在8塊v100上，僅需兩天時間就能完成moe-llava的訓練。

與簡單粗暴地提高參數量相比，moe架構大幅降低了多模態模型的訓練和推理成本。

目前，研究團隊已經開放了所有的數據、代碼和模型，那麼它的表現到底如何呢？

成績不輸13b稠密模型

在圖像問答數據集和benchmark工具上，moe-llava都取得了優異的測試成績。

與前sota方法llava-1.5相比，moe-llava-2.7b×4展現了強大的圖片理解能力，在5個數據集上的表現非常接近llava-1.5。

其中，在sqa數據集上，moe-llava的成績比llava-1.5-7b還要領先1.9個百分點。

而相比於小規模多模態模型tinygpt-v，moe-llava-1.8b×4在相當的激活參數下，在gqa和viswiz數據集中分別超出27.5和10個百分點，說明了moe-llava擁有強大的視覺理解能力。

為了更全面的驗證moe-llava的多模態理解能力，研究團隊在4個benchmark工具包上評估了它的性能。

benchmark工具包中的答案通常是開放性的，而且沒有固定模板，目的是驗證模型能否能完成自然語言問答任務。

結果，moe-llava-1.8b×4超過了圖片分辨率更高的qwen-vl，說明moe-llava這一稀疏模型可以用更少的激活參數達到和稠密模型相當甚至更好的性能。

此外，研究團隊還採用pope工具評估了驗證moe-llava的幻覺，結果它表現最好的性能，意味着它能準確辨別圖像內容。

具體來說，moe-llava-1.8b×4以2.2b的激活參數量，超過了13b的llava-1.5。

另外，moe-llava的yes ratio佔比處於較均衡狀態，說明它能夠根據問題做出正確的反饋。

那麼，moe-llava具體是如何實現的呢？

向多模態模型中引入moe架構

moe-llava採用三階段的訓練策略，整體工作流程如下圖所示。

前兩個階段中，圖像和文本信息分別被視覺編碼器（ve）和文本嵌入層（wel）轉化為token。

具體來看，階段1的目標是把視覺token轉換成llm能理解的形式。

為了實現這一點，研究團隊採用一個多層感知機（mlp）將視覺token投影到llm的輸入域，使其作為llm能理解的偽文本token。

在這個階段，llm被訓練學會描述圖片，為理解更高層次的圖片語義的打下基礎。

階段2是用多模態的指令數據來對llm進行微調，使之成為有多模態理解能力的模型。

這個階段的指令更加複雜，包含圖片邏輯推理、文字識別等高級任務，對模型的多模態理解能力有了更高的要求。

通常來說，如果是稠密多模態模型，訓練過程到此就完成了，但研究團隊發現同時將llm多模態化和稀疏化是有一定困難的。

為了解決這個問題，研究團隊把該階段的權重作為階段3的初始化依據，以降低稀疏模型學習的難度。

作為初始化，研究團隊把前饋神經網絡（ffn）複製多份，作為專家集合的初始化權重。

當視覺token和文本token被送入moe架構時，router會計算每一個token和專家們的匹配權重，然後被送入最匹配的top-k個專家進行處理，最後根據router的權重加權求和匯聚成輸出。

當top-k個專家被激活時，其餘的專家保持靜默，這種模型構成了具有無限可能的稀疏通路的moe-llava。

整體上，在scienceqa數據集上訓練時，所有的moe layer中的專家的負載比較平衡。

然而隨着模型逐漸被稀疏化，第17到27層的專家的負載突然增大，甚至幾乎包攬了所有tokens。

對於淺層的5-11層，主要是由專家2、3、4共同協作。值得關注的是，專家1幾乎只在第1-3層工作，隨着模型變深，專家1逐漸退出了工作。

可以看出，moe-llava的專家們學到了某種特定的模式，它能夠按照一定的規律進行專家們的分工。

進一步地，研究團隊還分析了不同專家的模態分佈，發現文本和圖像的專家分佈極其相似。

例如，當專家3在17-27層工作時，它所處理的文本和圖像的佔比是相似的，這展現出moe-llava中的專家對於模態並無明顯的偏好。

同時，研究團隊還在token層次上觀察了專家們的行為，跟蹤了所有token在稀疏網絡中的軌跡在下游任務。

通過pca降維方式，研究團隊分析了對文本和圖像所有的激活的通路，得到了主要的10條通路。

團隊還發現，對於某個未見的文本或圖像token，moe-llava始終偏向於派發專家2和3來處理；專家1、4則傾向於處理初始化的token。

作者簡介

moe-llava由北大深研院信息工程學院袁粒課題組主導，該課題組主要研究機器視覺、機器學習和腦科學。

去年推出的法律大模型chatlaw和ai表格工具酷表（chatexcel），該課題組都有參與其中。

本文第一作者是該實驗室的碩士生林彬，此前他還以一作或共同一作的身份參與過和多模態對齊框架languagebind（入選iclr 2024）、視頻大模型video-llava等工作。

此外，來自中山大學、騰訊、farreel ai lab、鵬城實驗室等機構的研究人員也參與了本項目。

github:

https://github.com/pku-yuangroup/moe-llava

論文地址:

https://arxiv.org/abs/2401.15947

demo:

https://huggingface.co/spaces/languagebind/moe-llava

動漫

唱空 Meme? 帶單大師 Ansem 與 50 萬粉 KOL 對線激辯 Meme 的未來 - 天天要聞

唱空 Meme? 帶單大師 Ansem 與 50 萬粉 KOL 對線激辯 Meme 的未來

撰文：深潮 TechFlow因為公平發射、內含文化簡單易懂等特性，Meme一直作為散戶精神的代表。讓 Meme 漲，是加密韭菜們心裏共同的期許和願望。當然從Meme 誕生的那一刻起，圍繞着 Meme 價格與未來走勢的爭論也從未休止。但如果你公開看跌Meme，恐怕會引來一場大論戰。上次 a16z CTO與社區關於Meme 價值爭論的影響還未消散，昨...

05月17日 6947

Int'l Conference Seeks Papers on Human Rights in Ancient Chinese Classics - 天天要聞

Int'l Conference Seeks Papers on Human Rights in Ancient Chinese Classics

Photo shows Yuelu Academy at Hunan University in Changsha, central China's Hunan Province. (Photo provided to People's Daily Online)The International Conference on the Ideas of Hum

05月17日 1656

Environmental Progress in Hengdong Sparks Bird Diversity and Abundance - 天天要聞

Environmental Progress in Hengdong Sparks Bird Diversity and Abundance

The photo shows egrets returning to their nests as the sun sets at Gaohu Town, Hengdong County. In recent years, the county government has intensified efforts to protect environmen

05月17日 4124

Trade, Investment Expo Puts Central China as Platform for Global Market - 天天要聞

Trade, Investment Expo Puts Central China as Platform for Global Market

This aerial photo taken on June 7, 2023 shows a view of downtown Changsha, Central China's Hunan province. [Photo/Xinhua]The 13th Central China Investment and Trade Exposition will

05月17日 7113

New Farmer Boosts Specialty Pepper with Technology in Hunan - 天天要聞

New Farmer Boosts Specialty Pepper with Technology in Hunan

Shao Jianlong (R) selects peppers with Gan Zhenhua, head of the Hunan Zhongyuan ecological agriculture technology development Co., Ltd., in Zhangshu Township, Xiangyin County, cent

05月17日 1652

Zhangjiajie Promotes Culture, Tourism in Japan - 天天要聞

Zhangjiajie Promotes Culture, Tourism in Japan

Hunan's Zhangjiajie City held a conference to promote culture and tourism in Tokyo, the capital of Japan, on May 14. With the theme of "Wonderland Zhangjiajie," the event was atten

05月17日 3659

2024 Hunan Industrial Tourism Promotion Month Event to open soon - 天天要聞

2024 Hunan Industrial Tourism Promotion Month Event to open soon

A press conference for the 2024 Hunan Industrial Tourism Promotion Month Event was held in Changsha on May 13.The event will be launched on May 31 in Zhuzhou City, Hunan Province,

05月17日 2968

史萊克七怪成年模型曝光，蕭蕭逆襲，蘿莉變成御姐，王冬卻被罵了 - 天天要聞

史萊克七怪成年模型曝光，蕭蕭逆襲，蘿莉變成御姐，王冬卻被罵了

哈嘍，大家好，我是木子。現在《斗羅大陸2絕世唐門》動漫的劇情已經更新到了極限單兵計劃開啟的階段，在這個時候霍雨浩等人將會前往日月帝國明德堂進行為期五年的留學生活，在等到霍雨浩回來之後，史萊克學院也都已經長大變成了快要二十歲的青年了，如今動漫官方也將他們的青年模型給曝光了，那麼接下來就跟着木子一起來看...

05月17日 4162

「燒光」7萬億美元，與英偉達、台積電為敵，奧特曼需要8年半 - 天天要聞

「燒光」7萬億美元，與英偉達、台積電為敵，奧特曼需要8年半

「芯事重重」半導體產業研究策劃，本期聚焦山姆·奧特曼7萬億美元建廠的可行性分析，獨家發佈騰訊新聞，未經授權，請勿轉載。文/ 前台積電建廠專家 Leslie Wu（公眾號：gh_df9a5....

05月17日 3007

幻化大賽，機械侏儒也可以幻化的很帥！ - 天天要聞

幻化大賽，機械侏儒也可以幻化的很帥！

來看看本期選手的發揮，沒想到機械侏儒可以弄的那麼帥。友情提醒：因為微信公眾號平台改變了規則，請在閱讀後點擊「在看」並加星標，這樣才能在下一次推送時及時收到本號文章。- 更多內容，點擊上方 -關注「魔獸世界研究所」公眾號關注魔獸世界研究所，在後台回復抽獎二字，可參與魔獸世界蛋蛋手辦的抽獎活動，每月都有，永...

05月17日 4392