NUS、清華聯合出品!NExT-Chat:對話、檢測、分割多模態大模型

2023年12月29日13:55:14 教育 1342

隨著年初ChatGPT的爆紅,多模態領域也湧現出一大批可以處理多種模態輸入的對話模型,如LLaVA, BLIP-2等等。為了進一步擴展多模態大模型的區域理解能力,近期新加坡國立大學和清華大學的小夥伴打造了一個可以同時進行對話和檢測、分割的多模態模型NExT-Chat。


題目:NExT-Chat: An LMM for Chat, Detection and Segmentation


作者:張傲,姚遠,吉煒,劉知遠,Chua Tat-Seng


單位:新加坡國立大學,清華大學


多模態對話模型Demo

https://next-chatv.github.io/


論文

https://arxiv.org/pdf/2311.04498.pdf


代碼

https://github.com/NExT-ChatV/NExT-Chat



NUS、清華聯合出品!NExT-Chat:對話、檢測、分割多模態大模型 - 天天要聞


方法簡介


1 目標
文章探索了如何在多模態模型中引入位置輸入和輸出的能力。其中位置輸入能力指的是根據指定的區域回答問題,比如圖1中的左圖。位置輸出能力指的是定位對話中提及的物體,如圖1右圖的小熊定位:


NUS、清華聯合出品!NExT-Chat:對話、檢測、分割多模態大模型 - 天天要聞

圖 1:位置輸入和輸出示例


2 現有方法
現有的方法主要通過pix2seq的方式進行LLM相關的位置建模。比如Kosmos-2將圖像劃分成32x32的區塊,用每個區塊的id來代表點的坐標。Shikra將物體框的坐標轉化為純文本的形式從而使得LLM可以理解坐標。

但使用pix2seq方法的模型輸出主要局限在框和點這樣的簡單格式,而很難泛化到其他更密集的位置表示格式,比如segmentation mask。為了解決這個問題,本文提出了一種全新的基於embedding的位置建模方式pix2emb。

3 pix2emb方法
不同於pix2seq,所有的位置信息都通過對應的encoder和decoder進行編碼和解碼,而不是藉助LLM本身的文字預測頭


NUS、清華聯合出品!NExT-Chat:對話、檢測、分割多模態大模型 - 天天要聞

圖 2:pix2emb方法簡單示例


如圖2所示,位置輸入被對應的encoder編碼為位置embedding,而輸出的位置embedding則通過Box Decoder和Mask Decoder轉化為框和掩模。
這樣做帶來了兩個好處:(1) 模型的輸出格式可以非常方便的擴展到更多複雜形式,比如segmentation mask。(2) 模型可以非常容易的定位任務中已有的實踐方式,比如本文的detection loss採用L1 Loss和GIoU Loss (pix2seq則只能使用文本生成loss),本文的mask decoder藉助了已有的SAM來做初始化。

3 NExT-Chat模型
通過藉助pix2emb方法,作者訓練了一個全新的NExT-Chat模型。

NUS、清華聯合出品!NExT-Chat:對話、檢測、分割多模態大模型 - 天天要聞

圖 3:NExT-Chat模型架構


NExT-Chat整體採用了LLaVA架構,即通過Image Encoder來編碼圖像信息並輸入LLM進行理解,並在此基礎上添加了對應的Box Encoder和兩種位置輸出的Decoder。


然而在正常情況下,LLM不知道何時該使用語言的LM head還是位置解碼器。為了解決這一問題,NExT-Chat額外引入一個全新的token類型<trigger>來標識位置信息。如果模型輸出了,則的embedding會被送入對應的位置解碼器進行解碼而不是語言解碼器。

此外,為了維持輸入階段和輸出階段,位置信息的一致性。NExT-Chat額外引入了一個對齊約束:


NUS、清華聯合出品!NExT-Chat:對話、檢測、分割多模態大模型 - 天天要聞

圖 4:位置輸入、輸出約束


如圖4所示,box和位置embedding會被分別通過解碼器、編碼器或解碼器編碼器組合,並要求前後不發生變化。作者發現該方法可以極大程度促進位置輸入能力的收斂。


4 NExT-Chat訓練


模型訓練主要包括3個階段:


(1)第一階段:該階段目的在於訓練模型基本的框輸入輸出基本能力。NExT-Chat採用Flickr-30K,RefCOCO,VisualGenome等包含框輸入輸出的數據集進行預訓練。訓練過程中,LLM參數會被全部訓練。


(2)第二階段:該階段目的在於調整LLM的指令遵循能力。通過一些Shikra-RD,LLaVA-instruct之類的指令微調數據使得模型可以更好的響應人類的要求,輸出更人性化的結果。


(3)第三階段:該階段目的在於賦予NExT-Chat模型分割能力。通過以上兩階段訓練,模型已經有了很好的位置建模能力。作者進一步將這種能力擴展到mask輸出上。實驗發現,通過使用極少量的mask標註數據和訓練時間(大約3小時),NExT-Chat可以快速的擁有良好的分割能力。

這樣的訓練流程的好處在於:檢測框數據豐富且訓練開銷更小。NExT-Chat通過在充沛的檢測框數據訓練基本的位置建模能力,之後可以快速的擴展到難度更大且標註更稀缺的分割任務上


二、實驗


在實驗部分,NExT-Chat展示了多個任務數據集上的數值結果和多個任務場景下的對話示例。


2.1 RES任務


NUS、清華聯合出品!NExT-Chat:對話、檢測、分割多模態大模型 - 天天要聞

表1:RES任務上NExT-Chat結果


作者首先展示了NExT-Chat在RES任務上的實驗結果。雖然僅僅用了極少量的分割數據,NExT-Chat卻展現出了良好的指代分割能力,甚至打敗了一系列有監督模型(如MCN,VLT等)和用了5倍以上分割掩模標註的LISA方法。


2.2 REC任務


NUS、清華聯合出品!NExT-Chat:對話、檢測、分割多模態大模型 - 天天要聞

表2:REC任務上NExT-Chat結果


作者然後展示了NExT-Chat在REC任務上的實驗結果。如表2所示,相比於相當一系列的有監督方法(如UNITER),NExT-Chat都可以取得更優的效果。一個有意思的發現是NExT-Chat比使用了類似框訓練數據的Shikra效果要稍差一些。作者猜測是由於pix2emb方法中LM loss和detection loss更難以平衡,以及Shikra更貼近現有的純文本大模型的預訓練形式。


2.3 圖像幻覺任務


NUS、清華聯合出品!NExT-Chat:對話、檢測、分割多模態大模型 - 天天要聞

表3:POPE數據集上NExT-Chat結果


如表3所示,NExT-Chat可以在Random和Popular數據集上取得最優的準確率。


2.4 區域描述任務


NUS、清華聯合出品!NExT-Chat:對話、檢測、分割多模態大模型 - 天天要聞

表4:RefCOCOg數據集上NExT-Chat結果


在區域描述任務上,NExT-Chat可以取得最優的CIDEr表現,且在該指標打敗了4-shot情況下的Kosmos-2。


2.5 Demo展示


在文中,作者展示了多個相關demo:


NUS、清華聯合出品!NExT-Chat:對話、檢測、分割多模態大模型 - 天天要聞

圖5:定位小熊


NUS、清華聯合出品!NExT-Chat:對話、檢測、分割多模態大模型 - 天天要聞

圖6:複雜定位


NUS、清華聯合出品!NExT-Chat:對話、檢測、分割多模態大模型 - 天天要聞

圖7:描述圖片


NUS、清華聯合出品!NExT-Chat:對話、檢測、分割多模態大模型 - 天天要聞

圖8:區域描述



NUS、清華聯合出品!NExT-Chat:對話、檢測、分割多模態大模型 - 天天要聞

圖9:推理


五、總結


本文探索了一種不同於pix2seq形式的位置建模方式pixemb。通過pix2emb方法,作者構建了NExT-Chat多模態大模型。NExT-Chat大模型可以在對話過程中完成相關物體的檢測、分割並對指定區域進行描述。通過充足的實驗評測,作者展示了NExT-Chat在多種場景下的優秀數值表現和展示效果。

教育分類資訊推薦

裴若媛:我的善解人意的英語老師 - 天天要聞

裴若媛:我的善解人意的英語老師

我的善解人意的英語老師五年級裴若媛牡丹花姐姐?也許你會問:「牡丹花為什麼會變成姐姐呢?難道你的姐姐有別的魔法?」我鄭重地告訴你,我的姐姐是一朵美若天仙的牡丹花。在一個萬里晴空的好天氣里,我走進了熟悉的教室。在自己的座位上,看到英語老師拿著課
黃龍縣職業教育中心:青春與汗水共繪賽場華章 - 天天要聞

黃龍縣職業教育中心:青春與汗水共繪賽場華章

和風四月春意濃,綠茵場上展英姿。2025年4月28日至30日,黃龍縣職業教育中心以「競技賽場 青春綻放」為主題,成功舉辦了春季趣味運動會!全體師生齊聚操場,用激情與歡笑點燃春日,以拼搏與團結書寫青春記憶。
山東省屬高校哪些專業值得選?請收藏 - 天天要聞

山東省屬高校哪些專業值得選?請收藏

1.山東大學:醫學、數學、中文、財經、物理學、自動化、信息安全、歷史學、機械、法學、計算機等2.中國海洋大學:海洋科學類、水產類、生物學類、食品類、法學、計算機類等3.中國石油大學(華東):石油類、地質類、化工類、機械類、自動化、能源動力類
「學生組團退60件演出服」引熱議 7天無理由就是隨便退嗎? - 天天要聞

「學生組團退60件演出服」引熱議 7天無理由就是隨便退嗎?

近日,「學生組團退60件演出服」登上多個平台熱搜,店主稱瀋陽遼美中等職業學校學生們集體網購衣服,參加完運動會後以「質量問題」為名退貨退款,導致店鋪被封,損失大概有8000元。店主昨天(5月3日)表示,已接到學校相關負責人電話,校方就此事道歉,並承諾回收服裝、承擔相關費用,雙方目前達成和解。為了保護消費者權益...