始智ai wisemodel.cn開源社區
01
簡介
textmonkey是一個專註於文本相關任務(包括文檔問答和場景文本問答)的多模態大模型(lmm)。相比於monkey,textmonkey在多個方面進行改進:通過採用零初始化的shifted window attention,textmonkey實現了更高輸入分辨率下的窗口間信息交互;通過使用相似性來過濾出重要的圖像特徵,textmonkey不僅能夠簡化輸入,還可以提高模型的性能。此外,通過擴展多個文本相關任務並將位置信息納入回答,textmonkey增強了可解釋性並減少了幻覺。與此同時,textmonkey在微調之後還可以具備app agent中理解用戶指令並點擊相應位置的能力,展現了其下游應用的巨大潛力。
實驗結果表明,textmonkey在各種基準數據集上的性能得到了顯著提升,在以場景文本為中心的視覺問答、文檔vqa和關鍵信息抽取任務中分別取得了5.2%、6.9%和2.8%的準確率增長,特別是在ocrbench[2]上獲得了561的得分,超越此前所有已開源的多模態大模型。
textmonkey的成功核心在於它模擬人類視覺認知的方法,這使它能自然而然地識別高清文檔圖像中各部分的相互關聯,並靈敏地鑒別出圖像內的關鍵要素。更進一步,基於對用戶多樣化需求的深入理解,textmonkey通過文本定位技術強化了答案的準確性,提升了模型的解釋性,減少了幻覺,有效提高了在處理各類文檔任務上的表現。
02
方法介紹
圖1 textmonkey整體架構
1. shifted window attention
現有的多模態大模型,如monkey和llava1.6,通過將圖像切分為小塊來提高輸入分辨率。然而這種裁剪策略可能會無意中分割相關單詞,導致語義不連貫。此外,這種分裂造成的空間分離也使得處理與文本位置相關的任務(如文本檢測)變得具有挑戰性。textmonkey在繼承monkey高效的圖像分辨率縮放功能的同時,採用滑動窗口注意力機制建立了塊與塊之間的上下文聯繫。
2. token resampler
目前的多模態大模型面臨著圖像token數目隨着輸入分辨率的增加而增加的挑戰。由於語言模型的輸入長度和訓練時間的限制,減少token的數量是很有必要的。
在自然語言中,語言元素會存在一些冗餘信息。那麼可以自然的猜測在擴大圖像分辨率之後,視覺部分的token也會存在冗餘。本文根據以往確定語言元素相似性的方法,對已經映射到語言空間的圖像token的相似性進行了度量:在圖像resampler之後隨機選取20個有序特徵,利用餘弦相似性成對比較這些特徵的相似性,得到的結果如圖2所示。顏色越深代表相似性越高,實驗發現每個圖片的token都有一個到幾個類似的token,圖片特徵中存在冗餘。同時,本文還觀察到某些令牌是高度獨特的,並且缺乏其他相似的token,如圖中的第四個token,這表明這個token是更為重要的。因此本文選用相似度來度量並識別獨特的視覺token。並提出token resampler來壓縮冗餘視覺token。通過計算每個token與其他token的相似度,過濾得到最重要(相似度最低)的k個token。同時,為了避免直接丟棄其他token造成的信息丟失,這裡還會利用過濾得到的k 個token作為查詢,並採用交叉注意力機制進一步融合所有特徵。
圖2 圖像token相似性比較
3. 多任務訓練
textmonkey支持讀出所有文本,文本檢測識別,輸出給定文本坐標,文本問答,具有位置感知的文本問答,圖像結構化等多個任務。textmonkey在進行問答時不僅看可以給出答案,還能給出答案所在位置,進一步增強了模型的可解釋性。與此同時,在經過微調之後,textmonkey還可以具備app agent中理解用戶指令並點擊相應位置的能力。
03
實驗分析
04
可視化結果展示
05
demo展示
06
更多可能性
圖4 textmonkey充當智能手機代理控制手機應用程序
07
總結
textmonkey在monkey的基礎上增強了其圖像間的跨窗口交互,在擴大分辨率的基礎上增強了視覺信息的語義連續性,有效緩解了視覺信息碎片化的問題;並通過提出過濾融合策略減少圖像特徵長度,從而減少輸入到大語言模型中冗餘的視覺token數量。論文的實驗說明,分辨率不是越大越好,不合理的提高模型分辨率策略有時會給模型帶來負面影響,如何合理地擴大分辨率才是一個更值得去思考的問題。此外,通過在問答中引入位置信息,textmonkey增強了可解釋性並減少了幻覺。textmonkey在多個文本相關的測試基準中處於國際領先,在ocrbench中超越其他開源多模態大模型。textmonkey的到來為通用文檔理解帶來曙光,這有潛力促進辦公自動化、智慧教育、智慧金融等行業的技術變革。
編輯丨趙雅鑫
審核丨成蘊年
----- end -----
wisemodel相關
系統升級