華科TextMonkey多模態大模型，向通用文字識別邁出堅實的一步

分類：科技

瀏覽數：6192

2024-06-23

始智ai wisemodel.cn開源社區

華中科技大學和金山的研究人員在多模態大模型monkey工作基礎上提出textmonkey。通過擴展文本相關的任務並將位置信息引入回答，textmonkey展現出更強的文檔理解能力與更好的可解釋性。該模型已經上線始智ai wisemodel.cn開源社區，歡迎大家前往wisemodel社區了解詳情。

https://wisemodel.cn/models/hust-vlrlab/textmonkey

簡介

textmonkey是一個專註於文本相關任務（包括文檔問答和場景文本問答）的多模態大模型（lmm）。相比於monkey，textmonkey在多個方面進行改進：通過採用零初始化的shifted window attention，textmonkey實現了更高輸入分辨率下的窗口間信息交互；通過使用相似性來過濾出重要的圖像特徵，textmonkey不僅能夠簡化輸入，還可以提高模型的性能。此外，通過擴展多個文本相關任務並將位置信息納入回答，textmonkey增強了可解釋性並減少了幻覺。與此同時，textmonkey在微調之後還可以具備app agent中理解用戶指令並點擊相應位置的能力，展現了其下游應用的巨大潛力。

實驗結果表明，textmonkey在各種基準數據集上的性能得到了顯著提升，在以場景文本為中心的視覺問答、文檔vqa和關鍵信息抽取任務中分別取得了5.2%、6.9%和2.8%的準確率增長，特別是在ocrbench[2]上獲得了561的得分，超越此前所有已開源的多模態大模型。

textmonkey的成功核心在於它模擬人類視覺認知的方法，這使它能自然而然地識別高清文檔圖像中各部分的相互關聯，並靈敏地鑒別出圖像內的關鍵要素。更進一步，基於對用戶多樣化需求的深入理解，textmonkey通過文本定位技術強化了答案的準確性，提升了模型的解釋性，減少了幻覺，有效提高了在處理各類文檔任務上的表現。

方法介紹

圖1 textmonkey整體架構

1. shifted window attention

現有的多模態大模型，如monkey和llava1.6，通過將圖像切分為小塊來提高輸入分辨率。然而這種裁剪策略可能會無意中分割相關單詞，導致語義不連貫。此外，這種分裂造成的空間分離也使得處理與文本位置相關的任務（如文本檢測）變得具有挑戰性。textmonkey在繼承monkey高效的圖像分辨率縮放功能的同時，採用滑動窗口注意力機制建立了塊與塊之間的上下文聯繫。

2. token resampler

目前的多模態大模型面臨著圖像token數目隨着輸入分辨率的增加而增加的挑戰。由於語言模型的輸入長度和訓練時間的限制，減少token的數量是很有必要的。

在自然語言中，語言元素會存在一些冗餘信息。那麼可以自然的猜測在擴大圖像分辨率之後，視覺部分的token也會存在冗餘。本文根據以往確定語言元素相似性的方法，對已經映射到語言空間的圖像token的相似性進行了度量：在圖像resampler之後隨機選取20個有序特徵，利用餘弦相似性成對比較這些特徵的相似性，得到的結果如圖2所示。顏色越深代表相似性越高，實驗發現每個圖片的token都有一個到幾個類似的token，圖片特徵中存在冗餘。同時，本文還觀察到某些令牌是高度獨特的，並且缺乏其他相似的token，如圖中的第四個token，這表明這個token是更為重要的。因此本文選用相似度來度量並識別獨特的視覺token。並提出token resampler來壓縮冗餘視覺token。通過計算每個token與其他token的相似度，過濾得到最重要（相似度最低）的k個token。同時，為了避免直接丟棄其他token造成的信息丟失，這裡還會利用過濾得到的k 個token作為查詢，並採用交叉注意力機制進一步融合所有特徵。

圖2 圖像token相似性比較

3. 多任務訓練

textmonkey支持讀出所有文本，文本檢測識別，輸出給定文本坐標，文本問答，具有位置感知的文本問答，圖像結構化等多個任務。textmonkey在進行問答時不僅看可以給出答案，還能給出答案所在位置，進一步增強了模型的可解釋性。與此同時，在經過微調之後，textmonkey還可以具備app agent中理解用戶指令並點擊相應位置的能力。

實驗分析

1. textmonkey與現有的多模態大模型相比，表現出了優越的性能。

2.為了進一步驗證textmonkey的有效性，本文還在更多數據集上進行了測試。（其中deepform和klc使用f1-score作為評估指標, wtq使用accuracy, chartqa 使用relaxed accuracy, docvqa使用anls。）

3. textmonkey在text spotting數據集上相比於傳統ocr模型也取得了極具競爭力的效果。

4. 表7的消融實驗表明shifted window attention和token resampler兩個模塊的有效性

5. 表9的消融實驗證明：由於分辨率的提高導致冗餘令牌的顯着增加，使得找到關鍵信息變得更加困難，在不壓縮token的情況下直接增加分辨率實際上會導致一致的性能損失，如在表中第一行和第四行，在不壓縮token時，分辨率由896增加到1344會導致模型在四個數據集上的指標均有所下降，這說明了沒有策略地一味增加模型的分辨率反而會帶來負面影響，如何合理地增加分辨率，將會是一個需要集中解決的問題。不僅如此，表9中還說明，當選取不同的壓縮token數量時，對模型性能的影響也是顯著的，選取一個合適的值來作為壓縮token的數量，可以使得模型的性能進一步提升。

可視化結果展示

textmonkey在場景圖像和文檔圖像中都能準確定位和識別文本。此外，(a)中的自然圖像、(b)中的文檔、(c)中的圖表和(d)中的表格都展示了textmonkey在多種場景下識別、理解和定位文本信息的能力。

本文還探索了textmonkey作為智能手機應用程序的agent代理方面的可行性。使用來自rico數據集的15k用戶點擊數據上進行微調之後，textmonkey能夠理解用戶意圖並點擊相應的圖標，這表明了textmonkey在微調之後作為app agent的巨大潛力。

demo展示

1.textmonkey展現出了強大的視覺定位與理解能力，不僅能夠定位圖像中的所有文本，還能在視覺問答時給出答案及其所在位置，增加了可解釋性並減少幻覺

2. textmonkey即使在文字相當密集的情況下也可以讀取輸入圖片中的所有文字並且給出圖片中文本的坐標。

3.textmonkey還能幫助我們結構化圖表，表格以及文檔數據，通過將圖像內容轉化為json格式的信息，方便記錄和提取。

更多可能性

textmonkey也能作為智能手機代理，無需接觸後端，僅需語音輸入及屏幕截圖，即能夠模仿人類的點擊手勢，能夠在手機上執行各種任務，自主操控手機應用程序。

圖4 textmonkey充當智能手機代理控制手機應用程序

總結

textmonkey在monkey的基礎上增強了其圖像間的跨窗口交互，在擴大分辨率的基礎上增強了視覺信息的語義連續性，有效緩解了視覺信息碎片化的問題；並通過提出過濾融合策略減少圖像特徵長度，從而減少輸入到大語言模型中冗餘的視覺token數量。論文的實驗說明，分辨率不是越大越好，不合理的提高模型分辨率策略有時會給模型帶來負面影響，如何合理地擴大分辨率才是一個更值得去思考的問題。此外，通過在問答中引入位置信息，textmonkey增強了可解釋性並減少了幻覺。textmonkey在多個文本相關的測試基準中處於國際領先，在ocrbench中超越其他開源多模態大模型。textmonkey的到來為通用文檔理解帶來曙光，這有潛力促進辦公自動化、智慧教育、智慧金融等行業的技術變革。

編輯丨趙雅鑫

審核丨成蘊年

----- end -----

始智ai wisemodel開源社區最近上線了開源模型的在線體驗功能，並全面支持ollama在線運行，已經有近60個開源大模型可以直接在線體驗。在線體驗的創建無需任何代碼開發，人人都可以來玩開源大模型。歡迎前往wisemodel.cn社區進行體驗，若需指引可以參考《》。如果有模型推理的在線託管服務需求，也歡迎聯繫我們。

wisemodel相關

系統升級

「華科TextMonkey多模態大模型，向通用文字識別邁出堅實的一步」相關視頻

科技分類資訊推薦