華科TextMonkey多模態大模型,向通用文字識別邁出堅實的一步

2024年06月23日18:10:19 科技 6192

始智ai wisemodel.cn開源社區

華科TextMonkey多模態大模型,向通用文字識別邁出堅實的一步 - 天天要聞
華中科技大學和金山的研究人員在多模態大模型monkey工作基礎上提出textmonkey。通過擴展文本相關的任務並將位置信息引入回答,textmonkey展現出更強的文檔理解能力與更好的可解釋性。該模型已經上線始智ai wisemodel.cn開源社區,歡迎大家前往wisemodel社區了解詳情。
華科TextMonkey多模態大模型,向通用文字識別邁出堅實的一步 - 天天要聞
https://wisemodel.cn/models/hust-vlrlab/textmonkey

01

簡介

textmonkey是一個專註於文本相關任務(包括文檔問答和場景文本問答)的多模態大模型(lmm)。相比於monkey,textmonkey在多個方面進行改進:通過採用零初始化的shifted window attention,textmonkey實現了更高輸入分辨率下的窗口間信息交互;通過使用相似性來過濾出重要的圖像特徵,textmonkey不僅能夠簡化輸入,還可以提高模型的性能。此外,通過擴展多個文本相關任務並將位置信息納入回答,textmonkey增強了可解釋性並減少了幻覺。與此同時,textmonkey在微調之後還可以具備app agent中理解用戶指令並點擊相應位置的能力,展現了其下游應用的巨大潛力。

實驗結果表明,textmonkey在各種基準數據集上的性能得到了顯著提升,在以場景文本為中心的視覺問答、文檔vqa和關鍵信息抽取任務中分別取得了5.2%、6.9%和2.8%的準確率增長,特別是在ocrbench[2]上獲得了561的得分,超越此前所有已開源的多模態大模型。

textmonkey的成功核心在於它模擬人類視覺認知的方法,這使它能自然而然地識別高清文檔圖像中各部分的相互關聯,並靈敏地鑒別出圖像內的關鍵要素。更進一步,基於對用戶多樣化需求的深入理解,textmonkey通過文本定位技術強化了答案的準確性,提升了模型的解釋性,減少了幻覺,有效提高了在處理各類文檔任務上的表現。

02

方法介紹


華科TextMonkey多模態大模型,向通用文字識別邁出堅實的一步 - 天天要聞

圖1 textmonkey整體架構

1. shifted window attention

現有的多模態大模型,如monkey和llava1.6,通過將圖像切分為小塊來提高輸入分辨率。然而這種裁剪策略可能會無意中分割相關單詞,導致語義不連貫。此外,這種分裂造成的空間分離也使得處理與文本位置相關的任務(如文本檢測)變得具有挑戰性。textmonkey在繼承monkey高效的圖像分辨率縮放功能的同時,採用滑動窗口注意力機制建立了塊與塊之間的上下文聯繫。

2. token resampler

目前的多模態大模型面臨著圖像token數目隨着輸入分辨率的增加而增加的挑戰。由於語言模型的輸入長度和訓練時間的限制,減少token的數量是很有必要的。

在自然語言中,語言元素會存在一些冗餘信息。那麼可以自然的猜測在擴大圖像分辨率之後,視覺部分的token也會存在冗餘。本文根據以往確定語言元素相似性的方法,對已經映射到語言空間的圖像token的相似性進行了度量:在圖像resampler之後隨機選取20個有序特徵,利用餘弦相似性成對比較這些特徵的相似性,得到的結果如圖2所示。顏色越深代表相似性越高,實驗發現每個圖片的token都有一個到幾個類似的token,圖片特徵中存在冗餘。同時,本文還觀察到某些令牌是高度獨特的,並且缺乏其他相似的token,如圖中的第四個token,這表明這個token是更為重要的。因此本文選用相似度來度量並識別獨特的視覺token。並提出token resampler來壓縮冗餘視覺token。通過計算每個token與其他token的相似度,過濾得到最重要(相似度最低)的k個token。同時,為了避免直接丟棄其他token造成的信息丟失,這裡還會利用過濾得到的k 個token作為查詢,並採用交叉注意力機制進一步融合所有特徵。

華科TextMonkey多模態大模型,向通用文字識別邁出堅實的一步 - 天天要聞

圖2 圖像token相似性比較

3. 多任務訓練

textmonkey支持讀出所有文本,文本檢測識別,輸出給定文本坐標,文本問答,具有位置感知的文本問答,圖像結構化等多個任務。textmonkey在進行問答時不僅看可以給出答案,還能給出答案所在位置,進一步增強了模型的可解釋性。與此同時,在經過微調之後,textmonkey還可以具備app agent中理解用戶指令並點擊相應位置的能力。

03

實驗分析

1. textmonkey與現有的多模態大模型相比,表現出了優越的性能。
華科TextMonkey多模態大模型,向通用文字識別邁出堅實的一步 - 天天要聞
2.為了進一步驗證textmonkey的有效性,本文還在更多數據集上進行了測試。(其中deepform和klc使用f1-score作為評估指標, wtq使用accuracy, chartqa 使用relaxed accuracy, docvqa使用anls。)
華科TextMonkey多模態大模型,向通用文字識別邁出堅實的一步 - 天天要聞
3. textmonkey在text spotting數據集上相比於傳統ocr模型也取得了極具競爭力的效果。
華科TextMonkey多模態大模型,向通用文字識別邁出堅實的一步 - 天天要聞
4. 表7的消融實驗表明shifted window attention和token resampler兩個模塊的有效性
華科TextMonkey多模態大模型,向通用文字識別邁出堅實的一步 - 天天要聞
5. 表9的消融實驗證明:由於分辨率的提高導致冗餘令牌的顯着增加,使得找到關鍵信息變得更加困難,在不壓縮token的情況下直接增加分辨率實際上會導致一致的性能損失,如在表中第一行和第四行,在不壓縮token時,分辨率由896增加到1344會導致模型在四個數據集上的指標均有所下降,這說明了沒有策略地一味增加模型的分辨率反而會帶來負面影響,如何合理地增加分辨率,將會是一個需要集中解決的問題。不僅如此,表9中還說明,當選取不同的壓縮token數量時,對模型性能的影響也是顯著的,選取一個合適的值來作為壓縮token的數量,可以使得模型的性能進一步提升。
華科TextMonkey多模態大模型,向通用文字識別邁出堅實的一步 - 天天要聞

04

可視化結果展示

textmonkey在場景圖像和文檔圖像中都能準確定位和識別文本。此外,(a)中的自然圖像、(b)中的文檔、(c)中的圖表和(d)中的表格都展示了textmonkey在多種場景下識別、理解和定位文本信息的能力。
本文還探索了textmonkey作為智能手機應用程序的agent代理方面的可行性。使用來自rico數據集的15k用戶點擊數據上進行微調之後,textmonkey能夠理解用戶意圖並點擊相應的圖標,這表明了textmonkey在微調之後作為app agent的巨大潛力。
華科TextMonkey多模態大模型,向通用文字識別邁出堅實的一步 - 天天要聞

05

demo展示

1.textmonkey展現出了強大的視覺定位與理解能力,不僅能夠定位圖像中的所有文本,還能在視覺問答時給出答案及其所在位置,增加了可解釋性並減少幻覺
華科TextMonkey多模態大模型,向通用文字識別邁出堅實的一步 - 天天要聞
華科TextMonkey多模態大模型,向通用文字識別邁出堅實的一步 - 天天要聞
2. textmonkey即使在文字相當密集的情況下也可以讀取輸入圖片中的所有文字並且給出圖片中文本的坐標。
華科TextMonkey多模態大模型,向通用文字識別邁出堅實的一步 - 天天要聞
華科TextMonkey多模態大模型,向通用文字識別邁出堅實的一步 - 天天要聞
華科TextMonkey多模態大模型,向通用文字識別邁出堅實的一步 - 天天要聞
3.textmonkey還能幫助我們結構化圖表,表格以及文檔數據,通過將圖像內容轉化為json格式的信息,方便記錄和提取。
華科TextMonkey多模態大模型,向通用文字識別邁出堅實的一步 - 天天要聞
華科TextMonkey多模態大模型,向通用文字識別邁出堅實的一步 - 天天要聞

06

更多可能性

textmonkey也能作為智能手機代理,無需接觸後端,僅需語音輸入及屏幕截圖,即能夠模仿人類的點擊手勢,能夠在手機上執行各種任務,自主操控手機應用程序。
華科TextMonkey多模態大模型,向通用文字識別邁出堅實的一步 - 天天要聞

圖4 textmonkey充當智能手機代理控制手機應用程序

07

總結

textmonkey在monkey的基礎上增強了其圖像間的跨窗口交互,在擴大分辨率的基礎上增強了視覺信息的語義連續性,有效緩解了視覺信息碎片化的問題;並通過提出過濾融合策略減少圖像特徵長度,從而減少輸入到大語言模型中冗餘的視覺token數量。論文的實驗說明,分辨率不是越大越好,不合理的提高模型分辨率策略有時會給模型帶來負面影響,如何合理地擴大分辨率才是一個更值得去思考的問題。此外,通過在問答中引入位置信息,textmonkey增強了可解釋性並減少了幻覺。textmonkey在多個文本相關的測試基準中處於國際領先,在ocrbench中超越其他開源多模態大模型。textmonkey的到來為通用文檔理解帶來曙光,這有潛力促進辦公自動化、智慧教育、智慧金融等行業的技術變革。


編輯丨趙雅鑫

審核丨成蘊年

-----    end   -----

始智ai wisemodel開源社區最近上線了開源模型的在線體驗功能,並全面支持ollama在線運行,已經有近60個開源大模型可以直接在線體驗。在線體驗的創建無需任何代碼開發,人人都可以來玩開源大模型。歡迎前往wisemodel.cn社區進行體驗,若需指引可以參考《》。如果有模型推理的在線託管服務需求,也歡迎聯繫我們。
華科TextMonkey多模態大模型,向通用文字識別邁出堅實的一步 - 天天要聞

wisemodel相關

系統升級

華科TextMonkey多模態大模型,向通用文字識別邁出堅實的一步 - 天天要聞
華科TextMonkey多模態大模型,向通用文字識別邁出堅實的一步 - 天天要聞

科技分類資訊推薦

小米15標配超聲波指紋解鎖?四種指紋解鎖方式區別解析 - 天天要聞

小米15標配超聲波指紋解鎖?四種指紋解鎖方式區別解析

在目前主流的手機生物解鎖方式一共有兩種:人臉識別和指紋解鎖。安卓普遍選擇了種類豐富的指紋解鎖:電容式指紋解鎖、短焦指紋解鎖、超薄指紋解鎖以及超聲波指紋解鎖。那麼這四種指紋解鎖區別是什麼呢?各自的優缺點是什麼呢?光學指紋識別使用光線來捕捉指紋圖像。一個光源照亮手指,然後一個攝像頭捕獲反射的光線,從而創...
7月手機新品前瞻:Redmi K70至尊版將至,性能手機扎堆發 - 天天要聞

7月手機新品前瞻:Redmi K70至尊版將至,性能手機扎堆發

暑假將至,很多剛剛經歷過中考、高考系列的學子們都有更換電子設備的需求,7月、8月也就成為了手機廠商發布新產品的熱門時期,目前就已經有Redmi K70至尊版、iQOO Neo9s Pro+等熱門新機的曝光消息傳出,我們今天就來簡單做個前瞻,看看哪款產品你最期待?1 真我GT6真我GT6目前已經官宣,主打驍龍8 Gen3芯片+直屏設計,打游...
《AI 工具:智能時代的變革引擎》 - 天天要聞

《AI 工具:智能時代的變革引擎》

在當今這個日新月異的科技時代,AI 工具正以風馳電掣般的速度席捲而來,深刻地改變着我們生活、工作和學習的方方面面。它們如同一把把神奇的鑰匙,為我們開啟了智能時代的大門,引領我們邁入一個前所未有的嶄新未來。AI 工具的卓越之處在於其能夠效仿人
中國中車全球首發7款新能源機車 - 天天要聞

中國中車全球首發7款新能源機車

中新社北京6月28日電 (記者 龐無忌)中國中車28日面向全球首次發布系列化新能源機車。  當日,中國中車在北京舉辦“數智綠色牽引 共創低碳未來”軌道交通裝備轉型升級——系列化新能源機車發布會,7款代表車型集中亮相。6月28日,中國中車在北京集中發布7款新能源機車。 (中國中車供圖)  該系列機車有“內燃發動機+動力...
魅族21 Note手機將全球發布 已獲NBTC認證 不支持5G? - 天天要聞

魅族21 Note手機將全球發布 已獲NBTC認證 不支持5G?

【CNMO科技消息】魅族上個月剛剛在國內推出了“手機特種兵”魅族21 Note。而據CNMO了解,一項新的認證顯示,魅族計劃在全球市場推出一款以Note命名的新手機。外媒稱,雖然中國版名為21 Note,但全球版可能會採用不同的規格。魅族21 Note  近日,外媒在泰國NBTC認證中發現了一款名為魅族Note 21的Note系列智能手機,型號為...
AMD Anti-Lag 2抗延遲技術落地!CS2首發、延遲縮短95% - 天天要聞

AMD Anti-Lag 2抗延遲技術落地!CS2首發、延遲縮短95%

AMD發布了全新重磅驅動程序Adrenalin 24.6.1版本,包括首發落地Anti-Lag 2抗延遲技術、優化支持新遊戲、升級支持HYPR-Tune、支持新操作系統、優化AI加速與開發、擴展支持Agility SDK、修復已知Bug,等等。一、Anti-Lag 2今年5月份剛宣布,重新設計,從驅動層面改為直接集成於遊戲,在遊戲代碼中調度幀序列、CPU資源
全面煥新 預計將於7月上市 第4代帝豪2025款造型曝光 - 天天要聞

全面煥新 預計將於7月上市 第4代帝豪2025款造型曝光

近日,吉利汽車旗下“國民冠軍家轎”第4代帝豪2025款曝光了高清官圖。新車基於BMA世界級架構打造,承載了帝豪家族顏值、架構、科技和品質的四大冠軍基因。同時,新車在外觀、內飾和智能生態上全面升級,產品力越級領先,致力於成為6萬級家轎的用戶首選。截至目前,帝豪家