华科TextMonkey多模态大模型,向通用文字识别迈出坚实的一步

2024年06月23日18:10:19 科技 6192

始智ai wisemodel.cn开源社区

华科TextMonkey多模态大模型,向通用文字识别迈出坚实的一步 - 天天要闻
华中科技大学和金山的研究人员在多模态大模型monkey工作基础上提出textmonkey。通过扩展文本相关的任务并将位置信息引入回答,textmonkey展现出更强的文档理解能力与更好的可解释性。该模型已经上线始智ai wisemodel.cn开源社区,欢迎大家前往wisemodel社区了解详情。
华科TextMonkey多模态大模型,向通用文字识别迈出坚实的一步 - 天天要闻
https://wisemodel.cn/models/hust-vlrlab/textmonkey

01

简介

textmonkey是一个专注于文本相关任务(包括文档问答和场景文本问答)的多模态大模型(lmm)。相比于monkey,textmonkey在多个方面进行改进:通过采用零初始化的shifted window attention,textmonkey实现了更高输入分辨率下的窗口间信息交互;通过使用相似性来过滤出重要的图像特征,textmonkey不仅能够简化输入,还可以提高模型的性能。此外,通过扩展多个文本相关任务并将位置信息纳入回答,textmonkey增强了可解释性并减少了幻觉。与此同时,textmonkey在微调之后还可以具备app agent中理解用户指令并点击相应位置的能力,展现了其下游应用的巨大潜力。

实验结果表明,textmonkey在各种基准数据集上的性能得到了显著提升,在以场景文本为中心的视觉问答、文档vqa和关键信息抽取任务中分别取得了5.2%、6.9%和2.8%的准确率增长,特别是在ocrbench[2]上获得了561的得分,超越此前所有已开源的多模态大模型。

textmonkey的成功核心在于它模拟人类视觉认知的方法,这使它能自然而然地识别高清文档图像中各部分的相互关联,并灵敏地鉴别出图像内的关键要素。更进一步,基于对用户多样化需求的深入理解,textmonkey通过文本定位技术强化了答案的准确性,提升了模型的解释性,减少了幻觉,有效提高了在处理各类文档任务上的表现。

02

方法介绍


华科TextMonkey多模态大模型,向通用文字识别迈出坚实的一步 - 天天要闻

图1 textmonkey整体架构

1. shifted window attention

现有的多模态大模型,如monkey和llava1.6,通过将图像切分为小块来提高输入分辨率。然而这种裁剪策略可能会无意中分割相关单词,导致语义不连贯。此外,这种分裂造成的空间分离也使得处理与文本位置相关的任务(如文本检测)变得具有挑战性。textmonkey在继承monkey高效的图像分辨率缩放功能的同时,采用滑动窗口注意力机制建立了块与块之间的上下文联系。

2. token resampler

目前的多模态大模型面临着图像token数目随着输入分辨率的增加而增加的挑战。由于语言模型的输入长度和训练时间的限制,减少token的数量是很有必要的。

在自然语言中,语言元素会存在一些冗余信息。那么可以自然的猜测在扩大图像分辨率之后,视觉部分的token也会存在冗余。本文根据以往确定语言元素相似性的方法,对已经映射到语言空间的图像token的相似性进行了度量:在图像resampler之后随机选取20个有序特征,利用余弦相似性成对比较这些特征的相似性,得到的结果如图2所示。颜色越深代表相似性越高,实验发现每个图片的token都有一个到几个类似的token,图片特征中存在冗余。同时,本文还观察到某些令牌是高度独特的,并且缺乏其他相似的token,如图中的第四个token,这表明这个token是更为重要的。因此本文选用相似度来度量并识别独特的视觉token。并提出token resampler来压缩冗余视觉token。通过计算每个token与其他token的相似度,过滤得到最重要(相似度最低)的k个token。同时,为了避免直接丢弃其他token造成的信息丢失,这里还会利用过滤得到的k 个token作为查询,并采用交叉注意力机制进一步融合所有特征。

华科TextMonkey多模态大模型,向通用文字识别迈出坚实的一步 - 天天要闻

图2 图像token相似性比较

3. 多任务训练

textmonkey支持读出所有文本,文本检测识别,输出给定文本坐标,文本问答,具有位置感知的文本问答,图像结构化等多个任务。textmonkey在进行问答时不仅看可以给出答案,还能给出答案所在位置,进一步增强了模型的可解释性。与此同时,在经过微调之后,textmonkey还可以具备app agent中理解用户指令并点击相应位置的能力。

03

实验分析

1. textmonkey与现有的多模态大模型相比,表现出了优越的性能。
华科TextMonkey多模态大模型,向通用文字识别迈出坚实的一步 - 天天要闻
2.为了进一步验证textmonkey的有效性,本文还在更多数据集上进行了测试。(其中deepform和klc使用f1-score作为评估指标, wtq使用accuracy, chartqa 使用relaxed accuracy, docvqa使用anls。)
华科TextMonkey多模态大模型,向通用文字识别迈出坚实的一步 - 天天要闻
3. textmonkey在text spotting数据集上相比于传统ocr模型也取得了极具竞争力的效果。
华科TextMonkey多模态大模型,向通用文字识别迈出坚实的一步 - 天天要闻
4. 表7的消融实验表明shifted window attention和token resampler两个模块的有效性
华科TextMonkey多模态大模型,向通用文字识别迈出坚实的一步 - 天天要闻
5. 表9的消融实验证明:由于分辨率的提高导致冗余令牌的显着增加,使得找到关键信息变得更加困难,在不压缩token的情况下直接增加分辨率实际上会导致一致的性能损失,如在表中第一行和第四行,在不压缩token时,分辨率由896增加到1344会导致模型在四个数据集上的指标均有所下降,这说明了没有策略地一味增加模型的分辨率反而会带来负面影响,如何合理地增加分辨率,将会是一个需要集中解决的问题。不仅如此,表9中还说明,当选取不同的压缩token数量时,对模型性能的影响也是显著的,选取一个合适的值来作为压缩token的数量,可以使得模型的性能进一步提升。
华科TextMonkey多模态大模型,向通用文字识别迈出坚实的一步 - 天天要闻

04

可视化结果展示

textmonkey在场景图像和文档图像中都能准确定位和识别文本。此外,(a)中的自然图像、(b)中的文档、(c)中的图表和(d)中的表格都展示了textmonkey在多种场景下识别、理解和定位文本信息的能力。
本文还探索了textmonkey作为智能手机应用程序的agent代理方面的可行性。使用来自rico数据集的15k用户点击数据上进行微调之后,textmonkey能够理解用户意图并点击相应的图标,这表明了textmonkey在微调之后作为app agent的巨大潜力。
华科TextMonkey多模态大模型,向通用文字识别迈出坚实的一步 - 天天要闻

05

demo展示

1.textmonkey展现出了强大的视觉定位与理解能力,不仅能够定位图像中的所有文本,还能在视觉问答时给出答案及其所在位置,增加了可解释性并减少幻觉
华科TextMonkey多模态大模型,向通用文字识别迈出坚实的一步 - 天天要闻
华科TextMonkey多模态大模型,向通用文字识别迈出坚实的一步 - 天天要闻
2. textmonkey即使在文字相当密集的情况下也可以读取输入图片中的所有文字并且给出图片中文本的坐标。
华科TextMonkey多模态大模型,向通用文字识别迈出坚实的一步 - 天天要闻
华科TextMonkey多模态大模型,向通用文字识别迈出坚实的一步 - 天天要闻
华科TextMonkey多模态大模型,向通用文字识别迈出坚实的一步 - 天天要闻
3.textmonkey还能帮助我们结构化图表,表格以及文档数据,通过将图像内容转化为json格式的信息,方便记录和提取。
华科TextMonkey多模态大模型,向通用文字识别迈出坚实的一步 - 天天要闻
华科TextMonkey多模态大模型,向通用文字识别迈出坚实的一步 - 天天要闻

06

更多可能性

textmonkey也能作为智能手机代理,无需接触后端,仅需语音输入及屏幕截图,即能够模仿人类的点击手势,能够在手机上执行各种任务,自主操控手机应用程序。
华科TextMonkey多模态大模型,向通用文字识别迈出坚实的一步 - 天天要闻

图4 textmonkey充当智能手机代理控制手机应用程序

07

总结

textmonkey在monkey的基础上增强了其图像间的跨窗口交互,在扩大分辨率的基础上增强了视觉信息的语义连续性,有效缓解了视觉信息碎片化的问题;并通过提出过滤融合策略减少图像特征长度,从而减少输入到大语言模型中冗余的视觉token数量。论文的实验说明,分辨率不是越大越好,不合理的提高模型分辨率策略有时会给模型带来负面影响,如何合理地扩大分辨率才是一个更值得去思考的问题。此外,通过在问答中引入位置信息,textmonkey增强了可解释性并减少了幻觉。textmonkey在多个文本相关的测试基准中处于国际领先,在ocrbench中超越其他开源多模态大模型。textmonkey的到来为通用文档理解带来曙光,这有潜力促进办公自动化、智慧教育、智慧金融等行业的技术变革。


编辑丨赵雅鑫

审核丨成蕴年

-----    end   -----

始智ai wisemodel开源社区最近上线了开源模型的在线体验功能,并全面支持ollama在线运行,已经有近60个开源大模型可以直接在线体验。在线体验的创建无需任何代码开发,人人都可以来玩开源大模型。欢迎前往wisemodel.cn社区进行体验,若需指引可以参考《》。如果有模型推理的在线托管服务需求,也欢迎联系我们。
华科TextMonkey多模态大模型,向通用文字识别迈出坚实的一步 - 天天要闻

wisemodel相关

系统升级

华科TextMonkey多模态大模型,向通用文字识别迈出坚实的一步 - 天天要闻
华科TextMonkey多模态大模型,向通用文字识别迈出坚实的一步 - 天天要闻

科技分类资讯推荐

小米15标配超声波指纹解锁?四种指纹解锁方式区别解析 - 天天要闻

小米15标配超声波指纹解锁?四种指纹解锁方式区别解析

在目前主流的手机生物解锁方式一共有两种:人脸识别和指纹解锁。安卓普遍选择了种类丰富的指纹解锁:电容式指纹解锁、短焦指纹解锁、超薄指纹解锁以及超声波指纹解锁。那么这四种指纹解锁区别是什么呢?各自的优缺点是什么呢?光学指纹识别使用光线来捕捉指纹图像。一个光源照亮手指,然后一个摄像头捕获反射的光线,从而创...
7月手机新品前瞻:Redmi K70至尊版将至,性能手机扎堆发 - 天天要闻

7月手机新品前瞻:Redmi K70至尊版将至,性能手机扎堆发

暑假将至,很多刚刚经历过中考、高考系列的学子们都有更换电子设备的需求,7月、8月也就成为了手机厂商发布新产品的热门时期,目前就已经有Redmi K70至尊版、iQOO Neo9s Pro+等热门新机的曝光消息传出,我们今天就来简单做个前瞻,看看哪款产品你最期待?1 真我GT6真我GT6目前已经官宣,主打骁龙8 Gen3芯片+直屏设计,打游...
《AI 工具:智能时代的变革引擎》 - 天天要闻

《AI 工具:智能时代的变革引擎》

在当今这个日新月异的科技时代,AI 工具正以风驰电掣般的速度席卷而来,深刻地改变着我们生活、工作和学习的方方面面。它们如同一把把神奇的钥匙,为我们开启了智能时代的大门,引领我们迈入一个前所未有的崭新未来。AI 工具的卓越之处在于其能够效仿人
中国中车全球首发7款新能源机车 - 天天要闻

中国中车全球首发7款新能源机车

中新社北京6月28日电 (记者 庞无忌)中国中车28日面向全球首次发布系列化新能源机车。  当日,中国中车在北京举办“数智绿色牵引 共创低碳未来”轨道交通装备转型升级——系列化新能源机车发布会,7款代表车型集中亮相。6月28日,中国中车在北京集中发布7款新能源机车。 (中国中车供图)  该系列机车有“内燃发动机+动力...
魅族21 Note手机将全球发布 已获NBTC认证 不支持5G? - 天天要闻

魅族21 Note手机将全球发布 已获NBTC认证 不支持5G?

【CNMO科技消息】魅族上个月刚刚在国内推出了“手机特种兵”魅族21 Note。而据CNMO了解,一项新的认证显示,魅族计划在全球市场推出一款以Note命名的新手机。外媒称,虽然中国版名为21 Note,但全球版可能会采用不同的规格。魅族21 Note  近日,外媒在泰国NBTC认证中发现了一款名为魅族Note 21的Note系列智能手机,型号为...
AMD Anti-Lag 2抗延迟技术落地!CS2首发、延迟缩短95% - 天天要闻

AMD Anti-Lag 2抗延迟技术落地!CS2首发、延迟缩短95%

AMD发布了全新重磅驱动程序Adrenalin 24.6.1版本,包括首发落地Anti-Lag 2抗延迟技术、优化支持新游戏、升级支持HYPR-Tune、支持新操作系统、优化AI加速与开发、扩展支持Agility SDK、修复已知Bug,等等。一、Anti-Lag 2今年5月份刚宣布,重新设计,从驱动层面改为直接集成于游戏,在游戏代码中调度帧序列、CPU资源
全面焕新 预计将于7月上市 第4代帝豪2025款造型曝光 - 天天要闻

全面焕新 预计将于7月上市 第4代帝豪2025款造型曝光

近日,吉利汽车旗下“国民冠军家轿”第4代帝豪2025款曝光了高清官图。新车基于BMA世界级架构打造,承载了帝豪家族颜值、架构、科技和品质的四大冠军基因。同时,新车在外观、内饰和智能生态上全面升级,产品力越级领先,致力于成为6万级家轿的用户首选。截至目前,帝豪家