始智ai wisemodel.cn开源社区
01
简介
textmonkey是一个专注于文本相关任务(包括文档问答和场景文本问答)的多模态大模型(lmm)。相比于monkey,textmonkey在多个方面进行改进:通过采用零初始化的shifted window attention,textmonkey实现了更高输入分辨率下的窗口间信息交互;通过使用相似性来过滤出重要的图像特征,textmonkey不仅能够简化输入,还可以提高模型的性能。此外,通过扩展多个文本相关任务并将位置信息纳入回答,textmonkey增强了可解释性并减少了幻觉。与此同时,textmonkey在微调之后还可以具备app agent中理解用户指令并点击相应位置的能力,展现了其下游应用的巨大潜力。
实验结果表明,textmonkey在各种基准数据集上的性能得到了显著提升,在以场景文本为中心的视觉问答、文档vqa和关键信息抽取任务中分别取得了5.2%、6.9%和2.8%的准确率增长,特别是在ocrbench[2]上获得了561的得分,超越此前所有已开源的多模态大模型。
textmonkey的成功核心在于它模拟人类视觉认知的方法,这使它能自然而然地识别高清文档图像中各部分的相互关联,并灵敏地鉴别出图像内的关键要素。更进一步,基于对用户多样化需求的深入理解,textmonkey通过文本定位技术强化了答案的准确性,提升了模型的解释性,减少了幻觉,有效提高了在处理各类文档任务上的表现。
02
方法介绍
图1 textmonkey整体架构
1. shifted window attention
现有的多模态大模型,如monkey和llava1.6,通过将图像切分为小块来提高输入分辨率。然而这种裁剪策略可能会无意中分割相关单词,导致语义不连贯。此外,这种分裂造成的空间分离也使得处理与文本位置相关的任务(如文本检测)变得具有挑战性。textmonkey在继承monkey高效的图像分辨率缩放功能的同时,采用滑动窗口注意力机制建立了块与块之间的上下文联系。
2. token resampler
目前的多模态大模型面临着图像token数目随着输入分辨率的增加而增加的挑战。由于语言模型的输入长度和训练时间的限制,减少token的数量是很有必要的。
在自然语言中,语言元素会存在一些冗余信息。那么可以自然的猜测在扩大图像分辨率之后,视觉部分的token也会存在冗余。本文根据以往确定语言元素相似性的方法,对已经映射到语言空间的图像token的相似性进行了度量:在图像resampler之后随机选取20个有序特征,利用余弦相似性成对比较这些特征的相似性,得到的结果如图2所示。颜色越深代表相似性越高,实验发现每个图片的token都有一个到几个类似的token,图片特征中存在冗余。同时,本文还观察到某些令牌是高度独特的,并且缺乏其他相似的token,如图中的第四个token,这表明这个token是更为重要的。因此本文选用相似度来度量并识别独特的视觉token。并提出token resampler来压缩冗余视觉token。通过计算每个token与其他token的相似度,过滤得到最重要(相似度最低)的k个token。同时,为了避免直接丢弃其他token造成的信息丢失,这里还会利用过滤得到的k 个token作为查询,并采用交叉注意力机制进一步融合所有特征。
图2 图像token相似性比较
3. 多任务训练
textmonkey支持读出所有文本,文本检测识别,输出给定文本坐标,文本问答,具有位置感知的文本问答,图像结构化等多个任务。textmonkey在进行问答时不仅看可以给出答案,还能给出答案所在位置,进一步增强了模型的可解释性。与此同时,在经过微调之后,textmonkey还可以具备app agent中理解用户指令并点击相应位置的能力。
03
实验分析
04
可视化结果展示
05
demo展示
06
更多可能性
图4 textmonkey充当智能手机代理控制手机应用程序
07
总结
textmonkey在monkey的基础上增强了其图像间的跨窗口交互,在扩大分辨率的基础上增强了视觉信息的语义连续性,有效缓解了视觉信息碎片化的问题;并通过提出过滤融合策略减少图像特征长度,从而减少输入到大语言模型中冗余的视觉token数量。论文的实验说明,分辨率不是越大越好,不合理的提高模型分辨率策略有时会给模型带来负面影响,如何合理地扩大分辨率才是一个更值得去思考的问题。此外,通过在问答中引入位置信息,textmonkey增强了可解释性并减少了幻觉。textmonkey在多个文本相关的测试基准中处于国际领先,在ocrbench中超越其他开源多模态大模型。textmonkey的到来为通用文档理解带来曙光,这有潜力促进办公自动化、智慧教育、智慧金融等行业的技术变革。
编辑丨赵雅鑫
审核丨成蕴年
----- end -----
wisemodel相关
系统升级