这“只”有火眼金睛的AI“小猴子”,华科大团队研发!

2023年12月11日20:45:05 科技 1963

湖北日报讯(通讯员汪伟颋、高翔)近日,华中科技大学软件学院白翔教授领衔的VLRLab团队发布了多模态大模型——“Monkey”。该模型能够实现对世界的“观察”,对图片进行深入的问答交流和精确描述。

这“只”有火眼金睛的AI“小猴子”,华科大团队研发! - 天天要闻

图为团队将Monkey代码在全球最大的代码托管服务平台GitHub上开源

多模态大模型是一类可以同时处理和整合多种感知数据(例如文本、图像、音频等)的AI架构,近年来在众多场景中展现了惊人的能力。Monkey模型在18个数据集上的实验中表现出色,特别是在图像描述和视觉问答任务方面,超越了众多现有知名的模型如微软的LLAVA、谷歌的PALM-E、阿里的Mplug-owl等。此外,Monkey在文本密集的问答任务中显示出显著的优势,甚至在某些样本上超越了业界公认的领先者——OpenAI的多模态大模型GPT-4V。

Monkey的一个显著特点是其出色的“看图说话”能力。在详细描述任务中,Monkey展现了对图像细节的感知能力,能够察觉到其他多模态大模型所忽略的内容。如对下图进行的文本描述中,Monkey正确地将其识别为埃菲尔铁塔的绘画,并提供了构图和配色方案的详细描述。而对左下角的文字,只有Monkey和GPT-4V能将其准确地识别为作者名。

这“只”有火眼金睛的AI“小猴子”,华科大团队研发! - 天天要闻

这样惊人的描述能力是怎么做到的?目前,几乎所有多模态大模型都需要运用网上爬取的图文对数据集,这些数据集只能进行简单的图文描述,无法满足大分辨率图片的需求。Monkey巧妙利用现有的工具构建了一种多层级的描述生成方法,即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结,此举可以充分结合不同工具的特性,打出一套威力十足的“组合拳”,大幅度提升描述的准确性和丰富程度。“一个个工具就好比不同的零件,合理的排列组合才能使其发挥最大作用,”白翔教授说,“我们团队从2003年开始便从事图像识别研究,去年我们又从海外引进了专攻多模态大模型的青年人才,Monkey的最终方案是大家一起反复讨论,尝试了10余种方案后最终确定的。”白翔教授说。

Monkey的另一亮点是能够处理分辨率高达1344×896像素的图像,这是目前其他多模态大模型所能处理的最大尺寸的6倍。这意味着Monkey能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。

据了解,目前业内能处理的图片最大分辨率为448×448像素。而想要进一步提升处理能力,需要投入十分高昂的算力成本。如何更低成本扩大输入分辨率?该团队骨干青年教师刘禹良介绍,团队采用了创新性的“裁剪”方法,将原始输入图片分割成多个块,每块尺寸小于448×448像素,并为每个块配备了一个“放大镜”,放到合适的位置可以“看”清更多细节。多个“放大镜”同时工作,分别“放大”不同的图片块,就能提取更多局部特征。

“未来,我们希望Monkey更强大,真正成为神通广大的‘孙悟空’!”对这“只”小猴子,白翔教授信心满满。

湖北日报客户端,关注湖北及天下大事,不仅为用户推送权威的政策解读、新鲜的热点资讯、实用的便民信息,还推出了掌上读报、报料、学习、在线互动等系列特色功能。

科技分类资讯推荐

苹果官宣降价:市场策略与行业影响的双重奏 - 天天要闻

苹果官宣降价:市场策略与行业影响的双重奏

在消费电子领域,苹果公司的一举一动都备受瞩目。近日,苹果官宣降价的消息如同一颗石子投入平静的湖面,激起层层涟漪,在消费者、市场以及整个行业中引发了广泛的关注与热议。一、降价举措的背后逻辑苹果公司此次官宣降价,并非毫无征兆的突发奇想,而是多种
卷出天花板的电混旗舰?吉利银河星耀8试驾后,我有些话想说 - 天天要闻

卷出天花板的电混旗舰?吉利银河星耀8试驾后,我有些话想说

5月9日,吉利银河星耀8正式上市,仅几天时间,话题热度就迅速攀升。不夸张地说,不少车友群、朋友圈几乎被这台车“刷了屏”。身边很多朋友也跑来问我:这车真有说的那么牛吗?值得入手吗?带着这个疑问,我参加了在成都举行的区域上市品鉴会暨试驾活动。试完之后,我的第一反应
演绎科技浪漫 “手搓”搓出一个全宇宙 - 天天要闻

演绎科技浪漫 “手搓”搓出一个全宇宙

一个从小爱拆车、没考上大学的孩子,长大后在干什么?答案是在云南农村造车,把科幻片里的车变成现实。云南昆明山区的农家院里,抖音创作者@猪坚强 的“床车系列”正在刷新认知,能爬楼的履带车、水陆两栖的变形车、带 AI 语音控制的车。
洞察生意本质,开启财富密码 - 天天要闻

洞察生意本质,开启财富密码

在当今竞争激烈的商业世界中,人人都渴望抓住生意的本质,实现财富的增长。但究竟什么才是生意的本质?又该如何凭借它来赚钱呢?生意的本质,说白了就是满足需求。就像苹果公司,他们洞察到人们对于简洁、美观且功能强大的电子产品的需求,于是推出了一系列惊
小米高端机大跳水,16GB+512GB+60倍变焦,降幅高达2050元 - 天天要闻

小米高端机大跳水,16GB+512GB+60倍变焦,降幅高达2050元

如果你的预算在3000元左右,你会选择新款中端旗舰还是会选择某些大跳水的老款高端手机呢?相信不同的人会有不同的决定。如果你比较侧重的是游戏体验,对拍照的要求不是很高,相信不少网友都会选择新款中端旗舰....
一季度华为小米手机销量大增 苹果再下滑 - 天天要闻

一季度华为小米手机销量大增 苹果再下滑

时间来到了5月末,除了华为的影像旗舰Pura 80系列外,各家厂商都已经完成了这一轮的旗舰机型发布。就在近日,Counterpoint带来了2025年第一季度的手机销量统计。各家厂商表现如何?一起来看看。先来看全球市场方面的表现,据报告介绍,2025年Q1全球智能手机市场收入同比增长3%,主要由Apple、vivo及非排名前五的品牌推动。...
苹果更新过时产品列表,看看有没有你在用的? - 天天要闻

苹果更新过时产品列表,看看有没有你在用的?

据了解,苹果每隔一段时间就会更新一份“过时产品”名单,包含一些已经停止销售多年且不再提供官方维修支持的设备。据悉,苹果会在产品停售5年-7年后标记为过时产品,这意味着这些产品可能无法获得苹果官方的维修服务,但如果仍有零件可用,苹果会提供最多两年时间的维修服务。而在苹果最新发布的过时产品列表中,我们发现...
曝低轨卫星通信开始公测:华为Mate X6典藏版首发 - 天天要闻

曝低轨卫星通信开始公测:华为Mate X6典藏版首发

据博主@数码闲聊站 最新透露,目前低轨卫星通信系统已经进入了公测阶段,顺利的话,下半年有望实现消费级卫星组网,在无网络覆盖的区域提供网络连接。参考现有资料,按照卫星轨道高度的不同,通信卫星可以分为低轨通卫星、中轨卫星和高轨卫星。相比于北斗、天通等中高轨道卫星,低轨卫星由于距离地球表面更近,拥有独特优势...
两款真我新机下周发,有一款为限定版机型 - 天天要闻

两款真我新机下周发,有一款为限定版机型

据悉,真我Neo7 Turbo将于5月29日14:00正式发布,目前新机的两款外观已经公布。真我官方表示。真我Neo7 Turbo拥有透明灰和透明黑两种配色,手机背面配备闪能DART标、NFC灵透线圈、背板晶刻纹理,弧形线圈清晰可见,纹理隐隐若现,科技感拉满。真我 realme 副总裁、全球营销总裁、中国区总裁徐起透露,“在透明后盖之下,是...