通义开源视觉理解模型Qwen2.5-VL可操控手机、视频通话

2025年01月28日19:52:15 科技 1461

新京报贝壳财经讯(记者罗亦丹)1月28日,阿里云通义千问开源全新的视觉模型Qwen2.5-VL,推出3B、7B和72B三个尺寸版本,并已在魔搭社区、HuggingFace等平台开源。

其中,旗舰版Qwen2.5-VL-72B在13项权威评测中的得分领先GPT-4o与Claude3.5。新的Qwen2.5-VL能够更准确地解析图像内容,支持超1小时的视频理解,无需微调就可变身为一个能操控手机和电脑的AI视觉智能体(Visual Agents),实现给指定朋友送祝福、电脑修图、手机订票等多步骤复杂操作。

通义开源视觉理解模型Qwen2.5-VL可操控手机、视频通话 - 天天要闻

Qwen2.5-VL识别和定位马路上骑摩托车未戴头盔的人。官方供图

通义团队此前曾开源Qwen-VL及Qwen2-VL两代模型,而新的Qwen2.5-VL视觉知识解析能力实现了飞跃,如准确识别和定位马路上骑摩托车未戴头盔的人,或是以多种格式提取发票中的核心信息并做结构化的推理输出。其视频理解能力也得到了增强,可以在视频中搜索具体事件,并对视频的不同时间段进行要点总结,打开摄像头,用户就能与Qwen2.5-VL实时对话。

开发者基于Qwen2.5-VL也能开发属于自己的AI智能体,如自动核验快递单地址与照片中的门牌号是否对应,根据家庭摄像头判断猫咪状况进行自动喂食,自动进行火灾报警等。

编辑 陈莉 校对 穆祥桐

科技分类资讯推荐

Pura80Pro与Mate70Pro,谁是华为旗舰更优解?一文看懂 - 天天要闻

Pura80Pro与Mate70Pro,谁是华为旗舰更优解?一文看懂

每当华为旗舰新机临近发布节点,科技圈的焦点就会转移到“新旧旗舰”之间的对比上,这也是许多消费者最关注的问题之一,比如即将在6月11日发布的“Pura80 Pro”以及已经上市半年的“Mate70 Pro”,一款是华为在影像领域进一步突破的全
周鸿祎:准备干掉360整个市场部,每年能省几千万 - 天天要闻

周鸿祎:准备干掉360整个市场部,每年能省几千万

6月6日晚,360集团创始人、董事长周鸿祎在其个人自媒体账号发文称,“我准备干掉360整个市场部,这样一年可以给公司省下几千万。”他表示从当天起,要做一个挑战,一个人完成一场完整的新产品发布会。“听起来像天方夜谭,但这次我准备动真格的了。”周鸿祎称,过去做一个产品发布会,需要市场部几十号人,忙活大半个月,费...
新疆低空经济加力扩容 - 天天要闻

新疆低空经济加力扩容

天山网/新疆日报记者 马伊宁不久前,“阿勒泰低空飞行服务保障中心”及“布尔津、富蕴低空飞行服务保障站”投入运营。作为拥有世界级旅游资源的区域,阿勒泰地区正构建覆盖北疆的低空飞行服务网络,为通用航空、无人机物流、低空旅游等业态提供全链条服务保
特斯拉“擎天柱”人形机器人项目负责人宣布离职 - 天天要闻

特斯拉“擎天柱”人形机器人项目负责人宣布离职

中新网6月7日电(吴家驹)综合外媒报道,特斯拉“擎天柱”(Optimus)人形机器人项目负责人米兰·科瓦奇(Milan Kovac)周五表示,他将离开公司。 科瓦奇在X平台上发文称,“我不得不做出一生中最艰难的决定,我将离开我的职位。我离家太久了,需要花更多的时间和国外的家人在一起。”科瓦奇称,这是“唯一的原因,与其他任何事情...
512GB售价2039元!3840HZ+7550mAh+极窄直屏,红米手机价格亲民了 - 天天要闻

512GB售价2039元!3840HZ+7550mAh+极窄直屏,红米手机价格亲民了

卡顿可以说是很多消费者使用手机时遇到的最为头疼的情况,好在就如今新发布的机型就算是在长时间的使用之下,也并不会让你出现如此的情况,这就比如说红米Turbo 4 Pro这款机型就是如此,这款机型不仅性能狂飙、续航超长,更有旗舰级配置和贴心细节