移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录

2025年04月12日13:30:31 科技 6589

移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录 - 天天要闻



  新智元报道  

编辑:lrst
【新智元导读】移动gui自动化智能体v-droid采用「验证器驱动」架构,通过离散化动作空间并利用llm评估候选动作,实现了高效决策。在androidworld等多个基准测试中任务成功率分别达到59.5%、38.3%和49%,决策延迟仅0.7秒,接近实时响应。

随着人工智能和大语言模型(llms)的不断突破,如何将其优势赋能现实世界中可实际部署的高效工具,成为了业界关注的焦点。

近期,由微软亚洲研究院、南洋理工大学、清华大学、香港科技大学等多家机构联合推出移动图形用户界面(gui)任务自动化智能体——v-droid,凭借其全新「验证器驱动」架构,v-droid不仅在任务成功率上刷新记录,同时在决策响应速度上实现了接近实时的表现,为移动端自动化控制开辟了全新局面。

移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录 - 天天要闻

链接:https://arxiv.org/abs/2503.15937

移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录 - 天天要闻

图1:v-droid与其他移动gui智能体在androidworld上的任务成功率与决策响应时间。对于v-droid以及其他7b,8b基准模型,决策时间在双卡4090上测试得出;对于72b基准模型,决策时间在四卡a100上测试得出

长期以来,移动设备上的任务自动化一直面临两大难题:一是如何在复杂、多变的gui环境中准确识别和操作界面元素, 并以多步骤成功完成任务;二是如何在保证任务成功率的前提下降低决策延迟。

以往依靠llm直接生成操作指令的方法,由于生成过程往往需要连续输出大量信息,导致在实际应用中既不够高效,又容易出现决策偏差。

移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录 - 天天要闻

图2:在决策过程中,将 llm 用作生成器与用作验证器的智能体架构的关键区别在于:验证器驱动的智能体不会直接根据任务状态直接生成动作,而是在作出最终决策之前,明确地对每个候选动作进行评估

v-droid创新性地提出「验证器驱动」的思路。该方法不再直接依赖大语言模型生成最终操作,而是首先通过对ui界面的深入解析构建出详尽的动作集合,再利用经过精细训练的基于大语言模型的验证器对每个候选动作进行评估,最终选出得分最高的动作执行。

这种做法将操作生成与决策判断有效解耦:一方面,与从零开始直接生成所需操作相比,该方案使智能体能够在一个离散且有限的动作空间内高效地进行验证,从而大大降低了决策的复杂度;

同时,由于每次验证仅输出极简的信息(仅一个token),并且可以对多个候选动作实现并行验证,从而显著缩短了每一步决策所需的时间。

v-droid在多个公共移动任务自动化基准上均取得了显著提升,例如在androidworld基准上任务成功率达59.5%,比现有智能体提高了近10个百分点,而决策延迟在消费级硬件上(如4090)则降至仅0.7秒左右。

移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录 - 天天要闻

图3:v-droid 的工作流程:① 从用户界面中提取动作并补充默认动作;② 针对每个候选动作使用模板构建验证提示;③ 利用前缀缓存对候选动作进行批量打分;④ 完成并执行所选动作;⑤ 更新工作记忆

v-droid的核心突破主要体现在以下几个方面:

  1. 动作空间离散化与构建由于移动设备屏幕尺寸有限,每个界面上可交互的元素数量本就较少,v-droid充分利用这一特性,从当前界面的xml描述中提取所有可点击、长按、滚动、文本输入等基本操作,将它们映射到一个有限的动作空间中。同时,为了应对界面上未直接呈现的操作(例如返回首页或模拟系统操作),系统还预置了一系列默认动作。通过这种方式,原本无限的操作可能性被精细划分为一个可枚举的集合,在这个集合上进行验证,大大降低了决策难度。


  2. 验证器驱动的决策机制与流程不同于传统依赖生成式模型直接输出操作指令的方案,v-droid将llm的角色重新定位为验证器。系统首先根据当前任务状态构造出候选操作列表,并为每个候选动作生成一个预定义格式的验证提示(prompt),其中包含任务目标、当前界面状态、历史操作记录以及具体的验证问题。经过预先微调的验证器(基于llama-3.1-8b等小语言模型)会对每个候选动作进行评分,最终系统选择评分最高的动作执行。由于验证过程只需要生成「yes」或「no」这类简短回复。更重要是的,多组候选验证可被高效并行,且此过程中只涉及prefilling阶段,从而极大地减少了计算时间,实现了近实时的决策响应。


  3. 对比式过程偏好(p^3)训练为了提升llm作为验证器的决策能力,v-droid提出p(3 )训练策略:对比式过程偏好训练策略(pairwise process preference)。在每个任务步骤中,通过构建正负操作对(即标记正确操作为正样本,其他操作为负样本),系统能够利用大量细粒度的训练数据对验证器进行优化,使其更准确地区分正确与错误的操作。这种方法不仅提高了模型对相似界面元素的辨别能力,也在一定程度上增强了系统的容错与自我修正能力。


  4. 人机联合标注的数据采集策略由于针对移动gui任务的细粒度标注数据极为稀缺,v-droid设计了一套人机联合标注方案。系统初始阶段由人工作业完成标注,随后利用经过初步训练的验证器自动生成操作标注,再由人工审核与修正。随着迭代训练的进行,验证器的准确性不断提升,人工介入比例逐渐下降,从而高效构建起一个涵盖上万条任务轨迹的数据集,为后续大规模训练提供了坚实基础。


移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录 - 天天要闻
移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录 - 天天要闻

图4:v-droid的任务成功率与单步决策响应时间

v-droid在多个移动任务自动化基准测试中均表现出色。例如,在androidworld基准上,v-droid的任务成功率达到59.5%,相比传统代理有明显优势;在androidlab和mobileagentbench上,其任务成功率分别为38.3%和49%,均超过先前系统约2%至9%的绝对提升。

此外,决策响应时间仅为0.7秒,使得该系统在实时性要求较高的移动场景中具有显著应用潜力。

v-droid所采用的验证器驱动架构为移动端自动化任务带来全新思路。通过将智能体的动作生成过程解耦为动作空间构建与验证,该系统不仅在任务成功率上取得了显著提升,还在决策延迟方面实现突破。

未来,这一技术有望推广至更多实际应用中,如自动化测试等领域。随着大语言模型技术的不断进步,以及高效训练与数据采集策略的成熟,验证器驱动的移动gui智能体或将成为智能交互领域的突破口。

演示视频1:「请从 broccoli 应用中删除以下食谱:鸡肉阿尔弗雷多意大利面、番茄罗勒烤面包以及番茄罗勒烤奶酪三明治」,v-droid约使用20步操作完成此任务。视频无加速处理。

演示视频2:「发送短信息」,v-droid约使用8步操作完成此任务。视频无加速处理。

参考资料:
https://arxiv.org/abs/2503.15937

科技分类资讯推荐

打破美日垄断!这家民企让C919用上中国“飞机棉” - 天天要闻

打破美日垄断!这家民企让C919用上中国“飞机棉”

数据显示,今年前5个月,重庆民营企业实现进出口1442.3亿元,占重庆外贸进出口总值的49.2%,撑起了重庆外贸经济的半壁江山。其中,有一家民营企业正以其独特的创新活力与市场敏锐度,在新材料、新应用等工业化细分领域不断实现技术突破。 点石成金一粒沙到超能纤维的“逆袭”将一粒沙变成一根纤维,再将这些纤维精密地编织...
所谓“大而美”法案或将继续扩大美债规模 - 天天要闻

所谓“大而美”法案或将继续扩大美债规模

美国所谓“大而美”法案7月1日在国会参议院得到通过,当前还需要得到众议院的通过才能提交给美国总统签字。如果该法案最终通过并成为法律,预计将对已创下纪录的美国联邦政府债务增加压力。美国国会预算办公室估....
解码哈药618 突围路径:从产品矩阵到生态构建的行业示范 - 天天要闻

解码哈药618 突围路径:从产品矩阵到生态构建的行业示范

当 2025 年 "618" 电商大促成为检验消费市场韧性的试金石,哈药以国民药企的战略定力与创新突破,构建起一套 "传统赛道筑基 + 新兴领域破局" 的增长模型。在保健品行业竞争白热化的背景下,这家企业通过多品牌协同、产品创新迭代与数字化营销破圈,不仅巩固了细分市场领导地位,更以全链路生态布局为大健康产业提供了可复制...
更快,更强,更纯粹!超薄极致电竞利器ROG绝神OLED显示器 - 天天要闻

更快,更强,更纯粹!超薄极致电竞利器ROG绝神OLED显示器

熟悉鼠鼠我的朋友都知道我是一个游戏爱好者,无论是喊上朋友们一起开黑还是自己沉浸式体验制作精良的3A大作,都能在平时繁重的牛马生活之余带给我放松和快乐。作为重度游戏爱好者,外设的选择自然是马虎不得,这其中我最为看重的就是能够直接影响平时游戏体
坐飞机和高铁分别可以携带什么样的充电宝? - 天天要闻

坐飞机和高铁分别可以携带什么样的充电宝?

来源:【江西发布】近日民航局禁止携带没有3C标识、被召回范围的充电宝上机规定引发关注坐飞机和高铁分别可以携带什么样的充电宝?充电宝上飞机乘坐飞机时,充电宝只能在手提行李中携带或随身携带,严禁在托运行李中携带。
小米YU7“封神” 国产新能源汽车“新王换旧王” - 天天要闻

小米YU7“封神” 国产新能源汽车“新王换旧王”

摘要:新能源的新格局,雏形已现。凤凰网科技 出品2025年6月26日夜晚,小米旗下首款SUV车型小米YU 7正式发布。这款以豪华、高性能、极致体验、先进安全性为特征的SUV车型,犹如一颗重磅核弹投入本就不平静的新能源车市,激起千层浪。
百度前副总裁璩静开医美诊所,人均消费2218元 - 天天要闻

百度前副总裁璩静开医美诊所,人均消费2218元

红星资本局7月2日消息,百度前副总裁璩静在华为总部坂田基地附近开了一家医美诊所。据公开资料,璩静名下新增一家存续企业——深圳大为诊所。该诊所成立于2024年12月23日,璩静持股比例为100%,认缴出资额为100万元,经营范围为诊所服务等。
千里智行,常用常新,传祺向往S7 开启重磅OTA升级 - 天天要闻

千里智行,常用常新,传祺向往S7 开启重磅OTA升级

7月2日,传祺向往S7 OTA如期而至,OTA 2.0版本正式全量推送。本次升级新增16项功能,31项 功能升级和57项体验优化,主要涉及智能座舱、智能辅助驾驶、娱乐系统、车机交互等多个维度,旨在为用户提供常用常新的出行体验,功能强大又好用。