移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录

2025年04月12日13:30:31 科技 6589

移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录 - 天天要闻



  新智元报道  

编辑:lrst
【新智元导读】移动gui自动化智能体v-droid采用“验证器驱动”架构,通过离散化动作空间并利用llm评估候选动作,实现了高效决策。在androidworld等多个基准测试中任务成功率分别达到59.5%、38.3%和49%,决策延迟仅0.7秒,接近实时响应。

随着人工智能和大语言模型(llms)的不断突破,如何将其优势赋能现实世界中可实际部署的高效工具,成为了业界关注的焦点。

近期,由微软亚洲研究院、南洋理工大学、清华大学、香港科技大学等多家机构联合推出移动图形用户界面(gui)任务自动化智能体——v-droid,凭借其全新“验证器驱动”架构,v-droid不仅在任务成功率上刷新记录,同时在决策响应速度上实现了接近实时的表现,为移动端自动化控制开辟了全新局面。

移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录 - 天天要闻

链接:https://arxiv.org/abs/2503.15937

移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录 - 天天要闻

图1:v-droid与其他移动gui智能体在androidworld上的任务成功率与决策响应时间。对于v-droid以及其他7b,8b基准模型,决策时间在双卡4090上测试得出;对于72b基准模型,决策时间在四卡a100上测试得出

长期以来,移动设备上的任务自动化一直面临两大难题:一是如何在复杂、多变的gui环境中准确识别和操作界面元素, 并以多步骤成功完成任务;二是如何在保证任务成功率的前提下降低决策延迟。

以往依靠llm直接生成操作指令的方法,由于生成过程往往需要连续输出大量信息,导致在实际应用中既不够高效,又容易出现决策偏差。

移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录 - 天天要闻

图2:在决策过程中,将 llm 用作生成器与用作验证器的智能体架构的关键区别在于:验证器驱动的智能体不会直接根据任务状态直接生成动作,而是在作出最终决策之前,明确地对每个候选动作进行评估

v-droid创新性地提出“验证器驱动”的思路。该方法不再直接依赖大语言模型生成最终操作,而是首先通过对ui界面的深入解析构建出详尽的动作集合,再利用经过精细训练的基于大语言模型的验证器对每个候选动作进行评估,最终选出得分最高的动作执行。

这种做法将操作生成与决策判断有效解耦:一方面,与从零开始直接生成所需操作相比,该方案使智能体能够在一个离散且有限的动作空间内高效地进行验证,从而大大降低了决策的复杂度;

同时,由于每次验证仅输出极简的信息(仅一个token),并且可以对多个候选动作实现并行验证,从而显著缩短了每一步决策所需的时间。

v-droid在多个公共移动任务自动化基准上均取得了显著提升,例如在androidworld基准上任务成功率达59.5%,比现有智能体提高了近10个百分点,而决策延迟在消费级硬件上(如4090)则降至仅0.7秒左右。

移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录 - 天天要闻

图3:v-droid 的工作流程:① 从用户界面中提取动作并补充默认动作;② 针对每个候选动作使用模板构建验证提示;③ 利用前缀缓存对候选动作进行批量打分;④ 完成并执行所选动作;⑤ 更新工作记忆

v-droid的核心突破主要体现在以下几个方面:

  1. 动作空间离散化与构建由于移动设备屏幕尺寸有限,每个界面上可交互的元素数量本就较少,v-droid充分利用这一特性,从当前界面的xml描述中提取所有可点击、长按、滚动、文本输入等基本操作,将它们映射到一个有限的动作空间中。同时,为了应对界面上未直接呈现的操作(例如返回首页或模拟系统操作),系统还预置了一系列默认动作。通过这种方式,原本无限的操作可能性被精细划分为一个可枚举的集合,在这个集合上进行验证,大大降低了决策难度。


  2. 验证器驱动的决策机制与流程不同于传统依赖生成式模型直接输出操作指令的方案,v-droid将llm的角色重新定位为验证器。系统首先根据当前任务状态构造出候选操作列表,并为每个候选动作生成一个预定义格式的验证提示(prompt),其中包含任务目标、当前界面状态、历史操作记录以及具体的验证问题。经过预先微调的验证器(基于llama-3.1-8b等小语言模型)会对每个候选动作进行评分,最终系统选择评分最高的动作执行。由于验证过程只需要生成“yes”或“no”这类简短回复。更重要是的,多组候选验证可被高效并行,且此过程中只涉及prefilling阶段,从而极大地减少了计算时间,实现了近实时的决策响应。


  3. 对比式过程偏好(p^3)训练为了提升llm作为验证器的决策能力,v-droid提出p(3 )训练策略:对比式过程偏好训练策略(pairwise process preference)。在每个任务步骤中,通过构建正负操作对(即标记正确操作为正样本,其他操作为负样本),系统能够利用大量细粒度的训练数据对验证器进行优化,使其更准确地区分正确与错误的操作。这种方法不仅提高了模型对相似界面元素的辨别能力,也在一定程度上增强了系统的容错与自我修正能力。


  4. 人机联合标注的数据采集策略由于针对移动gui任务的细粒度标注数据极为稀缺,v-droid设计了一套人机联合标注方案。系统初始阶段由人工作业完成标注,随后利用经过初步训练的验证器自动生成操作标注,再由人工审核与修正。随着迭代训练的进行,验证器的准确性不断提升,人工介入比例逐渐下降,从而高效构建起一个涵盖上万条任务轨迹的数据集,为后续大规模训练提供了坚实基础。


移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录 - 天天要闻
移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录 - 天天要闻

图4:v-droid的任务成功率与单步决策响应时间

v-droid在多个移动任务自动化基准测试中均表现出色。例如,在androidworld基准上,v-droid的任务成功率达到59.5%,相比传统代理有明显优势;在androidlab和mobileagentbench上,其任务成功率分别为38.3%和49%,均超过先前系统约2%至9%的绝对提升。

此外,决策响应时间仅为0.7秒,使得该系统在实时性要求较高的移动场景中具有显著应用潜力。

v-droid所采用的验证器驱动架构为移动端自动化任务带来全新思路。通过将智能体的动作生成过程解耦为动作空间构建与验证,该系统不仅在任务成功率上取得了显著提升,还在决策延迟方面实现突破。

未来,这一技术有望推广至更多实际应用中,如自动化测试等领域。随着大语言模型技术的不断进步,以及高效训练与数据采集策略的成熟,验证器驱动的移动gui智能体或将成为智能交互领域的突破口。

演示视频1:“请从 broccoli 应用中删除以下食谱:鸡肉阿尔弗雷多意大利面、番茄罗勒烤面包以及番茄罗勒烤奶酪三明治”,v-droid约使用20步操作完成此任务。视频无加速处理。

演示视频2:“发送短信息”,v-droid约使用8步操作完成此任务。视频无加速处理。

参考资料:
https://arxiv.org/abs/2503.15937

科技分类资讯推荐

抱团取暖的日本AI半吊子们 - 天天要闻

抱团取暖的日本AI半吊子们

本文来自微信公众号:日商日旅,作者:KYOKU,题图来自:AI生成本篇为《为什么日本出不来DeepSeek》的下篇。在此笔者将介绍两家在日本虽在头部,却又十分另类的AI公司,以及日本AI产业背后的推动者们。想要勾勒出日本AI行业的面貌着实不
Steam 4 月硬件调查出炉,RTX5070显卡首度跻身 - 天天要闻

Steam 4 月硬件调查出炉,RTX5070显卡首度跻身

在刚刚过去的五一假期中,Steam如期上演了月度赛博斗蛐蛐环节:2025年4月steam硬件调查报告正式公布(Steam硬件调查数据均来自愿参与的用户,无法代表全球范围PC硬件份额情况)来自NVIDIA的GeForceRTX 5070/5070Ti/5080则是进入Steam硬件调查的统计榜单。其中RTX5070和RTX5080的市场占有率为0.38%,而R
618商家动员启动 红利电商平台发布经营方法论 - 天天要闻

618商家动员启动 红利电商平台发布经营方法论

封面新闻记者 蔡世奇 吴雨佳5月9日,得物在杭州举行的“Young新品主场”商家大会上,首次发布品牌经营方法论,为品牌商家明确提出从新品冷启动到打爆,再到全生命周期稳定长销的有效增长路径。
从智造到智行,北京科博会解码智慧出行全链条创新 - 天天要闻

从智造到智行,北京科博会解码智慧出行全链条创新

第二十七届中国北京国际科技产业博览会(简称“北京科博会”)释放“新未来”信号,是创新技术的竞技场。新京报贝壳财经记者探访北京科博会现场发现,从车联网、智能网联到赋能整车,再到氢能、钠离子电池等新能源技术的突破,从智造到智行,北京科博会正在上演智慧出行与绿色未来的变革。智慧巡查车自动化检测只需10秒在北...
机器人、无人车、修文物,北京市职教社携院校企业首次亮相科博会 - 天天要闻

机器人、无人车、修文物,北京市职教社携院校企业首次亮相科博会

第二十七届中国北京国际科技产业博览会正在举办,5月9日,北京市中华职业教育社首次以组团形式亮相科博会,组织北京科技职业大学、北京交通运输职业学院、学大教育等6家院校及企业参展。聚焦“科技引领 职教新行”主题,通过实物展示、图文介绍、现场体验三种模式进行展示,涵盖机器人、无人车、文物修复等多个领域,展现职...
阿维塔公布风阻系数测试结果:120kph测试风速下风阻系数Cd:0.217 - 天天要闻

阿维塔公布风阻系数测试结果:120kph测试风速下风阻系数Cd:0.217

近日,有博主发布视频称,某国产电车(阿维塔12)风阻系数“屡破纪录”,但实测发现“和20年前燃油车水平一样”。该博主表示,阿维塔12测出风阻系数为0.28cd,远高于此前阿维塔宣称的0.21cd。对此,阿维塔曾多次发文回应,称该消息不实,并表示将公开测试。5月9日晚,阿维塔官微公布风阻系数测试结果。“中国汽研权威机构实...
研发投入超过净利润2.5倍 科创板“含科量”持续上升 - 天天要闻

研发投入超过净利润2.5倍 科创板“含科量”持续上升

图片来源:视觉中国随着年报收官,科创板“含科量”亦浮出水面。根据上交所统计,科创板全年研发投入总额达到1680.78亿元,超过净利润2.5倍,同比增长6.4%,最近3年复合增速达10.7%。值得一提的是,科创板未盈利企业积极发挥科技创新主体作用,持续加大研发投入力度,带动自主创新能力不断提升。“含科量”不断增强2024年,...
数毛社:《GTA6》主机可能锁30帧 - 天天要闻

数毛社:《GTA6》主机可能锁30帧

Rockstar Games近日发布的《GTA6》第二支预告展示了令人惊叹的画面细节和复杂的开放世界,但技术专家根据对预告片的分析预测,游戏在主机上的运行帧率可能无法达到60FPS。Digital Foundry的专家分析,有迹象表明,《GTA6》在发售时很可能将以30帧/秒(FPS)运行,至少在主机平台上是如此。Digital Foundry团队指出,在分