移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录

2025年04月12日13:30:31 科技 6589

移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录 - 天天要闻



  新智元报道  

编辑:lrst
【新智元导读】移动gui自动化智能体v-droid采用“验证器驱动”架构,通过离散化动作空间并利用llm评估候选动作,实现了高效决策。在androidworld等多个基准测试中任务成功率分别达到59.5%、38.3%和49%,决策延迟仅0.7秒,接近实时响应。

随着人工智能和大语言模型(llms)的不断突破,如何将其优势赋能现实世界中可实际部署的高效工具,成为了业界关注的焦点。

近期,由微软亚洲研究院、南洋理工大学、清华大学、香港科技大学等多家机构联合推出移动图形用户界面(gui)任务自动化智能体——v-droid,凭借其全新“验证器驱动”架构,v-droid不仅在任务成功率上刷新记录,同时在决策响应速度上实现了接近实时的表现,为移动端自动化控制开辟了全新局面。

移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录 - 天天要闻

链接:https://arxiv.org/abs/2503.15937

移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录 - 天天要闻

图1:v-droid与其他移动gui智能体在androidworld上的任务成功率与决策响应时间。对于v-droid以及其他7b,8b基准模型,决策时间在双卡4090上测试得出;对于72b基准模型,决策时间在四卡a100上测试得出

长期以来,移动设备上的任务自动化一直面临两大难题:一是如何在复杂、多变的gui环境中准确识别和操作界面元素, 并以多步骤成功完成任务;二是如何在保证任务成功率的前提下降低决策延迟。

以往依靠llm直接生成操作指令的方法,由于生成过程往往需要连续输出大量信息,导致在实际应用中既不够高效,又容易出现决策偏差。

移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录 - 天天要闻

图2:在决策过程中,将 llm 用作生成器与用作验证器的智能体架构的关键区别在于:验证器驱动的智能体不会直接根据任务状态直接生成动作,而是在作出最终决策之前,明确地对每个候选动作进行评估

v-droid创新性地提出“验证器驱动”的思路。该方法不再直接依赖大语言模型生成最终操作,而是首先通过对ui界面的深入解析构建出详尽的动作集合,再利用经过精细训练的基于大语言模型的验证器对每个候选动作进行评估,最终选出得分最高的动作执行。

这种做法将操作生成与决策判断有效解耦:一方面,与从零开始直接生成所需操作相比,该方案使智能体能够在一个离散且有限的动作空间内高效地进行验证,从而大大降低了决策的复杂度;

同时,由于每次验证仅输出极简的信息(仅一个token),并且可以对多个候选动作实现并行验证,从而显著缩短了每一步决策所需的时间。

v-droid在多个公共移动任务自动化基准上均取得了显著提升,例如在androidworld基准上任务成功率达59.5%,比现有智能体提高了近10个百分点,而决策延迟在消费级硬件上(如4090)则降至仅0.7秒左右。

移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录 - 天天要闻

图3:v-droid 的工作流程:① 从用户界面中提取动作并补充默认动作;② 针对每个候选动作使用模板构建验证提示;③ 利用前缀缓存对候选动作进行批量打分;④ 完成并执行所选动作;⑤ 更新工作记忆

v-droid的核心突破主要体现在以下几个方面:

  1. 动作空间离散化与构建由于移动设备屏幕尺寸有限,每个界面上可交互的元素数量本就较少,v-droid充分利用这一特性,从当前界面的xml描述中提取所有可点击、长按、滚动、文本输入等基本操作,将它们映射到一个有限的动作空间中。同时,为了应对界面上未直接呈现的操作(例如返回首页或模拟系统操作),系统还预置了一系列默认动作。通过这种方式,原本无限的操作可能性被精细划分为一个可枚举的集合,在这个集合上进行验证,大大降低了决策难度。


  2. 验证器驱动的决策机制与流程不同于传统依赖生成式模型直接输出操作指令的方案,v-droid将llm的角色重新定位为验证器。系统首先根据当前任务状态构造出候选操作列表,并为每个候选动作生成一个预定义格式的验证提示(prompt),其中包含任务目标、当前界面状态、历史操作记录以及具体的验证问题。经过预先微调的验证器(基于llama-3.1-8b等小语言模型)会对每个候选动作进行评分,最终系统选择评分最高的动作执行。由于验证过程只需要生成“yes”或“no”这类简短回复。更重要是的,多组候选验证可被高效并行,且此过程中只涉及prefilling阶段,从而极大地减少了计算时间,实现了近实时的决策响应。


  3. 对比式过程偏好(p^3)训练为了提升llm作为验证器的决策能力,v-droid提出p(3 )训练策略:对比式过程偏好训练策略(pairwise process preference)。在每个任务步骤中,通过构建正负操作对(即标记正确操作为正样本,其他操作为负样本),系统能够利用大量细粒度的训练数据对验证器进行优化,使其更准确地区分正确与错误的操作。这种方法不仅提高了模型对相似界面元素的辨别能力,也在一定程度上增强了系统的容错与自我修正能力。


  4. 人机联合标注的数据采集策略由于针对移动gui任务的细粒度标注数据极为稀缺,v-droid设计了一套人机联合标注方案。系统初始阶段由人工作业完成标注,随后利用经过初步训练的验证器自动生成操作标注,再由人工审核与修正。随着迭代训练的进行,验证器的准确性不断提升,人工介入比例逐渐下降,从而高效构建起一个涵盖上万条任务轨迹的数据集,为后续大规模训练提供了坚实基础。


移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录 - 天天要闻
移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录 - 天天要闻

图4:v-droid的任务成功率与单步决策响应时间

v-droid在多个移动任务自动化基准测试中均表现出色。例如,在androidworld基准上,v-droid的任务成功率达到59.5%,相比传统代理有明显优势;在androidlab和mobileagentbench上,其任务成功率分别为38.3%和49%,均超过先前系统约2%至9%的绝对提升。

此外,决策响应时间仅为0.7秒,使得该系统在实时性要求较高的移动场景中具有显著应用潜力。

v-droid所采用的验证器驱动架构为移动端自动化任务带来全新思路。通过将智能体的动作生成过程解耦为动作空间构建与验证,该系统不仅在任务成功率上取得了显著提升,还在决策延迟方面实现突破。

未来,这一技术有望推广至更多实际应用中,如自动化测试等领域。随着大语言模型技术的不断进步,以及高效训练与数据采集策略的成熟,验证器驱动的移动gui智能体或将成为智能交互领域的突破口。

演示视频1:“请从 broccoli 应用中删除以下食谱:鸡肉阿尔弗雷多意大利面、番茄罗勒烤面包以及番茄罗勒烤奶酪三明治”,v-droid约使用20步操作完成此任务。视频无加速处理。

演示视频2:“发送短信息”,v-droid约使用8步操作完成此任务。视频无加速处理。

参考资料:
https://arxiv.org/abs/2503.15937

科技分类资讯推荐

便宜买奇瑞,个性买阿维塔,档次上问界,最保值的不是雷克萨斯 - 天天要闻

便宜买奇瑞,个性买阿维塔,档次上问界,最保值的不是雷克萨斯

出了便宜,奇瑞的安全性也不错。目前奇瑞车系共有26个车系在售,奇瑞新能源有5个车系在售,而奇瑞高端品牌星途有8个车系在售。奇瑞汽车的品系越来越多,产品也越来越丰富。正所谓“树大招风”,这么多的车型安全性是否有保障呢?以瑞虎7的碰撞车试为例,该车正面100%碰撞
康迈轮端主挂一体:安全、经济、高效 - 天天要闻

康迈轮端主挂一体:安全、经济、高效

在运输运营中车辆出勤率和维保成本至关重要当主车配备康迈免维护轮端而挂车轮端却仍需频繁进站保养时则会严重影响整车高效运营康迈开发了与主车轮端相同技术标准的挂车免维护轮端产品实现康迈轮端主挂一体化轴承游隙预调整技术赋能挂车康迈作为行业技术引领者将北美先进轮端油润滑
极狐汽车 3 月冲进前六,靠的是什么? - 天天要闻

极狐汽车 3 月冲进前六,靠的是什么?

在当下风云变幻的新能源汽车市场,每月的销量榜单都是各方关注的焦点。刚刚过去的 3 月,极狐汽车宛如一匹黑马,强势跻身销量排行榜前六,这一傲人成绩瞬间吸引了整个行业的目光。今天,就让我们一同深入探寻极狐汽车此次突破背后的制胜法宝。
一季度狂卖70万辆,吉利交出“满分答卷” - 天天要闻

一季度狂卖70万辆,吉利交出“满分答卷”

4月1日,吉利汽车集团公布了最新销量数据,2025年第一季度,吉利汽车累计销量达703,824辆,同比增长48%,超额完成全年销量目标的四分之一。其中,新能源车型(含吉利、领克、极氪)销量达339,200辆,同比增长135%,新能源占比提升至48%,展现出强劲
开启 “雷凤军” 时代,硬派新玩家的技术狂飙,郑州日产Z9开启预售 - 天天要闻

开启 “雷凤军” 时代,硬派新玩家的技术狂飙,郑州日产Z9开启预售

像雷军雷布斯那样用互联网思维造车,以生态圈模式卖车;像小鹏王凤英那样管理公司,激发团队;对标长城魏建军;开创郑州日产自己的“雷凤军”时代。在3月31日举办的郑州日产 Z9 预售发布会上,郑州日产执行副总经理毛力民这句话一出,不仅瞬间点燃了现场,更让我们看到了郑
探秘东风汽车博物馆:穿越汽车工业的时光隧道 - 天天要闻

探秘东风汽车博物馆:穿越汽车工业的时光隧道

3月26日,中部地区首座以汽车工业文化为主题的综合性博物馆——东风汽车博物馆正式在湖北十堰开馆。这座承载着中国汽车工业半个多世纪奋斗史的文化地标,在十堰市原第二汽车制造厂(下称“二汽”)历史厂区隆重启幕。它不仅是东风汽车发展历程的生动记录者,更是中国汽车工业崛