移動GUI智能體邁向實用化!全新驗證器架構V-Droid,刷新成功率紀錄

2025年04月12日13:30:31 科技 6589

移動GUI智能體邁向實用化!全新驗證器架構V-Droid,刷新成功率紀錄 - 天天要聞



  新智元報道  

編輯:lrst
【新智元導讀】移動gui自動化智能體v-droid採用「驗證器驅動」架構,通過離散化動作空間並利用llm評估候選動作,實現了高效決策。在androidworld等多個基準測試中任務成功率分別達到59.5%、38.3%和49%,決策延遲僅0.7秒,接近實時響應。

隨著人工智慧和大語言模型(llms)的不斷突破,如何將其優勢賦能現實世界中可實際部署的高效工具,成為了業界關注的焦點。

近期,由微軟亞洲研究院、南洋理工大學、清華大學、香港科技大學等多家機構聯合推出移動圖形用戶界面(gui)任務自動化智能體——v-droid,憑藉其全新「驗證器驅動」架構,v-droid不僅在任務成功率上刷新記錄,同時在決策響應速度上實現了接近實時的表現,為移動端自動化控制開闢了全新局面。

移動GUI智能體邁向實用化!全新驗證器架構V-Droid,刷新成功率紀錄 - 天天要聞

鏈接:https://arxiv.org/abs/2503.15937

移動GUI智能體邁向實用化!全新驗證器架構V-Droid,刷新成功率紀錄 - 天天要聞

圖1:v-droid與其他移動gui智能體在androidworld上的任務成功率與決策響應時間。對於v-droid以及其他7b,8b基準模型,決策時間在雙卡4090上測試得出;對於72b基準模型,決策時間在四卡a100上測試得出

長期以來,移動設備上的任務自動化一直面臨兩大難題:一是如何在複雜、多變的gui環境中準確識別和操作界面元素, 並以多步驟成功完成任務;二是如何在保證任務成功率的前提下降低決策延遲。

以往依靠llm直接生成操作指令的方法,由於生成過程往往需要連續輸出大量信息,導致在實際應用中既不夠高效,又容易出現決策偏差。

移動GUI智能體邁向實用化!全新驗證器架構V-Droid,刷新成功率紀錄 - 天天要聞

圖2:在決策過程中,將 llm 用作生成器與用作驗證器的智能體架構的關鍵區別在於:驗證器驅動的智能體不會直接根據任務狀態直接生成動作,而是在作出最終決策之前,明確地對每個候選動作進行評估

v-droid創新性地提出「驗證器驅動」的思路。該方法不再直接依賴大語言模型生成最終操作,而是首先通過對ui界面的深入解析構建出詳盡的動作集合,再利用經過精細訓練的基於大語言模型的驗證器對每個候選動作進行評估,最終選出得分最高的動作執行。

這種做法將操作生成與決策判斷有效解耦:一方面,與從零開始直接生成所需操作相比,該方案使智能體能夠在一個離散且有限的動作空間內高效地進行驗證,從而大大降低了決策的複雜度;

同時,由於每次驗證僅輸出極簡的信息(僅一個token),並且可以對多個候選動作實現並行驗證,從而顯著縮短了每一步決策所需的時間。

v-droid在多個公共移動任務自動化基準上均取得了顯著提升,例如在androidworld基準上任務成功率達59.5%,比現有智能體提高了近10個百分點,而決策延遲在消費級硬體上(如4090)則降至僅0.7秒左右。

移動GUI智能體邁向實用化!全新驗證器架構V-Droid,刷新成功率紀錄 - 天天要聞

圖3:v-droid 的工作流程:① 從用戶界面中提取動作並補充默認動作;② 針對每個候選動作使用模板構建驗證提示;③ 利用前綴緩存對候選動作進行批量打分;④ 完成並執行所選動作;⑤ 更新工作記憶

v-droid的核心突破主要體現在以下幾個方面:

  1. 動作空間離散化與構建由於移動設備屏幕尺寸有限,每個界面上可交互的元素數量本就較少,v-droid充分利用這一特性,從當前界面的xml描述中提取所有可點擊、長按、滾動、文本輸入等基本操作,將它們映射到一個有限的動作空間中。同時,為了應對界面上未直接呈現的操作(例如返回首頁或模擬系統操作),系統還預置了一系列默認動作。通過這種方式,原本無限的操作可能性被精細劃分為一個可枚舉的集合,在這個集合上進行驗證,大大降低了決策難度。


  2. 驗證器驅動的決策機制與流程不同於傳統依賴生成式模型直接輸出操作指令的方案,v-droid將llm的角色重新定位為驗證器。系統首先根據當前任務狀態構造出候選操作列表,並為每個候選動作生成一個預定義格式的驗證提示(prompt),其中包含任務目標、當前界面狀態、歷史操作記錄以及具體的驗證問題。經過預先微調的驗證器(基於llama-3.1-8b等小語言模型)會對每個候選動作進行評分,最終系統選擇評分最高的動作執行。由於驗證過程只需要生成「yes」或「no」這類簡短回復。更重要是的,多組候選驗證可被高效並行,且此過程中只涉及prefilling階段,從而極大地減少了計算時間,實現了近實時的決策響應。


  3. 對比式過程偏好(p^3)訓練為了提升llm作為驗證器的決策能力,v-droid提出p(3 )訓練策略:對比式過程偏好訓練策略(pairwise process preference)。在每個任務步驟中,通過構建正負操作對(即標記正確操作為正樣本,其他操作為負樣本),系統能夠利用大量細粒度的訓練數據對驗證器進行優化,使其更準確地區分正確與錯誤的操作。這種方法不僅提高了模型對相似界面元素的辨別能力,也在一定程度上增強了系統的容錯與自我修正能力。


  4. 人機聯合標註的數據採集策略由於針對移動gui任務的細粒度標註數據極為稀缺,v-droid設計了一套人機聯合標註方案。系統初始階段由人工作業完成標註,隨後利用經過初步訓練的驗證器自動生成操作標註,再由人工審核與修正。隨著迭代訓練的進行,驗證器的準確性不斷提升,人工介入比例逐漸下降,從而高效構建起一個涵蓋上萬條任務軌跡的數據集,為後續大規模訓練提供了堅實基礎。


移動GUI智能體邁向實用化!全新驗證器架構V-Droid,刷新成功率紀錄 - 天天要聞
移動GUI智能體邁向實用化!全新驗證器架構V-Droid,刷新成功率紀錄 - 天天要聞

圖4:v-droid的任務成功率與單步決策響應時間

v-droid在多個移動任務自動化基準測試中均表現出色。例如,在androidworld基準上,v-droid的任務成功率達到59.5%,相比傳統代理有明顯優勢;在androidlab和mobileagentbench上,其任務成功率分別為38.3%和49%,均超過先前系統約2%至9%的絕對提升。

此外,決策響應時間僅為0.7秒,使得該系統在實時性要求較高的移動場景中具有顯著應用潛力。

v-droid所採用的驗證器驅動架構為移動端自動化任務帶來全新思路。通過將智能體的動作生成過程解耦為動作空間構建與驗證,該系統不僅在任務成功率上取得了顯著提升,還在決策延遲方面實現突破。

未來,這一技術有望推廣至更多實際應用中,如自動化測試等領域。隨著大語言模型技術的不斷進步,以及高效訓練與數據採集策略的成熟,驗證器驅動的移動gui智能體或將成為智能交互領域的突破口。

演示視頻1:「請從 broccoli 應用中刪除以下食譜:雞肉阿爾弗雷多義大利面、番茄羅勒烤麵包以及番茄羅勒烤乳酪三明治」,v-droid約使用20步操作完成此任務。視頻無加速處理。

演示視頻2:「發送簡訊息」,v-droid約使用8步操作完成此任務。視頻無加速處理。

參考資料:
https://arxiv.org/abs/2503.15937

科技分類資訊推薦

中國首個獨立研發在美獲批的全球首創新葯,來自無錫高新區! - 天天要聞

中國首個獨立研發在美獲批的全球首創新葯,來自無錫高新區!

7月3日無錫高新區企業迪哲醫藥宣布舒沃哲的新葯上市申請正式獲得美國食品藥品監督管理局批准成為全球首個且唯一在美國獲批的表皮生長因子受體(EGFR)20號外顯子插入突變(exon20ins)非小細胞肺癌(NSCLC)國創新葯同時也是中國首個獨立研發在美獲批的全球首創新葯舒沃哲是一款口服、不可逆、針對多種EGFR突變亞型的高...
百度前副總裁璩靜開醫美診所,人均消費2218元,曾因 「霸道女總裁」 言論道歉辭職 - 天天要聞

百度前副總裁璩靜開醫美診所,人均消費2218元,曾因 「霸道女總裁」 言論道歉辭職

紅星資本局7月2日消息,百度前副總裁璩靜在華為總部坂田基地附近開了一家醫美診所。據公開資料,璩靜名下新增一家存續企業——深圳大為診所。該診所成立於2024年12月23日,璩靜持股比例為100%,認繳出資額為100萬元,經營範圍為診所服務等。企查查顯示,根據璩靜關聯的任職歷史,她曾任深圳市星光健康管理有限公司(以下簡...
推薦數商雲B2B撮合交易平台,搭建企業間合作橋樑 - 天天要聞

推薦數商雲B2B撮合交易平台,搭建企業間合作橋樑

來源:數商雲引言:企業數字化轉型與B2B撮合交易平台的崛起在全球經濟一體化與數字經濟深度融合的背景下,企業間的合作模式正經歷深刻變革。傳統供應鏈中信息不對稱、交易成本高、協同效率低等問題,已成為制約企業發展的核心痛點。
當無人機 「飛」 入生活,數字低空如何重構我們的出行與未來? - 天天要聞

當無人機 「飛」 入生活,數字低空如何重構我們的出行與未來?

交匯點訊 近日,蘇州國際博覽中心的展廳里人頭攢動,2025數字低空大會在此隆重舉行。作為第三屆低空(蘇州)產業創新生態大會的重要組成部分,這場由未來移動通信論壇與鵬城實驗室聯合主辦的盛會,承載著特殊的行業意義——繼2024年在深圳首次提出「數字低空」概念並引發廣泛共鳴後,它既是對過去一年行業探索的總結,更是...
雷軍披露小米 YU7 銷售數據;特斯拉 Q2 交付汽車 38.4 萬輛;榮耀 Magic V5 發布|Do早報 - 天天要聞

雷軍披露小米 YU7 銷售數據;特斯拉 Q2 交付汽車 38.4 萬輛;榮耀 Magic V5 發布|Do早報

Hello,大家早上好,又是元氣滿滿的一天,先來瀏覽新鮮的早報吧~【微信多端正式更新】7 月 2 日,微信 iOS / 安卓 8.0.61 正式版攜手登場;而在 7 月 1 日,微信在官網也上架了 PC 的新版本,Windows / Mac 4.0.6 迎來全新發布。【多地開放往屆高考成績網上查詢功能】河北、浙江、陝西、山東等地都開放了往屆高考成績的查...
長城為何不做增程?詳解Hi4背後的技術和戰略邏輯 - 天天要聞

長城為何不做增程?詳解Hi4背後的技術和戰略邏輯

在中國新能源汽車產業邁入智能化與電動化深水區的當下,動力技術路線的選擇,不僅關乎產品體驗,也在重塑車企的技術底盤與品牌認知。與越來越多自主品牌押注增程技術不同,長城汽車選擇走另一條更具挑戰性的路線——全場景智能四驅電混技術體系Hi4。這個選擇背後,是對效率、安全與技術普適性的權衡與押注。Hi4,一種技術「...
解碼「民生答卷」丨如何「喚醒」沉睡的養老資源 - 天天要聞

解碼「民生答卷」丨如何「喚醒」沉睡的養老資源

湖北日報全媒記者 方琳 李光正 張華「幸福食堂、健身房、閱覽室、娛樂室、理療室一應俱全,可沒多少人來。」6月19日,在鄂東南某鎮,一家開業一個多月的養老服務綜合體經營者王先生望著冷清的門廳,難掩焦慮。截然不同的是,在武漢眾多社區養老中心,唱歌、跳舞等活動日程排得滿滿當當,老人們排隊「搶位」,養老床位更是「...
YU7爆火是雷軍營銷太強?張全蛋貼臉開大車企大佬,遮羞布都撕了 - 天天要聞

YU7爆火是雷軍營銷太強?張全蛋貼臉開大車企大佬,遮羞布都撕了

6月26日,小米YU7正式公布售價,很多人都預料到小米YU7會非常火,但是完全沒有料到小米YU7能那麼火,3分鐘大定破20萬輛,18小時鎖單24.8萬輛,可以說創造了國內汽車市場前所未有的新紀錄。這也讓之前那些攻擊小米汽車的車企大佬和業外人士的表述顯得蒼白無力,小米YU7的價格不便宜,現在整個汽車行業的需求量也呈現疲軟態勢...