通義開源視覺理解模型Qwen2.5-VL可操控手機、視頻通話

分類：科技

瀏覽數：1461

2025-01-28

新京報貝殼財經訊（記者羅亦丹）1月28日，阿里雲通義千問開源全新的視覺模型Qwen2.5-VL，推出3B、7B和72B三個尺寸版本，並已在魔搭社區、HuggingFace等平台開源。

其中，旗艦版Qwen2.5-VL-72B在13項權威評測中的得分領先GPT-4o與Claude3.5。新的Qwen2.5-VL能夠更準確地解析圖像內容，支持超1小時的視頻理解，無需微調就可變身為一個能操控手機和電腦的AI視覺智能體（Visual Agents），實現給指定朋友送祝福、電腦修圖、手機訂票等多步驟複雜操作。

Qwen2.5-VL識別和定位馬路上騎摩托車未戴頭盔的人。官方供圖

通義團隊此前曾開源Qwen-VL及Qwen2-VL兩代模型，而新的Qwen2.5-VL視覺知識解析能力實現了飛躍，如準確識別和定位馬路上騎摩托車未戴頭盔的人，或是以多種格式提取發票中的核心信息並做結構化的推理輸出。其視頻理解能力也得到了增強，可以在視頻中搜索具體事件，並對視頻的不同時間段進行要點總結，打開攝像頭，用戶就能與Qwen2.5-VL實時對話。

開發者基於Qwen2.5-VL也能開發屬於自己的AI智能體，如自動核驗快遞單地址與照片中的門牌號是否對應，根據家庭攝像頭判斷貓咪狀況進行自動餵食，自動進行火災報警等。

編輯陳莉校對穆祥桐

科技分類資訊推薦