新京報貝殼財經訊(記者羅亦丹)1月28日,阿里雲通義千問開源全新的視覺模型Qwen2.5-VL,推出3B、7B和72B三個尺寸版本,並已在魔搭社區、HuggingFace等平台開源。
其中,旗艦版Qwen2.5-VL-72B在13項權威評測中的得分領先GPT-4o與Claude3.5。新的Qwen2.5-VL能夠更準確地解析圖像內容,支持超1小時的視頻理解,無需微調就可變身為一個能操控手機和電腦的AI視覺智能體(Visual Agents),實現給指定朋友送祝福、電腦修圖、手機訂票等多步驟複雜操作。
Qwen2.5-VL識別和定位馬路上騎摩托車未戴頭盔的人。官方供圖
通義團隊此前曾開源Qwen-VL及Qwen2-VL兩代模型,而新的Qwen2.5-VL視覺知識解析能力實現了飛躍,如準確識別和定位馬路上騎摩托車未戴頭盔的人,或是以多種格式提取發票中的核心信息並做結構化的推理輸出。其視頻理解能力也得到了增強,可以在視頻中搜索具體事件,並對視頻的不同時間段進行要點總結,打開攝像頭,用戶就能與Qwen2.5-VL實時對話。
開發者基於Qwen2.5-VL也能開發屬於自己的AI智能體,如自動核驗快遞單地址與照片中的門牌號是否對應,根據家庭攝像頭判斷貓咪狀況進行自動餵食,自動進行火災報警等。
編輯 陳莉 校對 穆祥桐