通義開源視覺理解模型Qwen2.5-VL可操控手機、視頻通話

2025年01月28日19:52:15 科技 1461

新京報貝殼財經訊(記者羅亦丹)1月28日,阿里雲通義千問開源全新的視覺模型Qwen2.5-VL,推出3B、7B和72B三個尺寸版本,並已在魔搭社區、HuggingFace等平台開源。

其中,旗艦版Qwen2.5-VL-72B在13項權威評測中的得分領先GPT-4o與Claude3.5。新的Qwen2.5-VL能夠更準確地解析圖像內容,支持超1小時的視頻理解,無需微調就可變身為一個能操控手機和電腦的AI視覺智能體(Visual Agents),實現給指定朋友送祝福、電腦修圖、手機訂票等多步驟複雜操作。

通義開源視覺理解模型Qwen2.5-VL可操控手機、視頻通話 - 天天要聞

Qwen2.5-VL識別和定位馬路上騎摩托車未戴頭盔的人。官方供圖

通義團隊此前曾開源Qwen-VL及Qwen2-VL兩代模型,而新的Qwen2.5-VL視覺知識解析能力實現了飛躍,如準確識別和定位馬路上騎摩托車未戴頭盔的人,或是以多種格式提取發票中的核心信息並做結構化的推理輸出。其視頻理解能力也得到了增強,可以在視頻中搜索具體事件,並對視頻的不同時間段進行要點總結,打開攝像頭,用戶就能與Qwen2.5-VL實時對話。

開發者基於Qwen2.5-VL也能開發屬於自己的AI智能體,如自動核驗快遞單地址與照片中的門牌號是否對應,根據家庭攝像頭判斷貓咪狀況進行自動餵食,自動進行火災報警等。

編輯 陳莉 校對 穆祥桐

科技分類資訊推薦

長安與東風重組新進展:朱華榮稱不會改變長安既定戰略 - 天天要聞

長安與東風重組新進展:朱華榮稱不會改變長安既定戰略

2月9日,長安汽車和東風集團股份(00489.HK)同步發布了控股股東「正在與其他國資央企集團籌劃重組事項」的信息。長安汽車的控股股東是兵裝集團,而東風集團股份的控股股東是東風公司。隨即,長安汽車和東風集團這兩家汽車央企將合併重組,成為業內關注的焦點。
公安部出手了!年齡限制放寬10年、送考下鄉,2025年考駕照不難了 - 天天要聞

公安部出手了!年齡限制放寬10年、送考下鄉,2025年考駕照不難了

電動車加強管理以後,要求機動車類型的車輛需要持證上路,但是老年人考駕照卻受阻,一方面有年齡的限制,另一方面偏遠山區考駕照不方便,所以在2025年公安部出手了,年齡限制放寬10年,同時推出送考下鄉服務,還進一步的降低考駕照的費用,2025年起考摩托車駕照不難了。
從「星靈安全守護體系」到昊鉑HL,看懂廣汽科技日 - 天天要聞

從「星靈安全守護體系」到昊鉑HL,看懂廣汽科技日

發布會以技術切入,並全程圍繞安全展開。廣汽集團董事長、總經理馮興亞率先登場,宣布2025年四季度將正式上市支持L3級智能駕駛的車型,他同時強調面向自動駕駛時代對智能駕駛技術、整車安全架構以及突發風險處理能力的要求更高。如何才能滿足更高的要求?馮興亞提到了「廣汽
關稅大棒下,最受傷的車企出現了 - 天天要聞

關稅大棒下,最受傷的車企出現了

特朗普的關稅大棒剛揮出,尚未嚇退「外敵」,卻先刺痛了自己。近日,擁有瑪莎拉蒂、Jeep等14個品牌的全球第四大車企斯泰蘭蒂斯突然宣布裁撤900名美國工人,關閉加拿大和墨西哥兩家工廠,北美生產線陷入癱瘓。幾乎同一時間,捷豹路虎宣布暫停對美出口一個月,奧迪更是直接