兵馬俑跳科目三!大模型“通義千問”新功能受到網友熱捧

海報新聞記者 孫傑 報道

近日,兵馬俑、馬斯克以及各地網友跳科目三和網紅舞的視頻陸續在國內社交媒體和朋友圈刷屏。其實,這些視頻都不是真人出鏡,均由大模型生成。這種低門檻的“跳舞”方式引發了網友的廣泛體驗,掀起了一波斗舞潮。網友們紛紛表示,“ai治癒了自己的四肢不協調”,“科目三的風吹到了考古界”,“再也不用擔心跳科目三崴腳”……

海報新聞記者了解到,上述跳舞視頻均由阿里雲研發的大模型“通義千問”生成。在通義千問app內輸入“通義舞王”“全民舞王”等口令後,即可進入體驗頁面。用戶按照提示要求上傳照片後,十幾分鐘即可生成形神兼備的舞蹈視頻,生成的視頻能較好地保留原形象的面部表情、身材比例、服裝以及背景等特徵。目前,通義千問首批為用戶提供了科目三、蒙古舞、划槳步、鬼步舞等12種熱門舞蹈模板。

據悉,該功能背後的算法為阿里通義實驗室自研視頻生成模型animateanyone。早在11月底,該研究便在推特、youtube等海外社交媒體平台爆火,相關視頻播放量超1億,項目在github上的star短短數日就超過1萬,是近期大模型領域最受歡迎的大模型算法之一,國外開發者和網友集體稱讚該算法效果,並發出“開放體驗入口”的呼聲。

除了驚艷的生成效果之外,該算法的技術路線也被廣泛關注。視頻生成是大模型領域最熱門的研究方向之一,谷歌、meta、runway等國外科技公司都在積極布局,但一直以來,人物形象的視頻生成面臨諸多技術挑戰,例如人物形象一致、動作流暢可控、時序無瑕疵的人物動作視頻。

根據公開論文顯示,animateanyone集成了多項創新技術,引入了referencenet,用於捕捉和保留原圖像信息,可高度還原人物、表情及服裝細節;此外,該算法使用了高效的pose guider姿態引導器,保證了動作的精準可控;另外,通過時序生成模塊,有效保證視頻幀間的連貫流暢性。在相同數據集的測試下,animate anyone的性能表現顯著優於國內外同類模型。

今年9月,通義千問成國內首批通過備案的大模型,通義千問app上線後功能持續升級,目前可提供文本對話、語音對話、翻譯、ppt大綱助手、小紅書文案、視頻生成等幾十項功能。