it之家 2 月 25 日消息,阿里雲今日宣布旗下視覺生成基座模型萬相 2.1(wan)開源。
此次開源採用最寬鬆的 apache2.0 協議,14b 和 1.3b 兩個參數規格的全部推理代碼和權重全部開源,同時支持文生視頻和圖生視頻任務,全球開發者可在 github、huggingface 和魔搭社區下載體驗。
據介紹,14b 萬相模型在指令遵循、複雜運動生成、物理建模、文字視頻生成等方面表現突出,在評測集 vbench 中,萬相 2.1 以總分 86.22% 的成績超越 sora、luma、pika 等國內外模型,位列榜首。1.3b 版本測試結果不僅超過了更大尺寸的開源模型,甚至還接近部分閉源模型,同時能在消費級顯卡運行,號稱「僅需 8.2gb 顯存就可以生成 480p 視頻」,適用於二次模型開發和學術研究。
在算法設計上,萬相基於主流 dit 架構和線性噪聲軌跡 flow matching 範式,研發了高效的因果 3d vae、可擴展的預訓練策略等。以 3d vae 為例,為了高效支持任意長度視頻的編碼和解碼,萬相在 3d vae 的因果卷積模塊中實現了特徵緩存機制,從而代替直接對長視頻端到端的編解碼過程,實現了無限長 1080p 視頻的高效編解碼。此外,通過將空間降採樣壓縮提前,在不損失性能的情況下進一步減少了 29% 的推理時內存佔用。
萬相團隊的實驗結果顯示,在運動質量、視覺質量、風格和多目標等 14 個主要維度和 26 個子維度測試中,萬相均達到了業界領先表現,並且斬獲 5 項第一。
it之家附開源地址:
github:https://github.com/wan-video
huggingface:https://huggingface.co/wan-ai
魔搭社區:https://modelscope.cn/organization/wan-ai