11B模型拿開源視頻生成SOTA！僅用224張GPU訓練，訓練成本省10倍

2025年03月13日13:10:43 科技 9787

小明發自凹非寺
量子位 | 公眾號 qbitai

224張gpu，訓出開源視頻生成新sota！

open-sora 2.0正式發佈。

11b參數規模，性能可直追hunyuanvideo和step-video（30b）。

要知道，市面上諸多效果相近的閉源視頻生成模型，動輒花費數百萬美元訓練成本。

而open-sora 2.0，將這一數字壓縮到了20萬美元。

同時，此次發佈全面開源模型權重、推理代碼及分佈式訓練全流程，開發者們可以看過來！

github開源倉庫：https://github.com/hpcaitech/open-sora

支持720p、24fps高畫質生成

來看open-sora 2.0 demo。

在動作幅度上，可以根據需求設定，更好展現人物或場景的細膩動作。

生成的視頻里，男人做俯卧撐動作流暢、幅度合理，和真實世界情況別無二致。

或者是讓番茄衝浪這種虛擬場景，水花、葉子船、番茄之間的動作也沒有違背物理規律。

畫質和流暢度上，提供720p高分辨率和24fps流暢度，讓最終視頻擁有穩定幀率與細節表現。

同時支持豐富場景切換，從鄉村景色到自然風光，open-sora 2.0生成的畫面細節與相機運鏡都有出色的表現。

11b參數規模媲美主流閉源大模型

open-sora 2.0採用11b參數規模，訓練後在vbench和人工偏好（human preference）評測上都取得與用高昂成本開發的主流閉源大模型同等水平，媲美hunyuanvideo和30b step-video。

在視覺表現、文本一致性和動作表現三個評估維度上，open sora在至少兩個指標上超越了開源sota hunyuanvideo，以及商業模型runway gen-3 alpha等。以小成本獲取了好性能。

根據視頻生成權威榜單vbench的評測結果，open-sora模型的性能進步顯著。從open-sora 1.2升級到2.0版本後，與行業領先的openai sora閉源模型之間的性能差距大幅縮小，從之前的4.52%縮減至僅0.69%，幾乎實現了性能的全面追平。

此外，open-sora 2.0在vbench評測中取得的分數已超過騰訊的hunyuanvideo，以更低的成本實現了更高的性能，為開源視頻生成技術樹立了全新標杆。

實現突破：低成本訓練與高效能優化

open sora自開源以來，憑藉其在視頻生成領域的高效與優質表現，吸引了眾多開發者的關注與參與。

然而，隨着項目的深入推進，也面臨著高質量視頻生成成本居高不下的問題。為解決這些挑戰，open sora團隊展開了一系列卓有成效的技術探索，顯著降低了模型訓練成本。根據估算，市面上10b以上的開源視頻模型，動輒需要上百萬美元的單次訓練成本，而open sora 2.0將該成本降低了5-10倍。

作為開源視頻生成領域的領導者，open-sora不僅繼續開源了模型代碼和權重，更開源了全流程訓練代碼，成功打造了強大的開源生態圈。據第三方技術平台統計，open-sora的學術論文引用量半年內獲得近百引用，在全球開源影響力排名中穩居首位，領先所有開源的i2v/t2v視頻生成項目，成為全球影響力最大的開源視頻生成項目之一。

模型架構

open-sora 2.0延續open-sora 1.2的設計思路，繼續採用3d自編碼器和flow matching訓練框架，並通過多桶訓練機制，實現對不同視頻長度和分辨率的同時訓練。在模型架構上，引入3d全注意力機制，進一步提升視頻生成質量。

同時，採用最新的mmdit架構，更精準地捕捉文本信息與視頻內容的關係，並將模型規模從1b擴展至11b。此外，藉助開源圖生視頻模型 flux進行初始化，大幅降低訓練成本，實現更高效的視頻生成優化。

高效訓練方法和並行方案全開源

為了追求極致的成本優化，open-sora 2.0從四個方面着手削減訓練開銷。

首先，通過嚴格的數據篩選，確保高質量數據輸入，從源頭提升模型訓練效率。採用多階段、多層次的篩選機制，結合多種過濾器，有效提升視頻質量，為模型提供更精準、可靠的訓練數據。

其次，高分辨率訓練的成本遠超低分辨率，達到相同數據量時，計算開銷可能高達40倍。以256px、5秒的視頻為例，其tokens數量約8千，而768px的視頻tokens數量接近8萬，相差10倍，再加上注意力機制的平方級計算複雜度，高分辨率訓練的代價極其昂貴。因此，open-sora優先將算力投入到低分辨率訓練，以高效學習運動信息，在降低成本的同時確保模型能夠捕捉關鍵的動態特徵。

與此同時，open-sora優先訓練圖生視頻任務，以加速模型收斂。相比直接訓練高分辨率視頻，圖生視頻模型在提升分辨率時具備更快的收斂速度，從而進一步降低訓練成本。在推理階段，除了直接進行文本生視頻（t2v），還可以結合開源圖像模型，通過文本生圖再生視頻（t2i2v），以獲得更精細的視覺效果。

最後，open-sora採用高效的並行訓練方案，結合colossalai和系統級優化，大幅提升計算資源利用率，實現更高效的視頻生成訓練。為了最大化訓練效率，我們引入了一系列關鍵技術，包括：

高效的序列並行和zerodp，優化大規模模型的分佈式計算效率。
細粒度控制的gradient checkpointing，在降低顯存佔用的同時保持計算效率。
訓練自動恢復機制，確保99%以上的有效訓練時間，減少計算資源浪費。
高效數據加載與內存管理，優化i/o，防止訓練阻塞，加速訓練流程
高效異步模型保存，減少模型存儲對訓練流程的干擾，提高gpu利用率。
算子優化，針對關鍵計算模塊進行深度優化，加速訓練過程。

這些優化措施協同作用，使open-sora 2.0在高性能與低成本之間取得最佳平衡，大大降低了高質量視頻生成模型的訓練。

高壓縮比ae帶來更高速度

在訓練完成後，open-sora面向未來，進一步探索高壓縮比視頻自編碼器的應用，以大幅降低推理成本。目前，大多數視頻模型仍採用4×8×8的自編碼器，導致單卡生成768px、5秒視頻耗時近30分鐘。

為解決這一瓶頸，open-sora訓練了一款高壓縮比（4×32×32）的視頻自編碼器，將推理時間縮短至單卡3分鐘以內，推理速度提升10倍。

要實現高壓縮比編碼器，需要解決兩個核心挑戰：如何訓練高壓縮但仍具備優秀重建效果的自編碼器，以及如何利用該編碼器訓練視頻生成模型。針對前者，open-sora團隊在視頻升降採樣模塊中引入殘差連接，成功訓練出一款重建質量媲美當前開源sota視頻壓縮模型，且具備更高壓縮比的vae，自此奠定了高效推理的基礎。

高壓縮自編碼器在訓練視頻生成模型時面臨更高的數據需求和收斂難度，通常需要更多訓練數據才能達到理想效果。為解決這一問題，open-sora提出了基於蒸餾的優化策略，以提升ae（自編碼器）特徵空間的表達能力，並利用已經訓練好的高質量模型作為初始化，減少訓練所需的數據量和時間。此外，open-sora還重點訓練圖生視頻任務，利用圖像特徵引導視頻生成，進一步提升高壓縮自編碼器的收斂速度，使其在更短時間內達到一定生成效果。

open-sora認為，高壓縮比視頻自編碼器將成為未來降低視頻生成成本的關鍵方向。目前的初步實驗結果已展現出顯著的推理加速效果，希望能進一步激發社區對這一技術的關注與探索，共同推動高效、低成本的視頻生成發展。