11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍

2025年03月13日13:10:43 科技 9787

小明 發自 凹非寺

量子位 | 公眾號 qbitai

224張gpu,訓出開源視頻生成新sota!

open-sora 2.0正式發布。

11b參數規模,性能可直追hunyuanvideo和step-video(30b)。

要知道,市面上諸多效果相近的閉源視頻生成模型,動輒花費數百萬美元訓練成本。

而open-sora 2.0,將這一數字壓縮到了20萬美元

同時,此次發布全面開源模型權重、推理代碼及分散式訓練全流程,開發者們可以看過來!

github開源倉庫:https://github.com/hpcaitech/open-sora

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

支持720p、24fps高畫質生成

來看open-sora 2.0 demo。

在動作幅度上,可以根據需求設定,更好展現人物或場景的細膩動作。

生成的視頻里,男人做俯卧撐動作流暢、幅度合理,和真實世界情況別無二致。

或者是讓番茄衝浪這種虛擬場景,水花、葉子船、番茄之間的動作也沒有違背物理規律。

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

畫質和流暢度上,提供720p高解析度和24fps流暢度,讓最終視頻擁有穩定幀率與細節表現。

同時支持豐富場景切換,從鄉村景色到自然風光,open-sora 2.0生成的畫面細節與相機運鏡都有出色的表現。

11b參數規模媲美主流閉源大模型

open-sora 2.0採用11b參數規模,訓練後在vbench和人工偏好(human preference)評測上都取得與用高昂成本開發的主流閉源大模型同等水平,媲美hunyuanvideo和30b step-video。

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

在視覺表現、文本一致性和動作表現三個評估維度上,open sora在至少兩個指標上超越了開源sota hunyuanvideo,以及商業模型runway gen-3 alpha等。以小成本獲取了好性能。

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

根據視頻生成權威榜單vbench的評測結果,open-sora模型的性能進步顯著。從open-sora 1.2升級到2.0版本後,與行業領先的openai sora閉源模型之間的性能差距大幅縮小,從之前的4.52%縮減至僅0.69%,幾乎實現了性能的全面追平。

此外,open-sora 2.0在vbench評測中取得的分數已超過騰訊的hunyuanvideo,以更低的成本實現了更高的性能,為開源視頻生成技術樹立了全新標杆。

實現突破:低成本訓練與高效能優化

open sora自開源以來,憑藉其在視頻生成領域的高效與優質表現,吸引了眾多開發者的關注與參與。

然而,隨著項目的深入推進,也面臨著高質量視頻生成成本居高不下的問題。為解決這些挑戰,open sora團隊展開了一系列卓有成效的技術探索,顯著降低了模型訓練成本。根據估算,市面上10b以上的開源視頻模型,動輒需要上百萬美元的單次訓練成本,而open sora 2.0將該成本降低了5-10倍

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

作為開源視頻生成領域的領導者,open-sora不僅繼續開源了模型代碼和權重,更開源了全流程訓練代碼,成功打造了強大的開源生態圈。據第三方技術平台統計,open-sora的學術論文引用量半年內獲得近百引用,在全球開源影響力排名中穩居首位,領先所有開源的i2v/t2v視頻生成項目,成為全球影響力最大的開源視頻生成項目之一。

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

模型架構

open-sora 2.0延續open-sora 1.2的設計思路,繼續採用3d自編碼器flow matching訓練框架,並通過多桶訓練機制,實現對不同視頻長度和解析度的同時訓練。在模型架構上,引入3d全注意力機制,進一步提升視頻生成質量。

同時,採用最新的mmdit架構,更精準地捕捉文本信息與視頻內容的關係,並將模型規模從1b擴展至11b。此外,藉助開源圖生視頻模型 flux進行初始化,大幅降低訓練成本,實現更高效的視頻生成優化。

高效訓練方法和並行方案全開源

為了追求極致的成本優化,open-sora 2.0從四個方面著手削減訓練開銷。

首先,通過嚴格的數據篩選,確保高質量數據輸入,從源頭提升模型訓練效率。採用多階段、多層次的篩選機制,結合多種過濾器,有效提升視頻質量,為模型提供更精準、可靠的訓練數據。

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

其次,高解析度訓練的成本遠超低解析度,達到相同數據量時,計算開銷可能高達40倍。以256px、5秒的視頻為例,其tokens數量約8千,而768px的視頻tokens數量接近8萬,相差10倍,再加上注意力機制的平方級計算複雜度,高解析度訓練的代價極其昂貴。因此,open-sora優先將算力投入到低解析度訓練,以高效學習運動信息,在降低成本的同時確保模型能夠捕捉關鍵的動態特徵。

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

與此同時,open-sora優先訓練圖生視頻任務,以加速模型收斂。相比直接訓練高解析度視頻,圖生視頻模型在提升解析度時具備更快的收斂速度,從而進一步降低訓練成本。在推理階段,除了直接進行文本生視頻(t2v),還可以結合開源圖像模型,通過文本生圖再生視頻(t2i2v),以獲得更精細的視覺效果。

最後,open-sora採用高效的並行訓練方案,結合colossalai和系統級優化,大幅提升計算資源利用率,實現更高效的視頻生成訓練。為了最大化訓練效率,我們引入了一系列關鍵技術,包括:

  1. 高效的序列並行和zerodp,優化大規模模型的分散式計算效率。

  2. 細粒度控制的gradient checkpointing,在降低顯存佔用的同時保持計算效率。

  3. 訓練自動恢復機制,確保99%以上的有效訓練時間,減少計算資源浪費。

  4. 高效數據載入與內存管理,優化i/o,防止訓練阻塞,加速訓練流程

  5. 高效非同步模型保存,減少模型存儲對訓練流程的干擾,提高gpu利用率。

  6. 運算元優化,針對關鍵計算模塊進行深度優化,加速訓練過程。

這些優化措施協同作用,使open-sora 2.0在高性能與低成本之間取得最佳平衡,大大降低了高質量視頻生成模型的訓練。

高壓縮比ae帶來更高速度

在訓練完成後,open-sora面向未來,進一步探索高壓縮比視頻自編碼器的應用,以大幅降低推理成本。目前,大多數視頻模型仍採用4×8×8的自編碼器,導致單卡生成768px、5秒視頻耗時近30分鐘

為解決這一瓶頸,open-sora訓練了一款高壓縮比(4×32×32)的視頻自編碼器,將推理時間縮短至單卡3分鐘以內,推理速度提升10倍

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

要實現高壓縮比編碼器,需要解決兩個核心挑戰:如何訓練高壓縮但仍具備優秀重建效果的自編碼器,以及如何利用該編碼器訓練視頻生成模型。針對前者,open-sora團隊在視頻升降採樣模塊中引入殘差連接,成功訓練出一款重建質量媲美當前開源sota視頻壓縮模型,且具備更高壓縮比的vae,自此奠定了高效推理的基礎。

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

高壓縮自編碼器在訓練視頻生成模型時面臨更高的數據需求和收斂難度,通常需要更多訓練數據才能達到理想效果。為解決這一問題,open-sora提出了基於蒸餾的優化策略,以提升ae(自編碼器)特徵空間的表達能力,並利用已經訓練好的高質量模型作為初始化,減少訓練所需的數據量和時間。此外,open-sora還重點訓練圖生視頻任務,利用圖像特徵引導視頻生成,進一步提升高壓縮自編碼器的收斂速度,使其在更短時間內達到一定生成效果。

open-sora認為,高壓縮比視頻自編碼器將成為未來降低視頻生成成本的關鍵方向。目前的初步實驗結果已展現出顯著的推理加速效果,希望能進一步激發社區對這一技術的關注與探索,共同推動高效、低成本的視頻生成發展。

加入open-sora 2.0,共同推動ai視頻革命

今天,open-sora 2.0正式開源!

github開源倉庫:https://github.com/hpcaitech/open-sora

技術報告:https://github.com/hpcaitech/open-sora-demo/blob/main/paper/open_sora_2_tech_report.pdf

歡迎加入open-sora社區,探索ai視頻的未來!

科技分類資訊推薦

從陪跑個體到企業培訓,我的IP陪跑之路,越走越寬了 - 天天要聞

從陪跑個體到企業培訓,我的IP陪跑之路,越走越寬了

大家好,我是Tina。來繼續通過文章,分享我的自媒體創業生涯。來說說最近在乾的事兒。一今天給江南布衣的全國經銷商做了小紅書的業務輔導培訓。很難想像6年的時間,我從一名職場人,慢慢成長為一個自媒體人,然後成為超級個體,到最後一步步做到可以給企
vivo Y300 GT續航超耐用:內置7620mAh電池 還有直驅供電 - 天天要聞

vivo Y300 GT續航超耐用:內置7620mAh電池 還有直驅供電

【TechWeb】去年底以來,vivo推出了vivo Y300系列的多款機型,其中vivo Y300 Pro首發搭載了年度最大的6500mAh超薄藍海電池,打破了藍海電池容量紀錄,也刷新了vivo電池容量新高。而在近期,該系列的又一款新機——vivo Y300 GT也得到官宣並開啟預約,將在5月9日也就是今天10:00正式開售。現在有最新消息,近日官方進一步
人才需求達百萬級!人工智慧如何催生職業新賽道 - 天天要聞

人才需求達百萬級!人工智慧如何催生職業新賽道

人工智慧的應用場景,正像星火燎原般迅速鋪展延伸到各行各業,一系列充滿科技張力和未來想像的新興職業也應運而生,成為年輕一代心馳神往的職業新選擇。在內蒙古包頭市包鋼白雲鄂博鐵礦,電鏟式挖掘機的巨型鏟斗,一次可以鏟起10立方米的礦石。然而這個「巨無霸」的駕駛室里,卻空無一人。操作這輛挖掘機的工人正坐在距離采...
即時零售,美團、京東、淘寶們的新戰場 - 天天要聞

即時零售,美團、京東、淘寶們的新戰場

當京東殺入到外賣市場的時候,很多人僅僅只是關注的是「京東開始做外賣」這個點,但卻並未真正了解「京東開始做外賣」背後延伸開來的新邏輯。 隨著淘寶的加入,特別是隨著越來越多的解讀開始出現,人們開始發現,京東做外賣,並不僅僅只是做外賣,而是為了在即時零售的新戰場上佔據一席之地。 於是,「即時零售」的概念,被...
潮聲丨今天的機器人賽場,或許正是未來社會的預演 - 天天要聞

潮聲丨今天的機器人賽場,或許正是未來社會的預演

潮新聞 執筆 薛文春北京「半馬」才結束,世界人形機器人運動會又來了!5月7日,北京宣布全球首個為人形機器人組織的綜合性競技賽事——世界人形機器人運動會,將於8月15日在國家體育場(鳥巢)和國家速滑館(冰絲帶)舉辦。不得不說,最近這段時間,人
聯想拯救者十年硬核進化,Y9000P 2025成六邊形性能戰神 - 天天要聞

聯想拯救者十年硬核進化,Y9000P 2025成六邊形性能戰神

5月8日,以「熱AI自發光」為主題的聯想天禧AI生態春季新品超能之夜在上海璀璨啟幕。發布會以一場充滿科技感與年輕活力的「熱AI時尚秀」,演繹了AI熱力和青春活力的雙向奔赴。聯想重磅發布了天禧和想幫幫兩款智能體,面向年輕客戶發布全場景AI終端,更為大學生群體發布了量身定製的「青春有AI」教育特惠計劃。聯想集團高級副...