11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍

2025年03月13日13:10:43 科技 9787

小明 發自 凹非寺

量子位 | 公眾號 qbitai

224張gpu,訓出開源視頻生成新sota!

open-sora 2.0正式發佈。

11b參數規模,性能可直追hunyuanvideo和step-video(30b)。

要知道,市面上諸多效果相近的閉源視頻生成模型,動輒花費數百萬美元訓練成本。

而open-sora 2.0,將這一數字壓縮到了20萬美元

同時,此次發佈全面開源模型權重、推理代碼及分佈式訓練全流程,開發者們可以看過來!

github開源倉庫:https://github.com/hpcaitech/open-sora

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

支持720p、24fps高畫質生成

來看open-sora 2.0 demo。

在動作幅度上,可以根據需求設定,更好展現人物或場景的細膩動作。

生成的視頻里,男人做俯卧撐動作流暢、幅度合理,和真實世界情況別無二致。

或者是讓番茄衝浪這種虛擬場景,水花、葉子船、番茄之間的動作也沒有違背物理規律。

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

畫質和流暢度上,提供720p高分辨率和24fps流暢度,讓最終視頻擁有穩定幀率與細節表現。

同時支持豐富場景切換,從鄉村景色到自然風光,open-sora 2.0生成的畫面細節與相機運鏡都有出色的表現。

11b參數規模媲美主流閉源大模型

open-sora 2.0採用11b參數規模,訓練後在vbench和人工偏好(human preference)評測上都取得與用高昂成本開發的主流閉源大模型同等水平,媲美hunyuanvideo和30b step-video。

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

在視覺表現、文本一致性和動作表現三個評估維度上,open sora在至少兩個指標上超越了開源sota hunyuanvideo,以及商業模型runway gen-3 alpha等。以小成本獲取了好性能。

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

根據視頻生成權威榜單vbench的評測結果,open-sora模型的性能進步顯著。從open-sora 1.2升級到2.0版本後,與行業領先的openai sora閉源模型之間的性能差距大幅縮小,從之前的4.52%縮減至僅0.69%,幾乎實現了性能的全面追平。

此外,open-sora 2.0在vbench評測中取得的分數已超過騰訊的hunyuanvideo,以更低的成本實現了更高的性能,為開源視頻生成技術樹立了全新標杆。

實現突破:低成本訓練與高效能優化

open sora自開源以來,憑藉其在視頻生成領域的高效與優質表現,吸引了眾多開發者的關注與參與。

然而,隨着項目的深入推進,也面臨著高質量視頻生成成本居高不下的問題。為解決這些挑戰,open sora團隊展開了一系列卓有成效的技術探索,顯著降低了模型訓練成本。根據估算,市面上10b以上的開源視頻模型,動輒需要上百萬美元的單次訓練成本,而open sora 2.0將該成本降低了5-10倍

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

作為開源視頻生成領域的領導者,open-sora不僅繼續開源了模型代碼和權重,更開源了全流程訓練代碼,成功打造了強大的開源生態圈。據第三方技術平台統計,open-sora的學術論文引用量半年內獲得近百引用,在全球開源影響力排名中穩居首位,領先所有開源的i2v/t2v視頻生成項目,成為全球影響力最大的開源視頻生成項目之一。

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

模型架構

open-sora 2.0延續open-sora 1.2的設計思路,繼續採用3d自編碼器flow matching訓練框架,並通過多桶訓練機制,實現對不同視頻長度和分辨率的同時訓練。在模型架構上,引入3d全注意力機制,進一步提升視頻生成質量。

同時,採用最新的mmdit架構,更精準地捕捉文本信息與視頻內容的關係,並將模型規模從1b擴展至11b。此外,藉助開源圖生視頻模型 flux進行初始化,大幅降低訓練成本,實現更高效的視頻生成優化。

高效訓練方法和並行方案全開源

為了追求極致的成本優化,open-sora 2.0從四個方面着手削減訓練開銷。

首先,通過嚴格的數據篩選,確保高質量數據輸入,從源頭提升模型訓練效率。採用多階段、多層次的篩選機制,結合多種過濾器,有效提升視頻質量,為模型提供更精準、可靠的訓練數據。

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

其次,高分辨率訓練的成本遠超低分辨率,達到相同數據量時,計算開銷可能高達40倍。以256px、5秒的視頻為例,其tokens數量約8千,而768px的視頻tokens數量接近8萬,相差10倍,再加上注意力機制的平方級計算複雜度,高分辨率訓練的代價極其昂貴。因此,open-sora優先將算力投入到低分辨率訓練,以高效學習運動信息,在降低成本的同時確保模型能夠捕捉關鍵的動態特徵。

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

與此同時,open-sora優先訓練圖生視頻任務,以加速模型收斂。相比直接訓練高分辨率視頻,圖生視頻模型在提升分辨率時具備更快的收斂速度,從而進一步降低訓練成本。在推理階段,除了直接進行文本生視頻(t2v),還可以結合開源圖像模型,通過文本生圖再生視頻(t2i2v),以獲得更精細的視覺效果。

最後,open-sora採用高效的並行訓練方案,結合colossalai和系統級優化,大幅提升計算資源利用率,實現更高效的視頻生成訓練。為了最大化訓練效率,我們引入了一系列關鍵技術,包括:

  1. 高效的序列並行和zerodp,優化大規模模型的分佈式計算效率。

  2. 細粒度控制的gradient checkpointing,在降低顯存佔用的同時保持計算效率。

  3. 訓練自動恢復機制,確保99%以上的有效訓練時間,減少計算資源浪費。

  4. 高效數據加載與內存管理,優化i/o,防止訓練阻塞,加速訓練流程

  5. 高效異步模型保存,減少模型存儲對訓練流程的干擾,提高gpu利用率。

  6. 算子優化,針對關鍵計算模塊進行深度優化,加速訓練過程。

這些優化措施協同作用,使open-sora 2.0在高性能與低成本之間取得最佳平衡,大大降低了高質量視頻生成模型的訓練。

高壓縮比ae帶來更高速度

在訓練完成後,open-sora面向未來,進一步探索高壓縮比視頻自編碼器的應用,以大幅降低推理成本。目前,大多數視頻模型仍採用4×8×8的自編碼器,導致單卡生成768px、5秒視頻耗時近30分鐘

為解決這一瓶頸,open-sora訓練了一款高壓縮比(4×32×32)的視頻自編碼器,將推理時間縮短至單卡3分鐘以內,推理速度提升10倍

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

要實現高壓縮比編碼器,需要解決兩個核心挑戰:如何訓練高壓縮但仍具備優秀重建效果的自編碼器,以及如何利用該編碼器訓練視頻生成模型。針對前者,open-sora團隊在視頻升降採樣模塊中引入殘差連接,成功訓練出一款重建質量媲美當前開源sota視頻壓縮模型,且具備更高壓縮比的vae,自此奠定了高效推理的基礎。

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

高壓縮自編碼器在訓練視頻生成模型時面臨更高的數據需求和收斂難度,通常需要更多訓練數據才能達到理想效果。為解決這一問題,open-sora提出了基於蒸餾的優化策略,以提升ae(自編碼器)特徵空間的表達能力,並利用已經訓練好的高質量模型作為初始化,減少訓練所需的數據量和時間。此外,open-sora還重點訓練圖生視頻任務,利用圖像特徵引導視頻生成,進一步提升高壓縮自編碼器的收斂速度,使其在更短時間內達到一定生成效果。

open-sora認為,高壓縮比視頻自編碼器將成為未來降低視頻生成成本的關鍵方向。目前的初步實驗結果已展現出顯著的推理加速效果,希望能進一步激發社區對這一技術的關注與探索,共同推動高效、低成本的視頻生成發展。

加入open-sora 2.0,共同推動ai視頻革命

今天,open-sora 2.0正式開源!

github開源倉庫:https://github.com/hpcaitech/open-sora

技術報告:https://github.com/hpcaitech/open-sora-demo/blob/main/paper/open_sora_2_tech_report.pdf

歡迎加入open-sora社區,探索ai視頻的未來!

科技分類資訊推薦

聯想憋了40年的大招:自研5nm芯片上市,這次真沒放鴿子 - 天天要聞

聯想憋了40年的大招:自研5nm芯片上市,這次真沒放鴿子

最近科技圈最熱鬧的事,莫過於聯想在自家新平板上塞了顆"中國芯"。這事要擱五年前,網友能把鍵盤敲出火星子——畢竟在很多人印象里,聯想除了組裝電腦就是賣手機,突然掏出顆5納米芯片,比四川變臉還讓人意外。說起聯想和芯片的恩怨情仇,那真是三天三夜嘮
國產手機沖高端:別光顧着堆料,先學會把價格打上去 - 天天要聞

國產手機沖高端:別光顧着堆料,先學會把價格打上去

最近翻看Counterpoint的2025年一季度手機市場報告,有個數據看得人直嘬牙花子:蘋果手機的平均售價還是816美元,相當於5800多塊人民幣,而小米的均價才155美元,摺合人民幣1100出頭。這價格差得,都能買五台小米湊個"五福臨門
moto razr 60系列三款新機發佈,3499元起售 - 天天要聞

moto razr 60系列三款新機發佈,3499元起售

繼此前moto方面確認,新款小摺疊razr 60系列即將5月8日在國內市場正式發佈後,陸續在預熱活動中公布的產品端相關信息也吸引了眾多消費者的關注。昨日官方正式發佈了razr 60系列三款機型,其中包含一款被命名為razr 60 Pro的新機,該系列機型的售價則從3499元起跳,參與國補後最低僅需2999元。外觀方面,razr 60系列三款機型...
微軟工程師揭秘 Windows 剪貼板優化方式:是如何獲得最佳性能的 - 天天要聞

微軟工程師揭秘 Windows 剪貼板優化方式:是如何獲得最佳性能的

IT之家 5 月 9 日消息,據外媒 Neowin 今日報道,微軟高級工程師雷蒙德・陳在微軟網站的專欄《The Old New Thing》更新博文,他詳細說明了 Windows 本地剪貼板與其他剪貼板管理器的不同之處,並解釋了這種設計為何有益。IT之家註:Windows 提供了默認的剪貼板,可以通過「設置」開啟,也可以通過 Win + V 快捷鍵直接打開。
上線「隨申兌」、擴大「免申即享」範圍……上海無感化服務讓企業輕裝上陣 - 天天要聞

上線「隨申兌」、擴大「免申即享」範圍……上海無感化服務讓企業輕裝上陣

不用自己申請,補貼、獎勵等「絲滑」入賬……上海大力推進的「免審即享」,通過大數據分析、人工智能輔助等工具,將政策精準送到企業身邊。上海正加力提速推進2025年優化營商環境「十大攻堅突破任務」,聚焦企業需求最迫切、協同推進要求高的十個事項,加力推出新一批增量舉措,合力解決營商環境建設中的「老大難」問題。上...
二十年前的586電腦,奔III處理器+Win98系統,閑魚賣2680元 - 天天要聞

二十年前的586電腦,奔III處理器+Win98系統,閑魚賣2680元

之前我寫了個九十年代的海爾電腦機箱,閱讀量挺高的,你們愛看這玩意?那就繼續回憶殺,再寫另一個「收藏級」的586老電腦,自帶純平顯示器。它就是二十五年前的聯想天禧6622電腦,居然是大全套收藏級成色,主機箱、顯示器、鍵盤、光驅、軟驅一應俱全,
消息稱三星顯示最早下月啟動三星電子首款三摺疊手機顯示面板量產 - 天天要聞

消息稱三星顯示最早下月啟動三星電子首款三摺疊手機顯示面板量產

IT之家 5 月 9 日消息,韓媒 daily.hankooki 當地時間今日報道稱,三星顯示預計最早 6 月、最晚 7 月開始量產三星電子首款三摺疊手機(IT之家註:即所謂的 Galaxy G Fold)的顯示面板。▲ 三星顯示 Flex G 三摺疊概念設備報道指出,由於三摺疊手機在整體智能手機市場尚屬新形態,因此三星顯示的面板產量初期預計落在 20~30
Retroid Pocket Mini V2 安卓遊戲掌機發佈,1399 元 - 天天要聞

Retroid Pocket Mini V2 安卓遊戲掌機發佈,1399 元

IT之家 5 月 9 日消息,Retroid 今日推出安卓遊戲掌機 Pocket Mini V2,迭代機型主要解決初代的顯示問題,更換到該公司 Pocket Classic 掌機的同款 3.92 英寸 AMOLED 屏幕,其餘配置參數一致,目前僅提供黑色,官網首發售價 1399 元。Retroid Pocket Mini V2 搭載高通驍龍 865 處理器,