11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍

2025年03月13日13:10:43 科技 9787

小明 發自 凹非寺

量子位 | 公眾號 qbitai

224張gpu,訓出開源視頻生成新sota!

open-sora 2.0正式發布。

11b參數規模,性能可直追hunyuanvideo和step-video(30b)。

要知道,市面上諸多效果相近的閉源視頻生成模型,動輒花費數百萬美元訓練成本。

而open-sora 2.0,將這一數字壓縮到了20萬美元

同時,此次發布全面開源模型權重、推理代碼及分布式訓練全流程,開發者們可以看過來!

github開源倉庫:https://github.com/hpcaitech/open-sora

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

支持720p、24fps高畫質生成

來看open-sora 2.0 demo。

在動作幅度上,可以根據需求設定,更好展現人物或場景的細膩動作。

生成的視頻里,男人做俯卧撐動作流暢、幅度合理,和真實世界情況別無二致。

或者是讓番茄衝浪這種虛擬場景,水花、葉子船、番茄之間的動作也沒有違背物理規律。

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

畫質和流暢度上,提供720p高分辨率和24fps流暢度,讓最終視頻擁有穩定幀率與細節表現。

同時支持豐富場景切換,從鄉村景色到自然風光,open-sora 2.0生成的畫面細節與相機運鏡都有出色的表現。

11b參數規模媲美主流閉源大模型

open-sora 2.0採用11b參數規模,訓練後在vbench和人工偏好(human preference)評測上都取得與用高昂成本開發的主流閉源大模型同等水平,媲美hunyuanvideo和30b step-video。

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

在視覺表現、文本一致性和動作表現三個評估維度上,open sora在至少兩個指標上超越了開源sota hunyuanvideo,以及商業模型runway gen-3 alpha等。以小成本獲取了好性能。

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

根據視頻生成權威榜單vbench的評測結果,open-sora模型的性能進步顯著。從open-sora 1.2升級到2.0版本後,與行業領先的openai sora閉源模型之間的性能差距大幅縮小,從之前的4.52%縮減至僅0.69%,幾乎實現了性能的全面追平。

此外,open-sora 2.0在vbench評測中取得的分數已超過騰訊的hunyuanvideo,以更低的成本實現了更高的性能,為開源視頻生成技術樹立了全新標杆。

實現突破:低成本訓練與高效能優化

open sora自開源以來,憑藉其在視頻生成領域的高效與優質表現,吸引了眾多開發者的關注與參與。

然而,隨着項目的深入推進,也面臨著高質量視頻生成成本居高不下的問題。為解決這些挑戰,open sora團隊展開了一系列卓有成效的技術探索,顯著降低了模型訓練成本。根據估算,市面上10b以上的開源視頻模型,動輒需要上百萬美元的單次訓練成本,而open sora 2.0將該成本降低了5-10倍

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

作為開源視頻生成領域的領導者,open-sora不僅繼續開源了模型代碼和權重,更開源了全流程訓練代碼,成功打造了強大的開源生態圈。據第三方技術平台統計,open-sora的學術論文引用量半年內獲得近百引用,在全球開源影響力排名中穩居首位,領先所有開源的i2v/t2v視頻生成項目,成為全球影響力最大的開源視頻生成項目之一。

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

模型架構

open-sora 2.0延續open-sora 1.2的設計思路,繼續採用3d自編碼器flow matching訓練框架,並通過多桶訓練機制,實現對不同視頻長度和分辨率的同時訓練。在模型架構上,引入3d全注意力機制,進一步提升視頻生成質量。

同時,採用最新的mmdit架構,更精準地捕捉文本信息與視頻內容的關係,並將模型規模從1b擴展至11b。此外,藉助開源圖生視頻模型 flux進行初始化,大幅降低訓練成本,實現更高效的視頻生成優化。

高效訓練方法和並行方案全開源

為了追求極致的成本優化,open-sora 2.0從四個方面着手削減訓練開銷。

首先,通過嚴格的數據篩選,確保高質量數據輸入,從源頭提升模型訓練效率。採用多階段、多層次的篩選機制,結合多種過濾器,有效提升視頻質量,為模型提供更精準、可靠的訓練數據。

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

其次,高分辨率訓練的成本遠超低分辨率,達到相同數據量時,計算開銷可能高達40倍。以256px、5秒的視頻為例,其tokens數量約8千,而768px的視頻tokens數量接近8萬,相差10倍,再加上注意力機制的平方級計算複雜度,高分辨率訓練的代價極其昂貴。因此,open-sora優先將算力投入到低分辨率訓練,以高效學習運動信息,在降低成本的同時確保模型能夠捕捉關鍵的動態特徵。

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

與此同時,open-sora優先訓練圖生視頻任務,以加速模型收斂。相比直接訓練高分辨率視頻,圖生視頻模型在提升分辨率時具備更快的收斂速度,從而進一步降低訓練成本。在推理階段,除了直接進行文本生視頻(t2v),還可以結合開源圖像模型,通過文本生圖再生視頻(t2i2v),以獲得更精細的視覺效果。

最後,open-sora採用高效的並行訓練方案,結合colossalai和系統級優化,大幅提升計算資源利用率,實現更高效的視頻生成訓練。為了最大化訓練效率,我們引入了一系列關鍵技術,包括:

  1. 高效的序列並行和zerodp,優化大規模模型的分布式計算效率。

  2. 細粒度控制的gradient checkpointing,在降低顯存佔用的同時保持計算效率。

  3. 訓練自動恢復機制,確保99%以上的有效訓練時間,減少計算資源浪費。

  4. 高效數據加載與內存管理,優化i/o,防止訓練阻塞,加速訓練流程

  5. 高效異步模型保存,減少模型存儲對訓練流程的干擾,提高gpu利用率。

  6. 算子優化,針對關鍵計算模塊進行深度優化,加速訓練過程。

這些優化措施協同作用,使open-sora 2.0在高性能與低成本之間取得最佳平衡,大大降低了高質量視頻生成模型的訓練。

高壓縮比ae帶來更高速度

在訓練完成後,open-sora面向未來,進一步探索高壓縮比視頻自編碼器的應用,以大幅降低推理成本。目前,大多數視頻模型仍採用4×8×8的自編碼器,導致單卡生成768px、5秒視頻耗時近30分鐘

為解決這一瓶頸,open-sora訓練了一款高壓縮比(4×32×32)的視頻自編碼器,將推理時間縮短至單卡3分鐘以內,推理速度提升10倍

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

要實現高壓縮比編碼器,需要解決兩個核心挑戰:如何訓練高壓縮但仍具備優秀重建效果的自編碼器,以及如何利用該編碼器訓練視頻生成模型。針對前者,open-sora團隊在視頻升降採樣模塊中引入殘差連接,成功訓練出一款重建質量媲美當前開源sota視頻壓縮模型,且具備更高壓縮比的vae,自此奠定了高效推理的基礎。

11B模型拿開源視頻生成SOTA!僅用224張GPU訓練,訓練成本省10倍 - 天天要聞

高壓縮自編碼器在訓練視頻生成模型時面臨更高的數據需求和收斂難度,通常需要更多訓練數據才能達到理想效果。為解決這一問題,open-sora提出了基於蒸餾的優化策略,以提升ae(自編碼器)特徵空間的表達能力,並利用已經訓練好的高質量模型作為初始化,減少訓練所需的數據量和時間。此外,open-sora還重點訓練圖生視頻任務,利用圖像特徵引導視頻生成,進一步提升高壓縮自編碼器的收斂速度,使其在更短時間內達到一定生成效果。

open-sora認為,高壓縮比視頻自編碼器將成為未來降低視頻生成成本的關鍵方向。目前的初步實驗結果已展現出顯著的推理加速效果,希望能進一步激發社區對這一技術的關注與探索,共同推動高效、低成本的視頻生成發展。

加入open-sora 2.0,共同推動ai視頻革命

今天,open-sora 2.0正式開源!

github開源倉庫:https://github.com/hpcaitech/open-sora

技術報告:https://github.com/hpcaitech/open-sora-demo/blob/main/paper/open_sora_2_tech_report.pdf

歡迎加入open-sora社區,探索ai視頻的未來!

科技分類資訊推薦

二十年前的586電腦,奔III處理器+Win98系統,閑魚賣2680元 - 天天要聞

二十年前的586電腦,奔III處理器+Win98系統,閑魚賣2680元

之前我寫了個九十年代的海爾電腦機箱,閱讀量挺高的,你們愛看這玩意?那就繼續回憶殺,再寫另一個“收藏級”的586老電腦,自帶純平顯示器。它就是二十五年前的聯想天禧6622電腦,居然是大全套收藏級成色,主機箱、顯示器、鍵盤、光驅、軟驅一應俱全,
消息稱三星顯示最早下月啟動三星電子首款三摺疊手機顯示面板量產 - 天天要聞

消息稱三星顯示最早下月啟動三星電子首款三摺疊手機顯示面板量產

IT之家 5 月 9 日消息,韓媒 daily.hankooki 當地時間今日報道稱,三星顯示預計最早 6 月、最晚 7 月開始量產三星電子首款三摺疊手機(IT之家註:即所謂的 Galaxy G Fold)的顯示面板。▲ 三星顯示 Flex G 三摺疊概念設備報道指出,由於三摺疊手機在整體智能手機市場尚屬新形態,因此三星顯示的面板產量初期預計落在 20~30
Retroid Pocket Mini V2 安卓遊戲掌機發布,1399 元 - 天天要聞

Retroid Pocket Mini V2 安卓遊戲掌機發布,1399 元

IT之家 5 月 9 日消息,Retroid 今日推出安卓遊戲掌機 Pocket Mini V2,迭代機型主要解決初代的顯示問題,更換到該公司 Pocket Classic 掌機的同款 3.92 英寸 AMOLED 屏幕,其餘配置參數一致,目前僅提供黑色,官網首發售價 1399 元。Retroid Pocket Mini V2 搭載高通驍龍 865 處理器,
谷歌消息開始推出“為所有人刪除”功能 - 天天要聞

谷歌消息開始推出“為所有人刪除”功能

#雙11國貨換新裝#快速導讀Android 版 Google Messages 正在推出一項新功能,允許用戶在群組 RCS 對話中刪除所有人的聊天信息,提供“為所有人刪除”和“為我刪除”兩個選項。
盤點那些霸屏“五一”叫好又叫座的「主題展」 - 天天要聞

盤點那些霸屏“五一”叫好又叫座的「主題展」

盤點 REVIEW&ANALYSISIP主題展現階段的IP主題展正從流量收割向長效情感聯結的升級。中購聯新媒體中心作者丨李洪健在剛剛過去的五一假期,消費市場的蓬勃氣象讓人欣喜,據交通運輸部數據,5月1日至5日,預計全社會跨區域人員流動量累計
一個時代的結束:某運營商官宣終止3G服務 - 天天要聞

一個時代的結束:某運營商官宣終止3G服務

香港近年將流動通信服務升級至5G後,有電信運營商宣布終止3G服務,港媒報道稱,這是“一個時代的結束”。據報道,香港四大電信商之一中國移動旗下中國移動香港公司近日宣布,計劃於2025年6月30日零時正式停止3G服務的運營。此舉旨在優化資源配置