11B模型拿开源视频生成SOTA!仅用224张GPU训练,训练成本省10倍

2025年03月13日13:10:43 科技 9787

小明 发自 凹非寺

量子位 | 公众号 qbitai

224张gpu,训出开源视频生成新sota!

open-sora 2.0正式发布。

11b参数规模,性能可直追hunyuanvideo和step-video(30b)。

要知道,市面上诸多效果相近的闭源视频生成模型,动辄花费数百万美元训练成本。

而open-sora 2.0,将这一数字压缩到了20万美元

同时,此次发布全面开源模型权重、推理代码及分布式训练全流程,开发者们可以看过来!

github开源仓库:https://github.com/hpcaitech/open-sora

11B模型拿开源视频生成SOTA!仅用224张GPU训练,训练成本省10倍 - 天天要闻

支持720p、24fps高画质生成

来看open-sora 2.0 demo。

在动作幅度上,可以根据需求设定,更好展现人物或场景的细腻动作。

生成的视频里,男人做俯卧撑动作流畅、幅度合理,和真实世界情况别无二致。

或者是让番茄冲浪这种虚拟场景,水花、叶子船、番茄之间的动作也没有违背物理规律。

11B模型拿开源视频生成SOTA!仅用224张GPU训练,训练成本省10倍 - 天天要闻

画质和流畅度上,提供720p高分辨率和24fps流畅度,让最终视频拥有稳定帧率与细节表现。

同时支持丰富场景切换,从乡村景色到自然风光,open-sora 2.0生成的画面细节与相机运镜都有出色的表现。

11b参数规模媲美主流闭源大模型

open-sora 2.0采用11b参数规模,训练后在vbench和人工偏好(human preference)评测上都取得与用高昂成本开发的主流闭源大模型同等水平,媲美hunyuanvideo和30b step-video。

11B模型拿开源视频生成SOTA!仅用224张GPU训练,训练成本省10倍 - 天天要闻

在视觉表现、文本一致性和动作表现三个评估维度上,open sora在至少两个指标上超越了开源sota hunyuanvideo,以及商业模型runway gen-3 alpha等。以小成本获取了好性能。

11B模型拿开源视频生成SOTA!仅用224张GPU训练,训练成本省10倍 - 天天要闻

根据视频生成权威榜单vbench的评测结果,open-sora模型的性能进步显著。从open-sora 1.2升级到2.0版本后,与行业领先的openai sora闭源模型之间的性能差距大幅缩小,从之前的4.52%缩减至仅0.69%,几乎实现了性能的全面追平。

此外,open-sora 2.0在vbench评测中取得的分数已超过腾讯的hunyuanvideo,以更低的成本实现了更高的性能,为开源视频生成技术树立了全新标杆。

实现突破:低成本训练与高效能优化

open sora自开源以来,凭借其在视频生成领域的高效与优质表现,吸引了众多开发者的关注与参与。

然而,随着项目的深入推进,也面临着高质量视频生成成本居高不下的问题。为解决这些挑战,open sora团队展开了一系列卓有成效的技术探索,显著降低了模型训练成本。根据估算,市面上10b以上的开源视频模型,动辄需要上百万美元的单次训练成本,而open sora 2.0将该成本降低了5-10倍

11B模型拿开源视频生成SOTA!仅用224张GPU训练,训练成本省10倍 - 天天要闻

作为开源视频生成领域的领导者,open-sora不仅继续开源了模型代码和权重,更开源了全流程训练代码,成功打造了强大的开源生态圈。据第三方技术平台统计,open-sora的学术论文引用量半年内获得近百引用,在全球开源影响力排名中稳居首位,领先所有开源的i2v/t2v视频生成项目,成为全球影响力最大的开源视频生成项目之一。

11B模型拿开源视频生成SOTA!仅用224张GPU训练,训练成本省10倍 - 天天要闻

模型架构

open-sora 2.0延续open-sora 1.2的设计思路,继续采用3d自编码器flow matching训练框架,并通过多桶训练机制,实现对不同视频长度和分辨率的同时训练。在模型架构上,引入3d全注意力机制,进一步提升视频生成质量。

同时,采用最新的mmdit架构,更精准地捕捉文本信息与视频内容的关系,并将模型规模从1b扩展至11b。此外,借助开源图生视频模型 flux进行初始化,大幅降低训练成本,实现更高效的视频生成优化。

高效训练方法和并行方案全开源

为了追求极致的成本优化,open-sora 2.0从四个方面着手削减训练开销。

首先,通过严格的数据筛选,确保高质量数据输入,从源头提升模型训练效率。采用多阶段、多层次的筛选机制,结合多种过滤器,有效提升视频质量,为模型提供更精准、可靠的训练数据。

11B模型拿开源视频生成SOTA!仅用224张GPU训练,训练成本省10倍 - 天天要闻

其次,高分辨率训练的成本远超低分辨率,达到相同数据量时,计算开销可能高达40倍。以256px、5秒的视频为例,其tokens数量约8千,而768px的视频tokens数量接近8万,相差10倍,再加上注意力机制的平方级计算复杂度,高分辨率训练的代价极其昂贵。因此,open-sora优先将算力投入到低分辨率训练,以高效学习运动信息,在降低成本的同时确保模型能够捕捉关键的动态特征。

11B模型拿开源视频生成SOTA!仅用224张GPU训练,训练成本省10倍 - 天天要闻

与此同时,open-sora优先训练图生视频任务,以加速模型收敛。相比直接训练高分辨率视频,图生视频模型在提升分辨率时具备更快的收敛速度,从而进一步降低训练成本。在推理阶段,除了直接进行文本生视频(t2v),还可以结合开源图像模型,通过文本生图再生视频(t2i2v),以获得更精细的视觉效果。

最后,open-sora采用高效的并行训练方案,结合colossalai和系统级优化,大幅提升计算资源利用率,实现更高效的视频生成训练。为了最大化训练效率,我们引入了一系列关键技术,包括:

  1. 高效的序列并行和zerodp,优化大规模模型的分布式计算效率。

  2. 细粒度控制的gradient checkpointing,在降低显存占用的同时保持计算效率。

  3. 训练自动恢复机制,确保99%以上的有效训练时间,减少计算资源浪费。

  4. 高效数据加载与内存管理,优化i/o,防止训练阻塞,加速训练流程

  5. 高效异步模型保存,减少模型存储对训练流程的干扰,提高gpu利用率。

  6. 算子优化,针对关键计算模块进行深度优化,加速训练过程。

这些优化措施协同作用,使open-sora 2.0在高性能与低成本之间取得最佳平衡,大大降低了高质量视频生成模型的训练。

高压缩比ae带来更高速度

在训练完成后,open-sora面向未来,进一步探索高压缩比视频自编码器的应用,以大幅降低推理成本。目前,大多数视频模型仍采用4×8×8的自编码器,导致单卡生成768px、5秒视频耗时近30分钟

为解决这一瓶颈,open-sora训练了一款高压缩比(4×32×32)的视频自编码器,将推理时间缩短至单卡3分钟以内,推理速度提升10倍

11B模型拿开源视频生成SOTA!仅用224张GPU训练,训练成本省10倍 - 天天要闻

要实现高压缩比编码器,需要解决两个核心挑战:如何训练高压缩但仍具备优秀重建效果的自编码器,以及如何利用该编码器训练视频生成模型。针对前者,open-sora团队在视频升降采样模块中引入残差连接,成功训练出一款重建质量媲美当前开源sota视频压缩模型,且具备更高压缩比的vae,自此奠定了高效推理的基础。

11B模型拿开源视频生成SOTA!仅用224张GPU训练,训练成本省10倍 - 天天要闻

高压缩自编码器在训练视频生成模型时面临更高的数据需求和收敛难度,通常需要更多训练数据才能达到理想效果。为解决这一问题,open-sora提出了基于蒸馏的优化策略,以提升ae(自编码器)特征空间的表达能力,并利用已经训练好的高质量模型作为初始化,减少训练所需的数据量和时间。此外,open-sora还重点训练图生视频任务,利用图像特征引导视频生成,进一步提升高压缩自编码器的收敛速度,使其在更短时间内达到一定生成效果。

open-sora认为,高压缩比视频自编码器将成为未来降低视频生成成本的关键方向。目前的初步实验结果已展现出显著的推理加速效果,希望能进一步激发社区对这一技术的关注与探索,共同推动高效、低成本的视频生成发展。

加入open-sora 2.0,共同推动ai视频革命

今天,open-sora 2.0正式开源!

github开源仓库:https://github.com/hpcaitech/open-sora

技术报告:https://github.com/hpcaitech/open-sora-demo/blob/main/paper/open_sora_2_tech_report.pdf

欢迎加入open-sora社区,探索ai视频的未来!

科技分类资讯推荐

“张湾智警”上岗!无人机变身 “空中 110” - 天天要闻

“张湾智警”上岗!无人机变身 “空中 110”

晨曦中,数公里外的路口突发拥堵,一架印有“张湾智警”标识的无人机从机库起飞,通过空中喊话疏导车流,同时将车牌识别画面,实时推送至地面执法终端。这一幕高效协同的智慧警务场景,正是“张湾智警”无人机系统融入城市治理的日常缩影。
联想憋了40年的大招:自研5nm芯片上市,这次真没放鸽子 - 天天要闻

联想憋了40年的大招:自研5nm芯片上市,这次真没放鸽子

最近科技圈最热闹的事,莫过于联想在自家新平板上塞了颗"中国芯"。这事要搁五年前,网友能把键盘敲出火星子——毕竟在很多人印象里,联想除了组装电脑就是卖手机,突然掏出颗5纳米芯片,比四川变脸还让人意外。说起联想和芯片的恩怨情仇,那真是三天三夜唠
国产手机冲高端:别光顾着堆料,先学会把价格打上去 - 天天要闻

国产手机冲高端:别光顾着堆料,先学会把价格打上去

最近翻看Counterpoint的2025年一季度手机市场报告,有个数据看得人直嘬牙花子:苹果手机的平均售价还是816美元,相当于5800多块人民币,而小米的均价才155美元,折合人民币1100出头。这价格差得,都能买五台小米凑个"五福临门
moto razr 60系列三款新机发布,3499元起售 - 天天要闻

moto razr 60系列三款新机发布,3499元起售

继此前moto方面确认,新款小折叠razr 60系列即将5月8日在国内市场正式发布后,陆续在预热活动中公布的产品端相关信息也吸引了众多消费者的关注。昨日官方正式发布了razr 60系列三款机型,其中包含一款被命名为razr 60 Pro的新机,该系列机型的售价则从3499元起跳,参与国补后最低仅需2999元。外观方面,razr 60系列三款机型...
微软工程师揭秘 Windows 剪贴板优化方式:是如何获得最佳性能的 - 天天要闻

微软工程师揭秘 Windows 剪贴板优化方式:是如何获得最佳性能的

IT之家 5 月 9 日消息,据外媒 Neowin 今日报道,微软高级工程师雷蒙德・陈在微软网站的专栏《The Old New Thing》更新博文,他详细说明了 Windows 本地剪贴板与其他剪贴板管理器的不同之处,并解释了这种设计为何有益。IT之家注:Windows 提供了默认的剪贴板,可以通过“设置”开启,也可以通过 Win + V 快捷键直接打开。
上线“随申兑”、扩大“免申即享”范围……上海无感化服务让企业轻装上阵 - 天天要闻

上线“随申兑”、扩大“免申即享”范围……上海无感化服务让企业轻装上阵

不用自己申请,补贴、奖励等“丝滑”入账……上海大力推进的“免审即享”,通过大数据分析、人工智能辅助等工具,将政策精准送到企业身边。上海正加力提速推进2025年优化营商环境“十大攻坚突破任务”,聚焦企业需求最迫切、协同推进要求高的十个事项,加力推出新一批增量举措,合力解决营商环境建设中的“老大难”问题。上...
二十年前的586电脑,奔III处理器+Win98系统,闲鱼卖2680元 - 天天要闻

二十年前的586电脑,奔III处理器+Win98系统,闲鱼卖2680元

之前我写了个九十年代的海尔电脑机箱,阅读量挺高的,你们爱看这玩意?那就继续回忆杀,再写另一个“收藏级”的586老电脑,自带纯平显示器。它就是二十五年前的联想天禧6622电脑,居然是大全套收藏级成色,主机箱、显示器、键盘、光驱、软驱一应俱全,
消息称三星显示最早下月启动三星电子首款三折叠手机显示面板量产 - 天天要闻

消息称三星显示最早下月启动三星电子首款三折叠手机显示面板量产

IT之家 5 月 9 日消息,韩媒 daily.hankooki 当地时间今日报道称,三星显示预计最早 6 月、最晚 7 月开始量产三星电子首款三折叠手机(IT之家注:即所谓的 Galaxy G Fold)的显示面板。▲ 三星显示 Flex G 三折叠概念设备报道指出,由于三折叠手机在整体智能手机市场尚属新形态,因此三星显示的面板产量初期预计落在 20~30
Retroid Pocket Mini V2 安卓游戏掌机发布,1399 元 - 天天要闻

Retroid Pocket Mini V2 安卓游戏掌机发布,1399 元

IT之家 5 月 9 日消息,Retroid 今日推出安卓游戏掌机 Pocket Mini V2,迭代机型主要解决初代的显示问题,更换到该公司 Pocket Classic 掌机的同款 3.92 英寸 AMOLED 屏幕,其余配置参数一致,目前仅提供黑色,官网首发售价 1399 元。Retroid Pocket Mini V2 搭载高通骁龙 865 处理器,