全球首个类Sora开源复现方案来了！全面公开训练细节和模型权重

2024年04月02日13:22:06 科技 2041

明敏发自凹非寺

量子位 | 公众号 qbitai

全球首个开源的类sora架构视频生成模型，来了！

整个训练流程，包括数据处理、所有训练细节和模型权重，全部开放。

这就是刚刚发布的open-sora 1.0。

它带来的实际效果如下，能生成繁华都市夜景中的车水马龙。

还能用航拍视角，展现悬崖海岸边，海水拍打着岩石的画面。

亦或是延时摄影下的浩瀚星空。

自sora发布以来，由于效果惊艳但技术细节寥寥，揭秘、复现sora成为了开发社区最热议话题之一。比如colossal-ai团队推出成本直降46%的sora训练推理复现流程。

短短两周时间后，该团队再次发布最新进展，复现类sora方案，并将技术方案及详细上手教程在github上免费开源。

那么问题来了，复现sora如何实现？

open-sora 开源地址：https://github.com/hpcaitech/open-sora

全面解读sora复现方案

sora复现方案包括四个方面：

模型架构设计

训练复现方案

数据预处理

高效训练优化策略

模型架构设计

模型采用了sora同源架构diffusion transformer (dit) 。

它以采用dit架构的高质量开源文生图模型pixart-α为基座，在此基础上引入时间注意力层，将其扩展到视频数据上。

具体来看，整个架构包括一个预训练好的vae，一个文本编码器和一个利用空间-时间注意力机制的stdit (spatial temporal diffusion transformer)模型。

其中，stdit 每层的结构如下图所示。

它采用串行的方式在二维的空间注意力模块上叠加一维的时间注意力模块，用于建模时序关系。在时间注意力模块之后，交叉注意力模块用于对齐文本的语意。

与全注意力机制相比，这样的结构大大降低了训练和推理开销。

与同样使用空间-时间注意力机制的 latte模型相比，stdit 可以更好的利用已经预训练好的图像 dit 的权重，从而在视频数据上继续训练。

△stdit结构示意图

整个模型的训练和推理流程如下。

据了解，在训练阶段首先采用预训练好的variational autoencoder (vae)的编码器将视频数据进行压缩，然后在压缩之后的潜在空间中与文本嵌入(text embedding)一起训练stdit扩散模型。

在推理阶段，从vae的潜在空间中随机采样出一个高斯噪声，与提示词嵌入(prompt embedding)一起输入到stdit中，得到去噪之后的特征，最后输入到vae的解码器，解码得到视频。

△模型训练流程

训练复现方案

在训练复现部分，open-sora参考了stable video diffusion (svd)。

一共分为3个阶段：

大规模图像预训练；

大规模视频预训练；

高质量视频数据微调。

每个阶段都会基于前一个阶段的权重继续训练。

相比于从零开始单阶段训练，多阶段训练通过逐步扩展数据，更高效地达成高质量视频生成的目标。

△训练方案三阶段

第一阶段是大规模图像预训练。

团队利用互联网上丰富的图像数据和文生图技术，先训练出一个高质量的文生图模型，将该模型作为下一阶段视频预训练的初始化权重。

同时，由于目前没有高质量的时空vae，他们采用stable diffusion预训练好的图像vae。

这样不仅能保障初始模型的优越性能，还能显著降低视频预训练的整体成本。

第二阶段是大规模视频预训练。

这一阶段主要增加模型的泛化能力，有效掌握视频的时间序列关联。

它需要使用大量视频数据训练，并且保障视频素材的多样性。

同时，第二阶段的模型在第一阶段文生图模型的基础上加入了时序注意力模块，用于学习视频中的时序关系。其余模块与第一阶段保持一致，并加载第一阶段权重作为初始化，同时初始化时序注意力模块输出为零，以达到更高效更快速的收敛。

colossal-ai团队使用了pixart-alpha的开源权重作为第二阶段stdit模型的初始化，以及采用了t5模型作为文本编码器。他们采用了256x256的小分辨率进行预训练，进一步增加了收敛速度，降低训练成本。

△open-sora生成效果（提示词：水中世界的镜头，镜头中一只海龟在珊瑚礁间悠然游弋）

第三阶段是高质量视频数据微调。

据介绍，这一阶段能显著提升模型的生成质量。使用的数据规模比上一阶段降低一个量级，但是视频的时长、分辨率和质量都更高。

通过这种方式进行微调，能实现视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效扩展。

值得一提的是，colossal-ai还详细透露了每阶段的资源使用情况。

在open-sora的复现流程中，他们使用了64块h800进行训练。第二阶段的训练量一共是 2808 gpu hours，约合7000美元，第三阶段的训练量是1920 gpu hours，大约4500美元。经过初步估算，整个训练方案成功把open-sora复现流程控制在了1万美元左右。

数据预处理

为了进一步降低sora复现的门槛和复杂度，colossal-ai团队在代码仓库中还提供了便捷的视频数据预处理脚本，让大家可以轻松启动sora复现预训练。

包括公开视频数据集下载、长视频根据镜头连续性分割为短视频片段、使用开源大语言模型llava生成精细的提示词。

他们提供的批量视频标题生成代码可以用两卡 3 秒标注一个视频，并且质量接近于 gpt-4v。

最终得到的视频/文本对可直接用于训练。借助他们在github上提供的开源代码，可以轻松地在自己的数据集上快速生成训练所需的视频/文本对，显著降低了启动sora复现项目的技术门槛和前期准备。

高效训练加持

除此之外，colossal-ai团队还提供了训练加速方案。

通过算子优化和混合并行等高效训练策略，在处理64帧、512x512分辨率视频的训练中，实现了1.55倍的加速效果。

同时，得益于colossal-ai的异构内存管理系统，在单台服务器上（8h800）可以无阻碍地进行1分钟的1080p高清视频训练任务。

而且团队还发现stdit模型架构在训练时也展现出卓越的高效性。

和采用全注意力机制的dit相比，随着帧数的增加，stdit实现了高达5倍的加速效果，这在处理长视频序列等现实任务中尤为关键。

最后，团队还放出了更多open-sora的生成效果。

团队和量子位透露，他们将长期更新优化open-sora的相关解决方案和动态。未来将使用更多视频训练数据，以生成更高质量、更长时长的视频内容，并支持多分辨率特性。

实际应用方面，团队透露将推进在电影、游戏、广告等领域落地。

感兴趣的开发者们，可访问github项目了解更多~

open-sora 开源地址：https://github.com/hpcaitech/open-sora

参考链接：

[1]https://arxiv.org/abs/2212.09748 scalable diffusion models with transformers

[2]https://arxiv.org/abs/2310.00426 pixart-α: fast training of diffusion transformer for photorealistic text-to-image synthesis

[3]https://arxiv.org/abs/2311.15127 stable video diffusion: scaling latent video diffusion models to large datasets

[4]https://arxiv.org/abs/2401.03048 latte: latent diffusion transformer for video generation

[5]https://huggingface.co/stabilityai/sd-vae-ft-mse-original

[6]https://github.com/google-research/text-to-text-transfer-transformer

[7]https://github.com/haotian-liu/llava

[8]https://hpc-ai.com/blog/open-sora-v1.0

科技

涨价压不住、补贴够不着，这个五一6000元以上机型难住手机经销商 - 天天要闻

涨价压不住、补贴够不着，这个五一6000元以上机型难住手机经销商

图源：蓝鲸科技记者拍摄蓝鲸新闻5月3日讯(记者翟智超)按照往年惯例，五一劳动节是手机厂商集中促销、冲量的关键节点，但今年这场例行的“节前大促”却未能点燃消费热情。 5月2日下....

05月03日 7401

AI能否超越人类？中南大学院士，走进武钢三中，开讲“硬核”AI课 - 天天要闻

AI能否超越人类？中南大学院士，走进武钢三中，开讲“硬核”AI课

4月29日，在武汉市武钢三中的报告厅里，一场关于人工智能的科普报告正在进行。台上，中国工程院院士、中南大学教授桂卫华以“大模型与工业应用”为题，为高一学生揭开AI大模型的神秘面纱。桂卫华，中国工程院院士，中南大学教授、博士生导师。

05月03日 1895

引领科技豪华MPV新风尚第二代腾势D9西安车展亮相 - 天天要闻

引领科技豪华MPV新风尚第二代腾势D9西安车展亮相

兼具宜商气度与家用温情的科技豪华旗舰MPV，第二代腾势D9迎来西安地区正式亮相。新车依托全球新能源MPV冠军底蕴，以第二代刀片电池、双阀云辇-C、天神之眼5.0智驾等核心技术全面升级，兼顾商务体面与家庭舒适，为西北高端用户带来一站式全能出行解决方案。

05月03日 2042

采购禁入！科华数据材料造假被拒门外 - 天天要闻

采购禁入！科华数据材料造假被拒门外

本报（chinatimes.net.cn）记者胡雅文北京报道这家赶上AI算力风口的公司，因投标材料造假，被相关采购方列入禁入名单两年，其此前提出的复议申请也被正式驳回。相关采购平台近日发布公告，明确驳回科华数据股份有限公司（下称“科华数据”，002335.SZ）此前提交的复议申请。早在一年前，科华数据已被认定在“信息通信枢纽...

05月03日 9437

潮声丨“硅基”劳动节来了，揭秘AI智能体的“五一”劳动日志 - 天天要闻

潮声丨“硅基”劳动节来了，揭秘AI智能体的“五一”劳动日志

潮新闻客户端执笔夏丹吴柯沁五一小长假，当大多数人按下工作的暂停键，走进景区、海边或深山，城市与工地的另一端，一群没有血肉之躯的“硅基劳动者”正在高效运转。 2026年，一人公司（O....

05月03日 7667

马斯克手撕OpenAI：一场“初心”保卫战，还是富人的“酸葡萄”？ - 天天要闻

马斯克手撕OpenAI：一场“初心”保卫战，还是富人的“酸葡萄”？

如果你最近打开科技新闻，大概率会被一条消息刷屏——马斯克又开炮了，这次对准的是他亲手参与创办、又亲手甩手离开的OpenAI。不是暗戳戳发条推特阴阳怪气，而是直接递上法律文书，把Sam Altman和Greg Brockman告上法庭。

05月03日 1848

五一25城车展，ID. 与众家族齐亮相，购车权益最高享5.6万 - 天天要闻

五一25城车展，ID. 与众家族齐亮相，购车权益最高享5.6万

五一假期（4月30日到5月5日），大众ID. 与众家族将带着全系车型，在全国25个城市的五一车展上集中亮相。届时，包括全时互联全尺寸纯电SUV与众08、锋芒智趣纯电SUV与众06在内的多款车型都会来到现场，和消费者零距离接触。

05月03日 6759

快评乐道L80：15万元级买大五座，这波值得冲？ - 天天要闻

快评乐道L80：15万元级买大五座，这波值得冲？

日前，乐道L80正式发布并开启预售，其整车购买预售价为24.58万元起，租电购买预售价则低至15.98万元起。面对大型SUV市场“细分再细分”之竞争趋势，这款乐道年度重磅新车都有哪些优势？又能否成为“大五座SUV革新之作”？下面，圈哥就带大家全方位感受。

05月03日 8240

成都直击凯威德：纯电全尺寸SUV的张扬与大气 - 天天要闻

成都直击凯威德：纯电全尺寸SUV的张扬与大气

4月22日，凯迪拉克以奥斯卡级盛典规格，将上海保利大剧院点亮为璀璨舞台，在品牌代言人倪妮与全场嘉宾的共同见证下，凯迪拉克全尺寸纯电公路旗舰——凯威德耀然上市。新车共推出长续航四驱Pro、高性能四驱Ultra两款配置，官方售价区间为46.88万-50.88万元。

05月03日 6713

空气炸锅哪个品牌最好？2026十大品牌排行榜深度横评，谁最靠谱 - 天天要闻

空气炸锅哪个品牌最好？2026十大品牌排行榜深度横评，谁最靠谱

夏天想靠空气炸锅做减脂餐，结果西兰花烤得又干又苦，鸡胸肉外焦里生。经过2026年4月空气炸锅十大品牌排行榜深度横评，综合材质、温控、耐用性和口碑数据，排名第一的空气炸锅是宫菱FXGONNE——靠口碑2年间卖了20多万台，属于懂行圈子里的高口

05月03日 1728