全球首个类Sora开源复现方案来了!全面公开训练细节和模型权重

2024年04月02日13:22:06 科技 2041

明敏 发自 凹非寺

量子位 | 公众号 qbitai

全球首个开源的类sora架构视频生成模型,来了!

整个训练流程,包括数据处理所有训练细节和模型权重,全部开放。

这就是刚刚发布的open-sora 1.0。

它带来的实际效果如下,能生成繁华都市夜景中的车水马龙。

全球首个类Sora开源复现方案来了!全面公开训练细节和模型权重 - 天天要闻

还能用航拍视角,展现悬崖海岸边,海水拍打着岩石的画面。

全球首个类Sora开源复现方案来了!全面公开训练细节和模型权重 - 天天要闻

亦或是延时摄影下的浩瀚星空。

全球首个类Sora开源复现方案来了!全面公开训练细节和模型权重 - 天天要闻

自sora发布以来,由于效果惊艳但技术细节寥寥,揭秘、复现sora成为了开发社区最热议话题之一。比如colossal-ai团队推出成本直降46%的sora训练推理复现流程。

短短两周时间后,该团队再次发布最新进展,复现类sora方案,并将技术方案及详细上手教程在github上免费开源。

那么问题来了,复现sora如何实现?

open-sora 开源地址:https://github.com/hpcaitech/open-sora

全面解读sora复现方案

sora复现方案包括四个方面:

模型架构设计

训练复现方案

数据预处理

高效训练优化策略

模型架构设计

模型采用了sora同源架构diffusion transformer (dit) 。

它以采用dit架构的高质量开源文生图模型pixart-α为基座,在此基础上引入时间注意力层,将其扩展到视频数据上。

具体来看,整个架构包括一个预训练好的vae,一个文本编码器和一个利用空间-时间注意力机制的stdit (spatial temporal diffusion transformer)模型。

其中,stdit 每层的结构如下图所示。

它采用串行的方式在二维的空间注意力模块上叠加一维的时间注意力模块,用于建模时序关系。在时间注意力模块之后,交叉注意力模块用于对齐文本的语意。

与全注意力机制相比,这样的结构大大降低了训练和推理开销

与同样使用空间-时间注意力机制的 latte模型相比,stdit 可以更好的利用已经预训练好的图像 dit 的权重,从而在视频数据上继续训练。

全球首个类Sora开源复现方案来了!全面公开训练细节和模型权重 - 天天要闻

△stdit结构示意图

整个模型的训练和推理流程如下。

据了解,在训练阶段首先采用预训练好的variational autoencoder (vae)的编码器将视频数据进行压缩,然后在压缩之后的潜在空间中与文本嵌入(text embedding)一起训练stdit扩散模型。

在推理阶段,从vae的潜在空间中随机采样出一个高斯噪声,与提示词嵌入(prompt embedding)一起输入到stdit中,得到去噪之后的特征,最后输入到vae的解码器,解码得到视频。

全球首个类Sora开源复现方案来了!全面公开训练细节和模型权重 - 天天要闻

△模型训练流程

训练复现方案

在训练复现部分,open-sora参考了stable video diffusion (svd)。

一共分为3个阶段:

大规模图像预训练;

大规模视频预训练;

高质量视频数据微调。

每个阶段都会基于前一个阶段的权重继续训练。

相比于从零开始单阶段训练,多阶段训练通过逐步扩展数据,更高效地达成高质量视频生成的目标。

训练方案三阶段

第一阶段是大规模图像预训练

团队利用互联网上丰富的图像数据和文生图技术,先训练出一个高质量的文生图模型,将该模型作为下一阶段视频预训练的初始化权重。

同时,由于目前没有高质量的时空vae,他们采用stable diffusion预训练好的图像vae。

这样不仅能保障初始模型的优越性能,还能显著降低视频预训练的整体成本。

第二阶段是大规模视频预训练

这一阶段主要增加模型的泛化能力,有效掌握视频的时间序列关联。

它需要使用大量视频数据训练,并且保障视频素材的多样性。

同时,第二阶段的模型在第一阶段文生图模型的基础上加入了时序注意力模块,用于学习视频中的时序关系。其余模块与第一阶段保持一致,并加载第一阶段权重作为初始化,同时初始化时序注意力模块输出为零,以达到更高效更快速的收敛。

colossal-ai团队使用了pixart-alpha的开源权重作为第二阶段stdit模型的初始化,以及采用了t5模型作为文本编码器。他们采用了256x256的小分辨率进行预训练,进一步增加了收敛速度,降低训练成本。

全球首个类Sora开源复现方案来了!全面公开训练细节和模型权重 - 天天要闻

△open-sora生成效果(提示词:水中世界的镜头,镜头中一只海龟在珊瑚礁间悠然游弋)

第三阶段是高质量视频数据微调

据介绍,这一阶段能显著提升模型的生成质量。使用的数据规模比上一阶段降低一个量级,但是视频的时长、分辨率和质量都更高。

通过这种方式进行微调,能实现视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效扩展。

值得一提的是,colossal-ai还详细透露了每阶段的资源使用情况。

在open-sora的复现流程中,他们使用了64块h800进行训练。第二阶段的训练量一共是 2808 gpu hours,约合7000美元,第三阶段的训练量是1920 gpu hours,大约4500美元。经过初步估算,整个训练方案成功把open-sora复现流程控制在了1万美元左右。

数据预处理

为了进一步降低sora复现的门槛和复杂度,colossal-ai团队在代码仓库中还提供了便捷的视频数据预处理脚本,让大家可以轻松启动sora复现预训练。

包括公开视频数据集下载、长视频根据镜头连续性分割为短视频片段、使用开源大语言模型llava生成精细的提示词。

他们提供的批量视频标题生成代码可以用两卡 3 秒标注一个视频,并且质量接近于 gpt-4v

最终得到的视频/文本对可直接用于训练。借助他们在github上提供的开源代码,可以轻松地在自己的数据集上快速生成训练所需的视频/文本对,显著降低了启动sora复现项目的技术门槛和前期准备。

高效训练加持

除此之外,colossal-ai团队还提供了训练加速方案。

通过算子优化和混合并行等高效训练策略,在处理64帧、512x512分辨率视频的训练中,实现了1.55倍的加速效果

同时,得益于colossal-ai的异构内存管理系统,在单台服务器上(8h800)可以无阻碍地进行1分钟的1080p高清视频训练任务。

全球首个类Sora开源复现方案来了!全面公开训练细节和模型权重 - 天天要闻

而且团队还发现stdit模型架构在训练时也展现出卓越的高效性。

和采用全注意力机制的dit相比,随着帧数的增加,stdit实现了高达5倍的加速效果,这在处理长视频序列等现实任务中尤为关键。

全球首个类Sora开源复现方案来了!全面公开训练细节和模型权重 - 天天要闻

最后,团队还放出了更多open-sora的生成效果。

团队和量子位透露,他们将长期更新优化open-sora的相关解决方案和动态。未来将使用更多视频训练数据,以生成更高质量、更长时长的视频内容,并支持多分辨率特性。

实际应用方面,团队透露将推进在电影、游戏、广告等领域落地。

感兴趣的开发者们,可访问github项目了解更多~

open-sora 开源地址:https://github.com/hpcaitech/open-sora

参考链接:

[1]https://arxiv.org/abs/2212.09748 scalable diffusion models with transformers

[2]https://arxiv.org/abs/2310.00426 pixart-α: fast training of diffusion transformer for photorealistic text-to-image synthesis

[3]https://arxiv.org/abs/2311.15127 stable video diffusion: scaling latent video diffusion models to large datasets

[4]https://arxiv.org/abs/2401.03048 latte: latent diffusion transformer for video generation

[5]https://huggingface.co/stabilityai/sd-vae-ft-mse-original

[6]https://github.com/google-research/text-to-text-transfer-transformer

[7]https://github.com/haotian-liu/llava

[8]https://hpc-ai.com/blog/open-sora-v1.0

科技分类资讯推荐

中国首个独立研发在美获批的全球首创新药,来自无锡高新区! - 天天要闻

中国首个独立研发在美获批的全球首创新药,来自无锡高新区!

7月3日无锡高新区企业迪哲医药宣布舒沃哲的新药上市申请正式获得美国食品药品监督管理局批准成为全球首个且唯一在美国获批的表皮生长因子受体(EGFR)20号外显子插入突变(exon20ins)非小细胞肺癌(NSCLC)国创新药同时也是中国首个独立研发在美获批的全球首创新药舒沃哲是一款口服、不可逆、针对多种EGFR突变亚型的高...
百度前副总裁璩静开医美诊所,人均消费2218元,曾因 “霸道女总裁” 言论道歉辞职 - 天天要闻

百度前副总裁璩静开医美诊所,人均消费2218元,曾因 “霸道女总裁” 言论道歉辞职

红星资本局7月2日消息,百度前副总裁璩静在华为总部坂田基地附近开了一家医美诊所。据公开资料,璩静名下新增一家存续企业——深圳大为诊所。该诊所成立于2024年12月23日,璩静持股比例为100%,认缴出资额为100万元,经营范围为诊所服务等。企查查显示,根据璩静关联的任职历史,她曾任深圳市星光健康管理有限公司(以下简...
推荐数商云B2B撮合交易平台,搭建企业间合作桥梁 - 天天要闻

推荐数商云B2B撮合交易平台,搭建企业间合作桥梁

来源:数商云引言:企业数字化转型与B2B撮合交易平台的崛起在全球经济一体化与数字经济深度融合的背景下,企业间的合作模式正经历深刻变革。传统供应链中信息不对称、交易成本高、协同效率低等问题,已成为制约企业发展的核心痛点。
当无人机 “飞” 入生活,数字低空如何重构我们的出行与未来? - 天天要闻

当无人机 “飞” 入生活,数字低空如何重构我们的出行与未来?

交汇点讯 近日,苏州国际博览中心的展厅里人头攒动,2025数字低空大会在此隆重举行。作为第三届低空(苏州)产业创新生态大会的重要组成部分,这场由未来移动通信论坛与鹏城实验室联合主办的盛会,承载着特殊的行业意义——继2024年在深圳首次提出“数字低空”概念并引发广泛共鸣后,它既是对过去一年行业探索的总结,更是...
雷军披露小米 YU7 销售数据;特斯拉 Q2 交付汽车 38.4 万辆;荣耀 Magic V5 发布|Do早报 - 天天要闻

雷军披露小米 YU7 销售数据;特斯拉 Q2 交付汽车 38.4 万辆;荣耀 Magic V5 发布|Do早报

Hello,大家早上好,又是元气满满的一天,先来浏览新鲜的早报吧~【微信多端正式更新】7 月 2 日,微信 iOS / 安卓 8.0.61 正式版携手登场;而在 7 月 1 日,微信在官网也上架了 PC 的新版本,Windows / Mac 4.0.6 迎来全新发布。【多地开放往届高考成绩网上查询功能】河北、浙江、陕西、山东等地都开放了往届高考成绩的查...
长城为何不做增程?详解Hi4背后的技术和战略逻辑 - 天天要闻

长城为何不做增程?详解Hi4背后的技术和战略逻辑

在中国新能源汽车产业迈入智能化与电动化深水区的当下,动力技术路线的选择,不仅关乎产品体验,也在重塑车企的技术底盘与品牌认知。与越来越多自主品牌押注增程技术不同,长城汽车选择走另一条更具挑战性的路线——全场景智能四驱电混技术体系Hi4。这个选择背后,是对效率、安全与技术普适性的权衡与押注。Hi4,一种技术“...
解码“民生答卷”丨如何“唤醒”沉睡的养老资源 - 天天要闻

解码“民生答卷”丨如何“唤醒”沉睡的养老资源

湖北日报全媒记者 方琳 李光正 张华“幸福食堂、健身房、阅览室、娱乐室、理疗室一应俱全,可没多少人来。”6月19日,在鄂东南某镇,一家开业一个多月的养老服务综合体经营者王先生望着冷清的门厅,难掩焦虑。截然不同的是,在武汉众多社区养老中心,唱歌、跳舞等活动日程排得满满当当,老人们排队“抢位”,养老床位更是“...
YU7爆火是雷军营销太强?张全蛋贴脸开大车企大佬,遮羞布都撕了 - 天天要闻

YU7爆火是雷军营销太强?张全蛋贴脸开大车企大佬,遮羞布都撕了

6月26日,小米YU7正式公布售价,很多人都预料到小米YU7会非常火,但是完全没有料到小米YU7能那么火,3分钟大定破20万辆,18小时锁单24.8万辆,可以说创造了国内汽车市场前所未有的新纪录。这也让之前那些攻击小米汽车的车企大佬和业外人士的表述显得苍白无力,小米YU7的价格不便宜,现在整个汽车行业的需求量也呈现疲软态势...