8张GPU训出近SOTA模型，超低成本图像生成预训练方案开源

2025年03月19日12:50:21 科技 6076

everlyn 投稿
量子位 | 公众号 qbitai

超低成本图像生成预训练方案来了——

仅需8张gpu训练，就能实现近sota的高质量图像生成效果。

划重点：开源。

模型名为lightgen，由港科大harry yang团队联合everlyn ai等机构打造，借助知识蒸馏（kd）和直接偏好优化（dpo）策略，有效压缩了大规模图像生成模型的训练流程。

lightgen不仅显著降低了数据规模与计算资源需求，而且在高质量图像生成任务上展现了与sota模型相媲美的性能。

图像inpainting效果belike：

lightgen相较于现有的生成模型，尽管参数量更小、预训练数据规模更精简，却在geneval图像生成任务的基准评测中甚至超出了部分最先进sota模型。

此外，lightgen在效率与性能之间实现了良好的平衡，成功地将传统上需要数千gpu days的预训练过程缩短至仅88个gpu days，即可完成高质量图像生成模型的训练。

以下是更多细节。

lightgen长啥样？

文本到图像（text-to-image, t2i）生成任务近年来取得了飞速进展，其中以扩散模型（如stable diffusion、dit等）和自回归（ar）模型为代表的方法取得了显著成果。

然而，这些主流的生成模型通常依赖于超大规模的数据集和巨大的参数量，导致计算成本高昂、落地困难，难以高效地应用于实际生产环境。

为了解决这一难题，香港科技大学harry yang教授团队联合everlyn ai和ucf，提出了lightgen这一新型高效图像生成模型，致力于在有限的数据和计算资源下，快速实现高质量图像的生成，推动自回归模型在视觉生成领域更高效、更务实地发展与应用。

lightgen采用的训练流程主要包括以下关键步骤：

一、数据kd

利用当前sota的t2i模型，生成包含丰富语义的高质量合成图像数据集。

这一数据集的图像具有较高的视觉多样性，同时包含由最先进的大型多模态语言模型（如gpt-4o）生成的丰富多样的文本标注，从而确保训练数据在文本和图像两个维度上的多样性。

二、dpo后处理

由于合成数据在高频细节和空间位置捕获上的不足，作者引入了直接偏好优化技术作为后处理手段，通过微调模型参数优化生成图像与参考图像之间的差异，有效提升图像细节和空间关系的准确性，增强了生成图像的质量与鲁棒性。

通过以上方法，lightgen显著降低了图像生成模型的训练成本与计算需求，展现了在资源受限环境下获取高效、高质量图像生成模型的潜力。

实验效果如何？

作者通过实验对比了lightgen与现有的多种sota的t2i生成模型，使用geneval作为benchmark来验证lightgen模型和其它开源模型的性能。

结果表明，lightgen模型在模型参数和训练数量都小于其它模型的的前提下，在256×256和512×512分辨率下的图像生成任务中的表现均接近或超过现有的sota模型。

lightgen在单物体、双物体以及颜色合成任务上明显优于扩散模型和自回归模型，在不使用dpo方法的情况下，分别达到0.49（80k步训练）和0.53的整体性能分数。

在更高的512×512分辨率上，lightgen达到了可比肩当前sota模型的成绩，整体性能分数达到0.62，几乎超过所有现有方法。

特别地，加入dpo方法后，模型在位置准确性和高频细节方面的表现始终稳定提升，这体现了dpo在解决合成数据缺陷上的有效性。

除此之外，消融实验结果显示，当数据规模达到约100万张图像时，性能提升会遇到瓶颈，进一步增加数据规模带来的收益很有限。因此，作者最终选择了200万张图像作为最优的预训练数据规模。

上图(b)探讨了不同训练迭代次数对geneval在256与512分辨率下性能的影响。

值得注意的是，在256像素阶段，仅经过80k训练步数便能达到相当不错的性能，这突显了数据蒸馏方法在训练效率上的优势。

团队表示，未来研究可进一步探索该方法在其他生成任务（如视频生成）上的应用，推动高效、低资源需求的生成模型进一步发展。

论文链接：https://arxiv.org/abs/2503.08619
模型链接：https://huggingface.co/beckham808/lightgen
项目链接：https://github.com/xianfengwu01/lightgen

科技

年内第三家！健信超导科创板IPO申请获受理系全球最大超导磁体独立供应商 - 天天要闻

年内第三家！健信超导科创板IPO申请获受理系全球最大超导磁体独立供应商

《科创板日报》5月9日讯（记者李煜）年内科创板第三家获受理企业“花落”健信超导。今日（5月9日），上交所官网披露，宁波健信超导科技股份有限公司（以下简称“健信超导”）的科创板首发申请获得受理，保荐机构为广发证券。健信超导也成为今年科创板第三家获得受理的企业，“科创板八条”的政策效应持续放大。▍系全球最...

05月09日 4275

给好评送冰粉、甜品，大众点评整治这类违规行为，举报有奖 - 天天要闻

给好评送冰粉、甜品，大众点评整治这类违规行为，举报有奖

随着餐饮行业竞争加剧，不少商家开始“刷好评”。“一杯饮料换一个好评”“15字好评免费领甜品”等套路层出不穷，不仅影响用户的消费体验，也折损了“线上好评”的参考价值。近日，“规定字数写好评换饮品”“写下差评却被商家骚扰”这些屡见不鲜的违规行为

05月09日 1194

我国突破金属 3D 打印难题，构件表面精度达毫米级 - 天天要闻

我国突破金属 3D 打印难题，构件表面精度达毫米级

IT之家 5 月 9 日消息，据中国运载火箭技术研究院（火箭院）今日披露消息，一直以来，航天装备大型构件金属 3D 打印技术（也叫金属增材制造技术）面临着效率和精度难以兼顾的技术难题，如今这个难题有解了。火箭院战术部和首都航天机械有限公司联合申报的大型舱段、壳体高效率高精度增材制造技术项目针对新一代航天装备大型...

05月09日 2801

无人机不能无人管 - 天天要闻

无人机不能无人管

坚持统筹监管、系统防治，通过以规则规范行为、以技术驯服技术，无人机乱象才能得到有效根治。图片内容来源于网络彩云网评特约评论员何冠军近日，一段“穿越机在大理崇圣寺三塔的古塔券洞内飞行时坠落”的视频在网络流传，引发广泛关注。经查，涉事“飞手”张某某系擅自飞入三塔景区，大理市公安局依法对其处以行政拘留...

05月09日 9939

老有所“美”，乐龄群体乐享“数字人生” - 天天要闻

老有所“美”，乐龄群体乐享“数字人生”

“以前只会用手机按着说话，现在进步很大，学会做小视频、刷小红书，有疑问还会找AI帮忙。比如做扭扭棒手工花，我去社交平台找教程，处理老照片也尝试用美图功能。”76岁独居老人冯宣英阿姨，没想到晚年生活还能“美”出新高度。

05月09日 1292

创近三年行业融资新纪录，享道出行明晰产业升级路径 - 天天要闻

创近三年行业融资新纪录，享道出行明晰产业升级路径

5月9日，享道出行宣布完成超13亿元人民币C轮融资，这也是国内出行行业近三年来单笔融资金额最大的一次融资。

05月09日 1363

智数科技集团拟折让约18.39%配售最多1970万股净筹约680万港元 - 天天要闻

智数科技集团拟折让约18.39%配售最多1970万股净筹约680万港元

智通财经APP讯，智数科技集团(01159)发布公告，于2025年5月9日(交易时段后)，公司与配售代理订立配售协议，据此，公司委任配售代理(作为公司的独家代理)尽最大努力于配售事项的先决条件获达成后，按每股配售股份0.355港元的价格配售最多1970万股配售股份予不少于六名承配人。配售价较于配售协议日期联交所所报收市价每股股...

05月09日 8090

海尔智家5月9日耗资约505.24万元回购20万股A股 - 天天要闻

海尔智家5月9日耗资约505.24万元回购20万股A股

智通财经APP讯，海尔智家(06690)公布，2025年5月9日耗资约505.24万元回购20万股A股股份。...

05月09日 6947

“张湾智警”上岗！无人机变身 “空中 110” - 天天要闻

“张湾智警”上岗！无人机变身 “空中 110”

晨曦中，数公里外的路口突发拥堵，一架印有“张湾智警”标识的无人机从机库起飞，通过空中喊话疏导车流，同时将车牌识别画面，实时推送至地面执法终端。这一幕高效协同的智慧警务场景，正是“张湾智警”无人机系统融入城市治理的日常缩影。

05月09日 1995

联想憋了40年的大招：自研5nm芯片上市，这次真没放鸽子 - 天天要闻

联想憋了40年的大招：自研5nm芯片上市，这次真没放鸽子

最近科技圈最热闹的事，莫过于联想在自家新平板上塞了颗"中国芯"。这事要搁五年前，网友能把键盘敲出火星子——毕竟在很多人印象里，联想除了组装电脑就是卖手机，突然掏出颗5纳米芯片，比四川变脸还让人意外。说起联想和芯片的恩怨情仇，那真是三天三夜唠

05月09日 1754