8張GPU訓出近SOTA模型，超低成本圖像生成預訓練方案開源

2025年03月19日12:50:21 科技 6076

everlyn 投稿
量子位 | 公眾號 qbitai

超低成本圖像生成預訓練方案來了——

僅需8張gpu訓練，就能實現近sota的高質量圖像生成效果。

劃重點：開源。

模型名為lightgen，由港科大harry yang團隊聯合everlyn ai等機構打造，藉助知識蒸餾（kd）和直接偏好優化（dpo）策略，有效壓縮了大規模圖像生成模型的訓練流程。

lightgen不僅顯著降低了數據規模與計算資源需求，而且在高質量圖像生成任務上展現了與sota模型相媲美的性能。

圖像inpainting效果belike：

lightgen相較於現有的生成模型，儘管參數量更小、預訓練數據規模更精簡，卻在geneval圖像生成任務的基準評測中甚至超出了部分最先進sota模型。

此外，lightgen在效率與性能之間實現了良好的平衡，成功地將傳統上需要數千gpu days的預訓練過程縮短至僅88個gpu days，即可完成高質量圖像生成模型的訓練。

以下是更多細節。

lightgen長啥樣？

文本到圖像（text-to-image, t2i）生成任務近年來取得了飛速進展，其中以擴散模型（如stable diffusion、dit等）和自回歸（ar）模型為代表的方法取得了顯著成果。

然而，這些主流的生成模型通常依賴於超大規模的數據集和巨大的參數量，導致計算成本高昂、落地困難，難以高效地應用於實際生產環境。

為了解決這一難題，香港科技大學harry yang教授團隊聯合everlyn ai和ucf，提出了lightgen這一新型高效圖像生成模型，致力於在有限的數據和計算資源下，快速實現高質量圖像的生成，推動自回歸模型在視覺生成領域更高效、更務實地發展與應用。

lightgen採用的訓練流程主要包括以下關鍵步驟：

一、數據kd

利用當前sota的t2i模型，生成包含豐富語義的高質量合成圖像數據集。

這一數據集的圖像具有較高的視覺多樣性，同時包含由最先進的大型多模態語言模型（如gpt-4o）生成的豐富多樣的文本標註，從而確保訓練數據在文本和圖像兩個維度上的多樣性。

二、dpo後處理

由於合成數據在高頻細節和空間位置捕獲上的不足，作者引入了直接偏好優化技術作為後處理手段，通過微調模型參數優化生成圖像與參考圖像之間的差異，有效提升圖像細節和空間關係的準確性，增強了生成圖像的質量與魯棒性。

通過以上方法，lightgen顯著降低了圖像生成模型的訓練成本與計算需求，展現了在資源受限環境下獲取高效、高質量圖像生成模型的潛力。

實驗效果如何？

作者通過實驗對比了lightgen與現有的多種sota的t2i生成模型，使用geneval作為benchmark來驗證lightgen模型和其它開源模型的性能。

結果表明，lightgen模型在模型參數和訓練數量都小於其它模型的的前提下，在256×256和512×512分辨率下的圖像生成任務中的表現均接近或超過現有的sota模型。

lightgen在單物體、雙物體以及顏色合成任務上明顯優於擴散模型和自回歸模型，在不使用dpo方法的情況下，分別達到0.49（80k步訓練）和0.53的整體性能分數。

在更高的512×512分辨率上，lightgen達到了可比肩當前sota模型的成績，整體性能分數達到0.62，幾乎超過所有現有方法。

特別地，加入dpo方法後，模型在位置準確性和高頻細節方面的表現始終穩定提升，這體現了dpo在解決合成數據缺陷上的有效性。

除此之外，消融實驗結果顯示，當數據規模達到約100萬張圖像時，性能提升會遇到瓶頸，進一步增加數據規模帶來的收益很有限。因此，作者最終選擇了200萬張圖像作為最優的預訓練數據規模。

上圖(b)探討了不同訓練迭代次數對geneval在256與512分辨率下性能的影響。

值得注意的是，在256像素階段，僅經過80k訓練步數便能達到相當不錯的性能，這突顯了數據蒸餾方法在訓練效率上的優勢。

團隊表示，未來研究可進一步探索該方法在其他生成任務（如視頻生成）上的應用，推動高效、低資源需求的生成模型進一步發展。

論文鏈接：https://arxiv.org/abs/2503.08619
模型鏈接：https://huggingface.co/beckham808/lightgen
項目鏈接：https://github.com/xianfengwu01/lightgen

科技

年內第三家！健信超導科創板IPO申請獲受理系全球最大超導磁體獨立供應商 - 天天要聞

年內第三家！健信超導科創板IPO申請獲受理系全球最大超導磁體獨立供應商

《科創板日報》5月9日訊（記者李煜）年內科創板第三家獲受理企業「花落」健信超導。今日（5月9日），上交所官網披露，寧波健信超導科技股份有限公司（以下簡稱「健信超導」）的科創板首發申請獲得受理，保薦機構為廣發證券。健信超導也成為今年科創板第三家獲得受理的企業，「科創板八條」的政策效應持續放大。▍系全球最...

05月09日 4275

給好評送冰粉、甜品，大眾點評整治這類違規行為，舉報有獎 - 天天要聞

給好評送冰粉、甜品，大眾點評整治這類違規行為，舉報有獎

隨着餐飲行業競爭加劇，不少商家開始「刷好評」。「一杯飲料換一個好評」「15字好評免費領甜品」等套路層出不窮，不僅影響用戶的消費體驗，也折損了「線上好評」的參考價值。近日，「規定字數寫好評換飲品」「寫下差評卻被商家騷擾」這些屢見不鮮的違規行為

05月09日 1194

我國突破金屬 3D 打印難題，構件表面精度達毫米級 - 天天要聞

我國突破金屬 3D 打印難題，構件表面精度達毫米級

IT之家 5 月 9 日消息，據中國運載火箭技術研究院（火箭院）今日披露消息，一直以來，航天裝備大型構件金屬 3D 打印技術（也叫金屬增材製造技術）面臨著效率和精度難以兼顧的技術難題，如今這個難題有解了。火箭院戰術部和首都航天機械有限公司聯合申報的大型艙段、殼體高效率高精度增材製造技術項目針對新一代航天裝備大型...

05月09日 2801

無人機不能無人管 - 天天要聞

無人機不能無人管

堅持統籌監管、系統防治，通過以規則規範行為、以技術馴服技術，無人機亂象才能得到有效根治。圖片內容來源於網絡彩雲網評特約評論員何冠軍近日，一段「穿越機在大理崇聖寺三塔的古塔券洞內飛行時墜落」的視頻在網絡流傳，引發廣泛關注。經查，涉事「飛手」張某某系擅自飛入三塔景區，大理市公安局依法對其處以行政拘留...

05月09日 9939

老有所「美」，樂齡群體樂享「數字人生」 - 天天要聞

老有所「美」，樂齡群體樂享「數字人生」

「以前只會用手機按着說話，現在進步很大，學會做小視頻、刷小紅書，有疑問還會找AI幫忙。比如做扭扭棒手工花，我去社交平台找教程，處理老照片也嘗試用美圖功能。」76歲獨居老人馮宣英阿姨，沒想到晚年生活還能「美」出新高度。

05月09日 1292

創近三年行業融資新紀錄，享道出行明晰產業升級路徑 - 天天要聞

創近三年行業融資新紀錄，享道出行明晰產業升級路徑

5月9日，享道出行宣布完成超13億元人民幣C輪融資，這也是國內出行行業近三年來單筆融資金額最大的一次融資。

05月09日 1363

智數科技集團擬折讓約18.39%配售最多1970萬股凈籌約680萬港元 - 天天要聞

智數科技集團擬折讓約18.39%配售最多1970萬股凈籌約680萬港元

智通財經APP訊，智數科技集團(01159)發佈公告，於2025年5月9日(交易時段後)，公司與配售代理訂立配售協議，據此，公司委任配售代理(作為公司的獨家代理)盡最大努力於配售事項的先決條件獲達成後，按每股配售股份0.355港元的價格配售最多1970萬股配售股份予不少於六名承配人。配售價較於配售協議日期聯交所所報收市價每股股...

05月09日 8090

海爾智家5月9日耗資約505.24萬元回購20萬股A股 - 天天要聞

海爾智家5月9日耗資約505.24萬元回購20萬股A股

智通財經APP訊，海爾智家(06690)公布，2025年5月9日耗資約505.24萬元回購20萬股A股股份。...

05月09日 6947

「張灣智警」上崗！無人機變身「空中 110」 - 天天要聞

「張灣智警」上崗！無人機變身「空中 110」

晨曦中，數公里外的路口突發擁堵，一架印有「張灣智警」標識的無人機從機庫起飛，通過空中喊話疏導車流，同時將車牌識別畫面，實時推送至地面執法終端。這一幕高效協同的智慧警務場景，正是「張灣智警」無人機系統融入城市治理的日常縮影。

05月09日 1995

聯想憋了40年的大招：自研5nm芯片上市，這次真沒放鴿子 - 天天要聞

聯想憋了40年的大招：自研5nm芯片上市，這次真沒放鴿子

最近科技圈最熱鬧的事，莫過於聯想在自家新平板上塞了顆"中國芯"。這事要擱五年前，網友能把鍵盤敲出火星子——畢竟在很多人印象里，聯想除了組裝電腦就是賣手機，突然掏出顆5納米芯片，比四川變臉還讓人意外。說起聯想和芯片的恩怨情仇，那真是三天三夜嘮

05月09日 1754