8張GPU訓出近SOTA模型,超低成本圖像生成預訓練方案開源

2025年03月19日12:50:21 科技 6076

everlyn 投稿

量子位 | 公眾號 qbitai

超低成本圖像生成預訓練方案來了——

僅需8張gpu訓練,就能實現近sota的高質量圖像生成效果。

劃重點:開源

8張GPU訓出近SOTA模型,超低成本圖像生成預訓練方案開源 - 天天要聞

模型名為lightgen,由港科大harry yang團隊聯合everlyn ai等機構打造,藉助知識蒸餾(kd)直接偏好優化(dpo)策略,有效壓縮了大規模圖像生成模型的訓練流程。

lightgen不僅顯著降低了數據規模與計算資源需求,而且在高質量圖像生成任務上展現了與sota模型相媲美的性能。

8張GPU訓出近SOTA模型,超低成本圖像生成預訓練方案開源 - 天天要聞

圖像inpainting效果belike:

8張GPU訓出近SOTA模型,超低成本圖像生成預訓練方案開源 - 天天要聞

lightgen相較於現有的生成模型,儘管參數量更小、預訓練數據規模更精簡,卻在geneval圖像生成任務的基準評測中甚至超出了部分最先進sota模型。

此外,lightgen在效率與性能之間實現了良好的平衡,成功地將傳統上需要數千gpu days的預訓練過程縮短至僅88個gpu days,即可完成高質量圖像生成模型的訓練。

以下是更多細節。

lightgen長啥樣?

文本到圖像(text-to-image, t2i)生成任務近年來取得了飛速進展,其中以擴散模型(如stable diffusion、dit等)和自回歸(ar)模型為代表的方法取得了顯著成果。

然而,這些主流的生成模型通常依賴於超大規模的數據集和巨大的參數量,導致計算成本高昂、落地困難,難以高效地應用於實際生產環境。

為了解決這一難題,香港科技大學harry yang教授團隊聯合everlyn ai和ucf,提出了lightgen這一新型高效圖像生成模型,致力於在有限的數據和計算資源下,快速實現高質量圖像的生成,推動自回歸模型在視覺生成領域更高效、更務實地發展與應用。

8張GPU訓出近SOTA模型,超低成本圖像生成預訓練方案開源 - 天天要聞

lightgen採用的訓練流程主要包括以下關鍵步驟:

一、數據kd

利用當前sota的t2i模型,生成包含豐富語義的高質量合成圖像數據集。

這一數據集的圖像具有較高的視覺多樣性,同時包含由最先進的大型多模態語言模型(如gpt-4o)生成的豐富多樣的文本標註,從而確保訓練數據在文本和圖像兩個維度上的多樣性。

二、dpo後處理

由於合成數據在高頻細節和空間位置捕獲上的不足,作者引入了直接偏好優化技術作為後處理手段,通過微調模型參數優化生成圖像與參考圖像之間的差異,有效提升圖像細節和空間關係的準確性,增強了生成圖像的質量與魯棒性。

通過以上方法,lightgen顯著降低了圖像生成模型的訓練成本與計算需求,展現了在資源受限環境下獲取高效、高質量圖像生成模型的潛力。

8張GPU訓出近SOTA模型,超低成本圖像生成預訓練方案開源 - 天天要聞

實驗效果如何?

作者通過實驗對比了lightgen與現有的多種sota的t2i生成模型,使用geneval作為benchmark來驗證lightgen模型和其它開源模型的性能。

結果表明,lightgen模型在模型參數和訓練數量都小於其它模型的的前提下,在256×256和512×512分辨率下的圖像生成任務中的表現均接近或超過現有的sota模型。

8張GPU訓出近SOTA模型,超低成本圖像生成預訓練方案開源 - 天天要聞

lightgen在單物體、雙物體以及顏色合成任務上明顯優於擴散模型和自回歸模型,在不使用dpo方法的情況下,分別達到0.49(80k步訓練)和0.53的整體性能分數。

在更高的512×512分辨率上,lightgen達到了可比肩當前sota模型的成績,整體性能分數達到0.62,幾乎超過所有現有方法。

特別地,加入dpo方法後,模型在位置準確性和高頻細節方面的表現始終穩定提升,這體現了dpo在解決合成數據缺陷上的有效性

除此之外,消融實驗結果顯示,當數據規模達到約100萬張圖像時,性能提升會遇到瓶頸,進一步增加數據規模帶來的收益很有限。因此,作者最終選擇了200萬張圖像作為最優的預訓練數據規模。

8張GPU訓出近SOTA模型,超低成本圖像生成預訓練方案開源 - 天天要聞

上圖(b)探討了不同訓練迭代次數對geneval在256與512分辨率下性能的影響。

值得注意的是,在256像素階段,僅經過80k訓練步數便能達到相當不錯的性能,這突顯了數據蒸餾方法在訓練效率上的優勢。

團隊表示,未來研究可進一步探索該方法在其他生成任務(如視頻生成)上的應用,推動高效、低資源需求的生成模型進一步發展。

論文鏈接:https://arxiv.org/abs/2503.08619
模型鏈接:https://huggingface.co/beckham808/lightgen
項目鏈接:https://github.com/xianfengwu01/lightgen

科技分類資訊推薦

年內第三家!健信超導科創板IPO申請獲受理 系全球最大超導磁體獨立供應商 - 天天要聞

年內第三家!健信超導科創板IPO申請獲受理 系全球最大超導磁體獨立供應商

《科創板日報》5月9日訊(記者 李煜) 年內科創板第三家獲受理企業「花落」健信超導。今日(5月9日),上交所官網披露,寧波健信超導科技股份有限公司(以下簡稱「健信超導」)的科創板首發申請獲得受理,保薦機構為廣發證券。健信超導也成為今年科創板第三家獲得受理的企業,「科創板八條」的政策效應持續放大。▍系全球最...
給好評送冰粉、甜品,大眾點評整治這類違規行為,舉報有獎 - 天天要聞

給好評送冰粉、甜品,大眾點評整治這類違規行為,舉報有獎

隨着餐飲行業競爭加劇,不少商家開始「刷好評」。「一杯飲料換一個好評」「15字好評免費領甜品」等套路層出不窮,不僅影響用戶的消費體驗,也折損了「線上好評」的參考價值。近日,「規定字數寫好評換飲品」「寫下差評卻被商家騷擾」這些屢見不鮮的違規行為
我國突破金屬 3D 打印難題,構件表面精度達毫米級 - 天天要聞

我國突破金屬 3D 打印難題,構件表面精度達毫米級

IT之家 5 月 9 日消息,據中國運載火箭技術研究院(火箭院)今日披露消息,一直以來,航天裝備大型構件金屬 3D 打印技術(也叫金屬增材製造技術)面臨著效率和精度難以兼顧的技術難題,如今這個難題有解了。火箭院戰術部和首都航天機械有限公司聯合申報的大型艙段、殼體高效率高精度增材製造技術項目針對新一代航天裝備大型...
無人機不能無人管 - 天天要聞

無人機不能無人管

堅持統籌監管、系統防治,通過以規則規範行為、以技術馴服技術,無人機亂象才能得到有效根治。 圖片內容來源於網絡 彩雲網評特約評論員 何冠軍 近日,一段「穿越機在大理崇聖寺三塔的古塔券洞內飛行時墜落」的視頻在網絡流傳,引發廣泛關注。經查,涉事「飛手」張某某系擅自飛入三塔景區,大理市公安局依法對其處以行政拘留...
老有所「美」,樂齡群體樂享「數字人生」 - 天天要聞

老有所「美」,樂齡群體樂享「數字人生」

「以前只會用手機按着說話,現在進步很大,學會做小視頻、刷小紅書,有疑問還會找AI幫忙。比如做扭扭棒手工花,我去社交平台找教程,處理老照片也嘗試用美圖功能。」76歲獨居老人馮宣英阿姨,沒想到晚年生活還能「美」出新高度。
智數科技集團擬折讓約18.39%配售最多1970萬股 凈籌約680萬港元 - 天天要聞

智數科技集團擬折讓約18.39%配售最多1970萬股 凈籌約680萬港元

智通財經APP訊,智數科技集團(01159)發佈公告,於2025年5月9日(交易時段後),公司與配售代理訂立配售協議,據此,公司委任配售代理(作為公司的獨家代理)盡最大努力於配售事項的先決條件獲達成後,按每股配售股份0.355港元的價格配售最多1970萬股配售股份予不少於六名承配人。配售價較於配售協議日期聯交所所報收市價每股股...
「張灣智警」上崗!無人機變身 「空中 110」 - 天天要聞

「張灣智警」上崗!無人機變身 「空中 110」

晨曦中,數公里外的路口突發擁堵,一架印有「張灣智警」標識的無人機從機庫起飛,通過空中喊話疏導車流,同時將車牌識別畫面,實時推送至地面執法終端。這一幕高效協同的智慧警務場景,正是「張灣智警」無人機系統融入城市治理的日常縮影。
聯想憋了40年的大招:自研5nm芯片上市,這次真沒放鴿子 - 天天要聞

聯想憋了40年的大招:自研5nm芯片上市,這次真沒放鴿子

最近科技圈最熱鬧的事,莫過於聯想在自家新平板上塞了顆"中國芯"。這事要擱五年前,網友能把鍵盤敲出火星子——畢竟在很多人印象里,聯想除了組裝電腦就是賣手機,突然掏出顆5納米芯片,比四川變臉還讓人意外。說起聯想和芯片的恩怨情仇,那真是三天三夜嘮