Stable Diffusion && GAN

2024年03月10日23:25:20 科技 1409

背景

在生成式AI興起之前，市場上的AI產品主要是分析式AI。

從功能上看，過去的分析式AI的應用主要是幫助人們進行預測，進而提升決策效率。儘管如此，這類AI可以獨立完成的任務並不多，也不能生成新的內容，在大多數時候，它充其量只能充當一個輔助角色。

而生成式AI則不同，除了擁有和分析式AI類似的預測功能外，它們還能根據決策獨立作出判斷、生成內容。

因此，它們的應用潛力和經濟影響要比分析式AI大得多。

昨晚看東方衛視，已經用虛擬新聞主播擔任主持人。

生成式AI的幾個模型

目前，生成式AI主要有這五大模型：vaes、GANs、Diffusion、Transformers、NeRFs。

1、VAEs

使用編碼器-解碼器架構來生成新數據，通常用於圖像和視頻生成，例如生成用於隱私保護的合成人臉。

2、GANs

使用生成器和鑒別器來生成新數據，通常用於視頻遊戲開發中以創建逼真的遊戲角色。

3、Diffusion

添加然後消除噪聲以生成具有高細節水平的高質量圖像，從而創建近乎逼真的自然場景圖像。

4、Transformers

可以有效地並行處理順序數據，以進行機器翻譯、文本摘要和圖像創建。

5、NeRFs

提供了一種使用神經表示的3D場景重建的新方法。

實際場景中，經常會將以上結合使用。比如OpenAI Sora就集成了Diffusion模型和Transformer模型。

什麼是Stable Diffusion？

Stable Diffusion是一種潛在擴散模型，2022年發布的深度學習文本到圖像生成模型。它主要用於根據文本的描述產生詳細圖像，儘管它也可以應用於其他任務，如內補繪製、外補繪製，以及在提示詞指導下產生圖生圖的轉變。

源代碼和模型權重已分別公開發布在GitHub和Hugging Face，可以在我們有GPU的電腦硬件上本地運行。

以前的專有文生圖模型（如DALL-E和Midjourney）只能通過雲計算服務訪問。

它是一種使用擴散過程逐步細化噪聲源來生成合成數據的方法。該方法涉及將潛在噪聲向量迭代地轉換為目標信號。

由3個部分組成：變分自編碼器（VAE）、U-Net和一個文本編碼器。

Stable Diffusion建議在10GB以上的顯存（GDDR或HBM）下運行。

擴散模型所用的去噪過程如下所示：

什麼是GAN？

生成對抗網絡（Generative Adversarial Network）是非監督式學習的一種方法，通過兩個神經網絡相互博弈的方式進行學習。

該方法由伊恩·古德費洛等人於2014年提出。GAN背後的基本思想是它們涉及兩個神經網絡：生成器和判別器。

生成網絡從潛在空間（latentspace）中隨機取樣作為輸入，其輸出結果需要盡量模仿訓練集中的真實樣本。

判別網絡的輸入則為真實樣本或生成網絡的輸出，其目的是將生成網絡的輸出從真實樣本中儘可能分辨出來。

而生成網絡則要儘可能地欺騙判別網絡。

兩個網絡相互對抗、不斷調整參數，最終目的是使判別網絡無法判斷生成網絡的輸出結果是否真實。

GAN 工作原理如下圖所示：

Diffusion與GAN的不同點

雖然Stable Diffusion和GAN之間有一些相似之處，例如它們都專註於生成合成數據，但也存在一些關鍵差異，使這兩種方法彼此不同。

1、穩定擴散是一種自監督方法，可以從自身的迭代細化過程中學習，而GAN則涉及生成器和判別器。

2、穩定擴散被設計為在連續的潛在空間中運行，而GAN在離散的像素空間中運行。

Diffusion試用

from diffusers import DiffusionPipeline
import torch

#加載base&refiner
base = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0", torch_dtype=torch.float16, variant="fp16", use_safetensors=True
)
base.to("cuda")
refiner = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-refiner-1.0",
    text_encoder_2=base.text_encoder_2,
    vae=base.vae,
    torch_dtype=torch.float16,
    use_safetensors=True,
    variant="fp16",
)
refiner.to("cuda")

#定義步驟數和百分比(80/20)
n_steps = 40
high_noise_frac = 0.8

# 生成一個梵高風格的西安鐘樓照片
prompt = "Generate a photo of the Xi'an Bell Tower in the style of Van Gogh"

# 運行
image = base(
    prompt=prompt,
    num_inference_steps=n_steps,
    denoising_end=high_noise_frac,
    output_type="latent",
).images
image = refiner(
    prompt=prompt,
    num_inference_steps=n_steps,
    denoising_start=high_noise_frac,
    image=image,
).images[0]

生成效果

科技

漲價壓不住、補貼夠不着，這個五一6000元以上機型難住手機經銷商 - 天天要聞

漲價壓不住、補貼夠不着，這個五一6000元以上機型難住手機經銷商

圖源：藍鯨科技記者拍攝藍鯨新聞5月3日訊(記者翟智超)按照往年慣例，五一勞動節是手機廠商集中促銷、衝量的關鍵節點，但今年這場例行的“節前大促”卻未能點燃消費熱情。 5月2日下....

05月03日 7401

AI能否超越人類？中南大學院士，走進武鋼三中，開講“硬核”AI課 - 天天要聞

AI能否超越人類？中南大學院士，走進武鋼三中，開講“硬核”AI課

4月29日，在武漢市武鋼三中的報告廳里，一場關於人工智能的科普報告正在進行。台上，中國工程院院士、中南大學教授桂衛華以“大模型與工業應用”為題，為高一學生揭開AI大模型的神秘面紗。桂衛華，中國工程院院士，中南大學教授、博士生導師。

05月03日 1895

引領科技豪華MPV新風尚第二代騰勢D9西安車展亮相 - 天天要聞

引領科技豪華MPV新風尚第二代騰勢D9西安車展亮相

兼具宜商氣度與家用溫情的科技豪華旗艦MPV，第二代騰勢D9迎來西安地區正式亮相。新車依託全球新能源MPV冠軍底蘊，以第二代刀片電池、雙閥雲輦-C、天神之眼5.0智駕等核心技術全面升級，兼顧商務體面與家庭舒適，為西北高端用戶帶來一站式全能出行解決方案。

05月03日 2042

採購禁入！科華數據材料造假被拒門外 - 天天要聞

採購禁入！科華數據材料造假被拒門外

本報（chinatimes.net.cn）記者胡雅文北京報道這家趕上AI算力風口的公司，因投標材料造假，被相關採購方列入禁入名單兩年，其此前提出的複議申請也被正式駁回。相關採購平台近日發布公告，明確駁回科華數據股份有限公司（下稱“科華數據”，002335.SZ）此前提交的複議申請。早在一年前，科華數據已被認定在“信息通信樞紐...

05月03日 9437

潮聲丨“硅基”勞動節來了，揭秘AI智能體的“五一”勞動日誌 - 天天要聞

潮聲丨“硅基”勞動節來了，揭秘AI智能體的“五一”勞動日誌

潮新聞客戶端執筆夏丹吳柯沁五一小長假，當大多數人按下工作的暫停鍵，走進景區、海邊或深山，城市與工地的另一端，一群沒有血肉之軀的“硅基勞動者”正在高效運轉。 2026年，一人公司（O....

05月03日 7667

馬斯克手撕OpenAI：一場“初心”保衛戰，還是富人的“酸葡萄”？ - 天天要聞

馬斯克手撕OpenAI：一場“初心”保衛戰，還是富人的“酸葡萄”？

如果你最近打開科技新聞，大概率會被一條消息刷屏——馬斯克又開炮了，這次對準的是他親手參與創辦、又親手甩手離開的OpenAI。不是暗戳戳發條推特陰陽怪氣，而是直接遞上法律文書，把Sam Altman和Greg Brockman告上法庭。

05月03日 1848

五一25城車展，ID. 與眾家族齊亮相，購車權益最高享5.6萬 - 天天要聞

五一25城車展，ID. 與眾家族齊亮相，購車權益最高享5.6萬

五一假期（4月30日到5月5日），大眾ID. 與眾家族將帶着全系車型，在全國25個城市的五一車展上集中亮相。屆時，包括全時互聯全尺寸純電SUV與眾08、鋒芒智趣純電SUV與眾06在內的多款車型都會來到現場，和消費者零距離接觸。

05月03日 6759

快評樂道L80：15萬元級買大五座，這波值得沖？ - 天天要聞

快評樂道L80：15萬元級買大五座，這波值得沖？

日前，樂道L80正式發布並開啟預售，其整車購買預售價為24.58萬元起，租電購買預售價則低至15.98萬元起。面對大型SUV市場“細分再細分”之競爭趨勢，這款樂道年度重磅新車都有哪些優勢？又能否成為“大五座SUV革新之作”？下面，圈哥就帶大家全方位感受。

05月03日 8240

成都直擊凱威德：純電全尺寸SUV的張揚與大氣 - 天天要聞

成都直擊凱威德：純電全尺寸SUV的張揚與大氣

4月22日，凱迪拉克以奧斯卡級盛典規格，將上海保利大劇院點亮為璀璨舞台，在品牌代言人倪妮與全場嘉賓的共同見證下，凱迪拉克全尺寸純電公路旗艦——凱威德耀然上市。新車共推出長續航四驅Pro、高性能四驅Ultra兩款配置，官方售價區間為46.88萬-50.88萬元。

05月03日 6713

空氣炸鍋哪個品牌最好？2026十大品牌排行榜深度橫評，誰最靠譜 - 天天要聞

空氣炸鍋哪個品牌最好？2026十大品牌排行榜深度橫評，誰最靠譜

夏天想靠空氣炸鍋做減脂餐，結果西蘭花烤得又干又苦，雞胸肉外焦里生。經過2026年4月空氣炸鍋十大品牌排行榜深度橫評，綜合材質、溫控、耐用性和口碑數據，排名第一的空氣炸鍋是宮菱FXGONNE——靠口碑2年間賣了20多萬台，屬於懂行圈子裡的高口

05月03日 1728