Stable Diffusion && GAN

2024年03月10日23:25:20 科技 1409

背景

生成式AI興起之前,市場上的AI產品主要是分析式AI

從功能上看,過去的分析式AI的應用主要是幫助人們進行預測,進而提升決策效率。儘管如此,這類AI可以獨立完成的任務並不多,也不能生成新的內容,在大多數時候,它充其量只能充當一個輔助角色。

而生成式AI則不同,除了擁有和分析式AI類似的預測功能外,它們還能根據決策獨立作出判斷、生成內容

因此,它們的應用潛力和經濟影響要比分析式AI大得多。

昨晚看東方衛視,已經用虛擬新聞主播擔任主持人。

Stable Diffusion && GAN - 天天要聞

生成式AI的幾個模型

目前,生成式AI主要有這五大模型:vaes、GANs、Diffusion、Transformers、NeRFs。

1、VAEs

使用編碼器-解碼器架構來生成新數據,通常用於圖像和視頻生成,例如生成用於隱私保護的合成人臉。

2、GANs

使用生成器和鑒別器來生成新數據,通常用於視頻遊戲開發中以創建逼真的遊戲角色。

3、Diffusion

添加然後消除噪聲以生成具有高細節水平的高質量圖像,從而創建近乎逼真的自然場景圖像。

4、Transformers

可以有效地並行處理順序數據,以進行機器翻譯、文本摘要和圖像創建。

5、NeRFs

提供了一種使用神經表示的3D場景重建的新方法。

實際場景中,經常會將以上結合使用。比如OpenAI Sora就集成了Diffusion模型和Transformer模型。

什麼是Stable Diffusion

Stable Diffusion是一種潛在擴散模型,2022年發佈的深度學習文本到圖像生成模型。它主要用於根據文本的描述產生詳細圖像,儘管它也可以應用於其他任務,如內補繪製、外補繪製,以及在提示詞指導下產生圖生圖的轉變。

源代碼和模型權重已分別公開發佈在GitHub和Hugging Face,可以在我們有GPU的電腦硬件上本地運行。

以前的專有文生圖模型(如DALL-E和Midjourney)只能通過雲計算服務訪問。

它是一種使用擴散過程逐步細化噪聲源來生成合成數據的方法。該方法涉及將潛在噪聲向量迭代地轉換為目標信號。

由3個部分組成:變分自編碼器(VAE)、U-Net和一個文本編碼器。

Stable Diffusion && GAN - 天天要聞

Stable Diffusion建議在10GB以上的顯存(GDDR或HBM)下運行。

擴散模型所用的去噪過程如下所示:

Stable Diffusion && GAN - 天天要聞

什麼是GAN

生成對抗網絡(Generative Adversarial Network)是非監督式學習的一種方法,通過兩個神經網絡相互博弈的方式進行學習。

該方法由伊恩·古德費洛等人於2014年提出。GAN背後的基本思想是它們涉及兩個神經網絡:生成器判別器

生成網絡從潛在空間(latentspace)中隨機取樣作為輸入,其輸出結果需要盡量模仿訓練集中的真實樣本。

判別網絡的輸入則為真實樣本或生成網絡的輸出,其目的是將生成網絡的輸出從真實樣本中儘可能分辨出來。

而生成網絡則要儘可能地欺騙判別網絡。

兩個網絡相互對抗、不斷調整參數,最終目的是使判別網絡無法判斷生成網絡的輸出結果是否真實。

GAN 工作原理如下圖所示:

Stable Diffusion && GAN - 天天要聞

Diffusion與GAN的不同點

雖然Stable Diffusion和GAN之間有一些相似之處,例如它們都專註於生成合成數據,但也存在一些關鍵差異,使這兩種方法彼此不同。

1、穩定擴散是一種自監督方法,可以從自身的迭代細化過程中學習,而GAN則涉及生成器和判別器

2、穩定擴散被設計為在連續的潛在空間中運行,而GAN在離散的像素空間中運行。

Diffusion試用

from diffusers import DiffusionPipeline
import torch

#加載base&refiner
base = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0", torch_dtype=torch.float16, variant="fp16", use_safetensors=True
)
base.to("cuda")
refiner = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-refiner-1.0",
    text_encoder_2=base.text_encoder_2,
    vae=base.vae,
    torch_dtype=torch.float16,
    use_safetensors=True,
    variant="fp16",
)
refiner.to("cuda")

#定義步驟數和百分比(80/20)
n_steps = 40
high_noise_frac = 0.8

# 生成一個梵高風格的西安鐘樓照片
prompt = "Generate a photo of the Xi'an Bell Tower in the style of Van Gogh"

# 運行
image = base(
    prompt=prompt,
    num_inference_steps=n_steps,
    denoising_end=high_noise_frac,
    output_type="latent",
).images
image = refiner(
    prompt=prompt,
    num_inference_steps=n_steps,
    denoising_start=high_noise_frac,
    image=image,
).images[0]

生成效果

Stable Diffusion && GAN - 天天要聞

科技分類資訊推薦

11家創新公司亮相金隅智薈中心,共探智能製造新機遇 - 天天要聞

11家創新公司亮相金隅智薈中心,共探智能製造新機遇

當前,全球製造業正邁向一個全新的階段。人工智能、物聯網、數字孿生以及生成式 AI 等技術的飛速發展,為製造業帶來了前所未有的變革機遇。從智能工廠到 Industry 5.0 的人機協同模式,智能製造正在重新定義生產效率、創新能力與可持續發展路徑。為了深度發掘智能製造領域的新銳力量,助力優秀企業加速成長,2025 年 6 月 ...
香港首條無人機配送航線運營,跨海送餐僅5分鐘 - 天天要聞

香港首條無人機配送航線運營,跨海送餐僅5分鐘

昨日(6日)香港首條常態化無人機配送航線正式投入運營香港警方首次開展無人機巡邏香港「低空經濟」發展更進一步無人機送餐迎首飛美食5分鐘「從天而降」記者在現場看到,香港首條常態化無人機配送航線選擇「跨海+公園」場景,從香港科學園起飛,降落在馬鞍山海濱長廊,跨海飛行需約5分鐘,對比傳統騎行配送方式效率提升近7...
美團無人機開通香港首條常態化航線,麥當勞必勝客等接入服務 - 天天要聞

美團無人機開通香港首條常態化航線,麥當勞必勝客等接入服務

近日,美團無人機宣布,在香港低空經濟監管沙盒框架下,公司首條常態化航線正式投入運營。新航線設在「跨海+公園」場景,無人機會由香港科學園起飛,降落在馬鞍山海濱長廊,目前已有香港麥當勞、必勝客等商戶接入服務。美團副總裁、無人機業務負責人毛一年表示:「我們首條航線選擇『跨海+公園』場景,是因為這一場景在香港...
聚信傳媒助力萬人就業,龍哥:用直播經濟賦能普通人逆襲 - 天天要聞

聚信傳媒助力萬人就業,龍哥:用直播經濟賦能普通人逆襲

近日,曾創造「9個月開店1200家、營收48億」商業傳奇的企業家龍哥再度出山,公開力挺聚信傳媒。他表示,聚信不僅是一家直播機構,更是一個幫助普通人實現逆襲的平台。 據龍哥透露,他加入聚信後已幫助1.5萬人解決就業問題,其中不乏負債者、失業人員甚至「黑戶」。通過聚信的免費培訓體系,許多人在3-5天內就能在抖音實現變...
工號02494429京東外賣全職騎手程小沖:急送合肥高考學生取證,助其順利開考 - 天天要聞

工號02494429京東外賣全職騎手程小沖:急送合肥高考學生取證,助其順利開考

6月7日高考首日,全國各地考點外出現一抹靚麗的京東紅!高考期間,京東外賣在全國近50城數百個考點組建全職騎手助考應急小隊,為送考途中忘帶證件、文具,或因交通原因影響考生和家長,在確保配送安全的前提下,免費提供幫助。合肥三中考點外,一位考生忘帶身份證,向京東外賣全職騎手小隊求助,騎手程師傅第一時間載他回去...
手機內存多大採購,128GB還能買嗎?還是直接沖1TB? - 天天要聞

手機內存多大採購,128GB還能買嗎?還是直接沖1TB?

多大才夠?這首先取決於你的預算和應用場景。當年在某輕奢消費類社區裏面,二手區賣得最多的就是16GB內存的iphone。這就是典型的丐版買回來不夠用,逼着出掉的問題。現在iphone的大內存版本還是挺貴的,但安卓陣營的門檻倒是低不少。那麼,我
【市場】618國內高端手機賣的咋樣?銷量排行 - 天天要聞

【市場】618國內高端手機賣的咋樣?銷量排行

昨天分析機構公布了2025年Q1全球手機800美元+暢銷機型TOP20,蘋果上榜五款,華為上榜八款,三星/谷歌上榜三款。那麼今天讓我們來看看國內市場京東618活動期間,高端市場的銷量如何吧:4000~5999元,累計榜TOP1~5:iPhone16,小米15,iPhone15,華為Mate70 Pro,一加13TOP6~10:華為Pura70,iPhone1
天璣8400+7620mAh大電池,vivo這款新機挺能打,1529能到手! - 天天要聞

天璣8400+7620mAh大電池,vivo這款新機挺能打,1529能到手!

藍廠這幾年可謂是風生水起了!各個產品線都有優秀的產品的同時,也徹底擺脫了「低配高價」的廠妹機頭銜,比如,咱們今天要給大家種草的這款vivo Y系列機型--vivo Y300 GT就是這樣一款性價比還不錯的產品。從廠家的命名大家應該也能看出端倪了吧?「GT」的意思就是偏電競的意思,Y系列要做入門電競產品這你敢信?先來看設計...