Stable Diffusion && GAN

2024年03月10日23:25:20 科技 1409

背景

生成式AI興起之前,市場上的AI產品主要是分析式AI

從功能上看,過去的分析式AI的應用主要是幫助人們進行預測,進而提升決策效率。儘管如此,這類AI可以獨立完成的任務並不多,也不能生成新的內容,在大多數時候,它充其量只能充當一個輔助角色。

而生成式AI則不同,除了擁有和分析式AI類似的預測功能外,它們還能根據決策獨立作出判斷、生成內容

因此,它們的應用潛力和經濟影響要比分析式AI大得多。

昨晚看東方衛視,已經用虛擬新聞主播擔任主持人。

Stable Diffusion && GAN - 天天要聞

生成式AI的幾個模型

目前,生成式AI主要有這五大模型:vaes、GANs、Diffusion、Transformers、NeRFs。

1、VAEs

使用編碼器-解碼器架構來生成新數據,通常用於圖像和視頻生成,例如生成用於隱私保護的合成人臉。

2、GANs

使用生成器和鑒別器來生成新數據,通常用於視頻遊戲開發中以創建逼真的遊戲角色。

3、Diffusion

添加然後消除噪聲以生成具有高細節水平的高質量圖像,從而創建近乎逼真的自然場景圖像。

4、Transformers

可以有效地並行處理順序數據,以進行機器翻譯、文本摘要和圖像創建。

5、NeRFs

提供了一種使用神經表示的3D場景重建的新方法。

實際場景中,經常會將以上結合使用。比如OpenAI Sora就集成了Diffusion模型和Transformer模型。

什麼是Stable Diffusion

Stable Diffusion是一種潛在擴散模型,2022年發佈的深度學習文本到圖像生成模型。它主要用於根據文本的描述產生詳細圖像,儘管它也可以應用於其他任務,如內補繪製、外補繪製,以及在提示詞指導下產生圖生圖的轉變。

源代碼和模型權重已分別公開發佈在GitHub和Hugging Face,可以在我們有GPU的電腦硬件上本地運行。

以前的專有文生圖模型(如DALL-E和Midjourney)只能通過雲計算服務訪問。

它是一種使用擴散過程逐步細化噪聲源來生成合成數據的方法。該方法涉及將潛在噪聲向量迭代地轉換為目標信號。

由3個部分組成:變分自編碼器(VAE)、U-Net和一個文本編碼器。

Stable Diffusion && GAN - 天天要聞

Stable Diffusion建議在10GB以上的顯存(GDDR或HBM)下運行。

擴散模型所用的去噪過程如下所示:

Stable Diffusion && GAN - 天天要聞

什麼是GAN

生成對抗網絡(Generative Adversarial Network)是非監督式學習的一種方法,通過兩個神經網絡相互博弈的方式進行學習。

該方法由伊恩·古德費洛等人於2014年提出。GAN背後的基本思想是它們涉及兩個神經網絡:生成器判別器

生成網絡從潛在空間(latentspace)中隨機取樣作為輸入,其輸出結果需要盡量模仿訓練集中的真實樣本。

判別網絡的輸入則為真實樣本或生成網絡的輸出,其目的是將生成網絡的輸出從真實樣本中儘可能分辨出來。

而生成網絡則要儘可能地欺騙判別網絡。

兩個網絡相互對抗、不斷調整參數,最終目的是使判別網絡無法判斷生成網絡的輸出結果是否真實。

GAN 工作原理如下圖所示:

Stable Diffusion && GAN - 天天要聞

Diffusion與GAN的不同點

雖然Stable Diffusion和GAN之間有一些相似之處,例如它們都專註於生成合成數據,但也存在一些關鍵差異,使這兩種方法彼此不同。

1、穩定擴散是一種自監督方法,可以從自身的迭代細化過程中學習,而GAN則涉及生成器和判別器

2、穩定擴散被設計為在連續的潛在空間中運行,而GAN在離散的像素空間中運行。

Diffusion試用

from diffusers import DiffusionPipeline
import torch

#加載base&refiner
base = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0", torch_dtype=torch.float16, variant="fp16", use_safetensors=True
)
base.to("cuda")
refiner = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-refiner-1.0",
    text_encoder_2=base.text_encoder_2,
    vae=base.vae,
    torch_dtype=torch.float16,
    use_safetensors=True,
    variant="fp16",
)
refiner.to("cuda")

#定義步驟數和百分比(80/20)
n_steps = 40
high_noise_frac = 0.8

# 生成一個梵高風格的西安鐘樓照片
prompt = "Generate a photo of the Xi'an Bell Tower in the style of Van Gogh"

# 運行
image = base(
    prompt=prompt,
    num_inference_steps=n_steps,
    denoising_end=high_noise_frac,
    output_type="latent",
).images
image = refiner(
    prompt=prompt,
    num_inference_steps=n_steps,
    denoising_start=high_noise_frac,
    image=image,
).images[0]

生成效果

Stable Diffusion && GAN - 天天要聞

科技分類資訊推薦

離開中國的鈴木,現在還在海外推出新車? - 天天要聞

離開中國的鈴木,現在還在海外推出新車?

鈴木原廠在 2024 年 11 月初時正式發佈品牌首款純電產品 e Vitara,亦為純電概念車 eVX 的量產版,動力規格上擁有前驅與四驅設定、電池容量有着 49kWh 和 61kWh 規格,新車將會是印度制的身份來銷售,並將在夏季於歐洲、印度和日本等市場上
攜充電寶乘機新規發佈,深圳機場可提供7天暫存 - 天天要聞

攜充電寶乘機新規發佈,深圳機場可提供7天暫存

6月28日起,深圳機場開始執行民航局緊急通知的要求,禁止旅客攜帶沒有3C標識、3C標識不清晰、被召回型號或批次的充電寶乘坐境內航班。新規施行首日,深圳機場多措並舉,在嚴格落實局方要求的同時,儘可能為旅客現場處置不能攜帶的充電寶提供便利,同時增派人員,確保現場運行平穩有序。在深圳機場航站樓內,從出發層入口到...
讓機械人觸覺達人手800倍,上海交大教授正加速機械人「就業上崗」速度 - 天天要聞

讓機械人觸覺達人手800倍,上海交大教授正加速機械人「就業上崗」速度

「機械人的功能再炫酷,最終還是得能『用』。」上海交通大學船舶海洋與建築工程學院長聘副教授馬道林,一直致力於解決具身智能發展的難點——觸覺,這正是機械人能「用」的基礎。馬道林關於這一研究的論文在全球頂級學術會議——國際機械人與自動化大會(ICRA)上獲最佳論文獎,這是4000多篇參會論文中的唯一。而他去年5月...
特斯拉:已在中國大陸地區開放超2100座超級充電站 - 天天要聞

特斯拉:已在中國大陸地區開放超2100座超級充電站

【環球網科技綜合報道】6月29日消息,特斯拉日前宣布,其全球超級充電樁已突破7萬根。截至目前,中國大陸地區已建設開放超2100座特斯拉超級充電站,逾11600根特斯拉超級充電樁,配合超2500根目的地充電樁。特斯拉充電網絡的布局也已經100%覆蓋了中國大陸的所有省會城市及直轄市。特斯拉此前曾宣布,中國市場首批V4超級充電...
英偉達新高下,AI服務器業「賣身」求生與算力「價格崩塌」 - 天天要聞

英偉達新高下,AI服務器業「賣身」求生與算力「價格崩塌」

【環球網財經綜合報道】本周英偉達股價刷新歷史新高,黃仁勛稱推理需更多算力,然而AI服務器業內卻暗流涌動。東方IC近期,AI服務器業內變動頻繁。6月20日晚,傑美特公告籌劃現金購買思騰合力控制權,可能構成重大資產重組,交易完成後將拓展算力相關業務能力。5月19日晚,慧博雲通披露預案,擬收購寶德計算機67.91%股份並募...
榮耀 400 系列手機全球累計激活量突破 100 萬台 - 天天要聞

榮耀 400 系列手機全球累計激活量突破 100 萬台

IT之家 6 月 29 日消息,據博主 @旺仔百事通 分享,榮耀 400 系列全球累計激活量突破 100 萬台,打破近三年榮耀手機激活量最快破百萬記錄。據IT之家此前報道,今年 5 月,榮耀 400 / 400 Pro 手機發佈,新機搭載 2 億超清寫真人像主攝,分別採用驍龍 7 Gen4 處理器和驍龍 8 Gen3 處理器、同時全系配備 7200mAh 第
下一代DNS發展論壇 | 馮登國:構建自主可控的RPKI及安全路由機制 - 天天要聞

下一代DNS發展論壇 | 馮登國:構建自主可控的RPKI及安全路由機制

2025年6月26日,以「網絡根基 中國貢獻」為主題的第四屆下一代DNS發展論壇在京舉行。本屆論壇,由中國互聯網協會、中國通信標準化協會指導,互聯網域名系統國家地方聯合工程研究中心(ZDNS)與互聯網域名管理技術國家工程實驗室聯合主辦。主論壇上,馮登國教授圍繞《RPKI:認識與思考》作主題報告。 RPKI:確保路由通告真實...
民航局「3C禁令」引發充電寶行業格局重塑 - 天天要聞

民航局「3C禁令」引發充電寶行業格局重塑

【環球網財經綜合報道】日前,民航局發佈「3C禁令」,禁止攜帶無3C標識及被召回的充電寶上境內航班,收緊了對充電寶的航空安全管控,國內多地機場已明確將按此規定實施。這一禁令「擊中」充電寶主要使用場景,影響重大。民航局官網截圖我國自2023年8月1日起對充電寶實施3C認證管理,2024年8月1日起,未獲認證證書和標註認證...