Stable Diffusion && GAN

2024年03月10日23:25:20 科技 1409

背景

在生成式AI兴起之前，市场上的AI产品主要是分析式AI。

从功能上看，过去的分析式AI的应用主要是帮助人们进行预测，进而提升决策效率。尽管如此，这类AI可以独立完成的任务并不多，也不能生成新的内容，在大多数时候，它充其量只能充当一个辅助角色。

而生成式AI则不同，除了拥有和分析式AI类似的预测功能外，它们还能根据决策独立作出判断、生成内容。

因此，它们的应用潜力和经济影响要比分析式AI大得多。

昨晚看东方卫视，已经用虚拟新闻主播担任主持人。

生成式AI的几个模型

目前，生成式AI主要有这五大模型：vaes、GANs、Diffusion、Transformers、NeRFs。

1、VAEs

使用编码器-解码器架构来生成新数据，通常用于图像和视频生成，例如生成用于隐私保护的合成人脸。

2、GANs

使用生成器和鉴别器来生成新数据，通常用于视频游戏开发中以创建逼真的游戏角色。

3、Diffusion

添加然后消除噪声以生成具有高细节水平的高质量图像，从而创建近乎逼真的自然场景图像。

4、Transformers

可以有效地并行处理顺序数据，以进行机器翻译、文本摘要和图像创建。

5、NeRFs

提供了一种使用神经表示的3D场景重建的新方法。

实际场景中，经常会将以上结合使用。比如OpenAI Sora就集成了Diffusion模型和Transformer模型。

什么是Stable Diffusion？

Stable Diffusion是一种潜在扩散模型，2022年发布的深度学习文本到图像生成模型。它主要用于根据文本的描述产生详细图像，尽管它也可以应用于其他任务，如内补绘制、外补绘制，以及在提示词指导下产生图生图的转变。

源代码和模型权重已分别公开发布在GitHub和Hugging Face，可以在我们有GPU的电脑硬件上本地运行。

以前的专有文生图模型（如DALL-E和Midjourney）只能通过云计算服务访问。

它是一种使用扩散过程逐步细化噪声源来生成合成数据的方法。该方法涉及将潜在噪声向量迭代地转换为目标信号。

由3个部分组成：变分自编码器（VAE）、U-Net和一个文本编码器。

Stable Diffusion建议在10GB以上的显存（GDDR或HBM）下运行。

扩散模型所用的去噪过程如下所示：

什么是GAN？

生成对抗网络（Generative Adversarial Network）是非监督式学习的一种方法，通过两个神经网络相互博弈的方式进行学习。

该方法由伊恩·古德费洛等人于2014年提出。GAN背后的基本思想是它们涉及两个神经网络：生成器和判别器。

生成网络从潜在空间（latentspace）中随机取样作为输入，其输出结果需要尽量模仿训练集中的真实样本。

判别网络的输入则为真实样本或生成网络的输出，其目的是将生成网络的输出从真实样本中尽可能分辨出来。

而生成网络则要尽可能地欺骗判别网络。

两个网络相互对抗、不断调整参数，最终目的是使判别网络无法判断生成网络的输出结果是否真实。

GAN 工作原理如下图所示：

Diffusion与GAN的不同点

虽然Stable Diffusion和GAN之间有一些相似之处，例如它们都专注于生成合成数据，但也存在一些关键差异，使这两种方法彼此不同。

1、稳定扩散是一种自监督方法，可以从自身的迭代细化过程中学习，而GAN则涉及生成器和判别器。

2、稳定扩散被设计为在连续的潜在空间中运行，而GAN在离散的像素空间中运行。

Diffusion试用

from diffusers import DiffusionPipeline
import torch

#加载base&refiner
base = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0", torch_dtype=torch.float16, variant="fp16", use_safetensors=True
)
base.to("cuda")
refiner = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-refiner-1.0",
    text_encoder_2=base.text_encoder_2,
    vae=base.vae,
    torch_dtype=torch.float16,
    use_safetensors=True,
    variant="fp16",
)
refiner.to("cuda")

#定义步骤数和百分比(80/20)
n_steps = 40
high_noise_frac = 0.8

# 生成一个梵高风格的西安钟楼照片
prompt = "Generate a photo of the Xi'an Bell Tower in the style of Van Gogh"

# 运行
image = base(
    prompt=prompt,
    num_inference_steps=n_steps,
    denoising_end=high_noise_frac,
    output_type="latent",
).images
image = refiner(
    prompt=prompt,
    num_inference_steps=n_steps,
    denoising_start=high_noise_frac,
    image=image,
).images[0]

生成效果

科技

涨价压不住、补贴够不着，这个五一6000元以上机型难住手机经销商 - 天天要闻

涨价压不住、补贴够不着，这个五一6000元以上机型难住手机经销商

图源：蓝鲸科技记者拍摄蓝鲸新闻5月3日讯(记者翟智超)按照往年惯例，五一劳动节是手机厂商集中促销、冲量的关键节点，但今年这场例行的“节前大促”却未能点燃消费热情。 5月2日下....

05月03日 7401

AI能否超越人类？中南大学院士，走进武钢三中，开讲“硬核”AI课 - 天天要闻

AI能否超越人类？中南大学院士，走进武钢三中，开讲“硬核”AI课

4月29日，在武汉市武钢三中的报告厅里，一场关于人工智能的科普报告正在进行。台上，中国工程院院士、中南大学教授桂卫华以“大模型与工业应用”为题，为高一学生揭开AI大模型的神秘面纱。桂卫华，中国工程院院士，中南大学教授、博士生导师。

05月03日 1895

引领科技豪华MPV新风尚第二代腾势D9西安车展亮相 - 天天要闻

引领科技豪华MPV新风尚第二代腾势D9西安车展亮相

兼具宜商气度与家用温情的科技豪华旗舰MPV，第二代腾势D9迎来西安地区正式亮相。新车依托全球新能源MPV冠军底蕴，以第二代刀片电池、双阀云辇-C、天神之眼5.0智驾等核心技术全面升级，兼顾商务体面与家庭舒适，为西北高端用户带来一站式全能出行解决方案。

05月03日 2042

采购禁入！科华数据材料造假被拒门外 - 天天要闻

采购禁入！科华数据材料造假被拒门外

本报（chinatimes.net.cn）记者胡雅文北京报道这家赶上AI算力风口的公司，因投标材料造假，被相关采购方列入禁入名单两年，其此前提出的复议申请也被正式驳回。相关采购平台近日发布公告，明确驳回科华数据股份有限公司（下称“科华数据”，002335.SZ）此前提交的复议申请。早在一年前，科华数据已被认定在“信息通信枢纽...

05月03日 9437

潮声丨“硅基”劳动节来了，揭秘AI智能体的“五一”劳动日志 - 天天要闻

潮声丨“硅基”劳动节来了，揭秘AI智能体的“五一”劳动日志

潮新闻客户端执笔夏丹吴柯沁五一小长假，当大多数人按下工作的暂停键，走进景区、海边或深山，城市与工地的另一端，一群没有血肉之躯的“硅基劳动者”正在高效运转。 2026年，一人公司（O....

05月03日 7667

马斯克手撕OpenAI：一场“初心”保卫战，还是富人的“酸葡萄”？ - 天天要闻

马斯克手撕OpenAI：一场“初心”保卫战，还是富人的“酸葡萄”？

如果你最近打开科技新闻，大概率会被一条消息刷屏——马斯克又开炮了，这次对准的是他亲手参与创办、又亲手甩手离开的OpenAI。不是暗戳戳发条推特阴阳怪气，而是直接递上法律文书，把Sam Altman和Greg Brockman告上法庭。

05月03日 1848

五一25城车展，ID. 与众家族齐亮相，购车权益最高享5.6万 - 天天要闻

五一25城车展，ID. 与众家族齐亮相，购车权益最高享5.6万

五一假期（4月30日到5月5日），大众ID. 与众家族将带着全系车型，在全国25个城市的五一车展上集中亮相。届时，包括全时互联全尺寸纯电SUV与众08、锋芒智趣纯电SUV与众06在内的多款车型都会来到现场，和消费者零距离接触。

05月03日 6759

快评乐道L80：15万元级买大五座，这波值得冲？ - 天天要闻

快评乐道L80：15万元级买大五座，这波值得冲？

日前，乐道L80正式发布并开启预售，其整车购买预售价为24.58万元起，租电购买预售价则低至15.98万元起。面对大型SUV市场“细分再细分”之竞争趋势，这款乐道年度重磅新车都有哪些优势？又能否成为“大五座SUV革新之作”？下面，圈哥就带大家全方位感受。

05月03日 8240

成都直击凯威德：纯电全尺寸SUV的张扬与大气 - 天天要闻

成都直击凯威德：纯电全尺寸SUV的张扬与大气

4月22日，凯迪拉克以奥斯卡级盛典规格，将上海保利大剧院点亮为璀璨舞台，在品牌代言人倪妮与全场嘉宾的共同见证下，凯迪拉克全尺寸纯电公路旗舰——凯威德耀然上市。新车共推出长续航四驱Pro、高性能四驱Ultra两款配置，官方售价区间为46.88万-50.88万元。

05月03日 6713

空气炸锅哪个品牌最好？2026十大品牌排行榜深度横评，谁最靠谱 - 天天要闻

空气炸锅哪个品牌最好？2026十大品牌排行榜深度横评，谁最靠谱

夏天想靠空气炸锅做减脂餐，结果西兰花烤得又干又苦，鸡胸肉外焦里生。经过2026年4月空气炸锅十大品牌排行榜深度横评，综合材质、温控、耐用性和口碑数据，排名第一的空气炸锅是宫菱FXGONNE——靠口碑2年间卖了20多万台，属于懂行圈子里的高口

05月03日 1728