Stable Diffusion && GAN

2024年03月10日23:25:20 科技 1409

背景

生成式AI兴起之前,市场上的AI产品主要是分析式AI

从功能上看,过去的分析式AI的应用主要是帮助人们进行预测,进而提升决策效率。尽管如此,这类AI可以独立完成的任务并不多,也不能生成新的内容,在大多数时候,它充其量只能充当一个辅助角色。

而生成式AI则不同,除了拥有和分析式AI类似的预测功能外,它们还能根据决策独立作出判断、生成内容

因此,它们的应用潜力和经济影响要比分析式AI大得多。

昨晚看东方卫视,已经用虚拟新闻主播担任主持人。

Stable Diffusion && GAN - 天天要闻

生成式AI的几个模型

目前,生成式AI主要有这五大模型:vaes、GANs、Diffusion、Transformers、NeRFs。

1、VAEs

使用编码器-解码器架构来生成新数据,通常用于图像和视频生成,例如生成用于隐私保护的合成人脸。

2、GANs

使用生成器和鉴别器来生成新数据,通常用于视频游戏开发中以创建逼真的游戏角色。

3、Diffusion

添加然后消除噪声以生成具有高细节水平的高质量图像,从而创建近乎逼真的自然场景图像。

4、Transformers

可以有效地并行处理顺序数据,以进行机器翻译、文本摘要和图像创建。

5、NeRFs

提供了一种使用神经表示的3D场景重建的新方法。

实际场景中,经常会将以上结合使用。比如OpenAI Sora就集成了Diffusion模型和Transformer模型。

什么是Stable Diffusion

Stable Diffusion是一种潜在扩散模型,2022年发布的深度学习文本到图像生成模型。它主要用于根据文本的描述产生详细图像,尽管它也可以应用于其他任务,如内补绘制、外补绘制,以及在提示词指导下产生图生图的转变。

源代码和模型权重已分别公开发布在GitHub和Hugging Face,可以在我们有GPU的电脑硬件上本地运行。

以前的专有文生图模型(如DALL-E和Midjourney)只能通过云计算服务访问。

它是一种使用扩散过程逐步细化噪声源来生成合成数据的方法。该方法涉及将潜在噪声向量迭代地转换为目标信号。

由3个部分组成:变分自编码器(VAE)、U-Net和一个文本编码器。

Stable Diffusion && GAN - 天天要闻

Stable Diffusion建议在10GB以上的显存(GDDR或HBM)下运行。

扩散模型所用的去噪过程如下所示:

Stable Diffusion && GAN - 天天要闻

什么是GAN

生成对抗网络(Generative Adversarial Network)是非监督式学习的一种方法,通过两个神经网络相互博弈的方式进行学习。

该方法由伊恩·古德费洛等人于2014年提出。GAN背后的基本思想是它们涉及两个神经网络:生成器判别器

生成网络从潜在空间(latentspace)中随机取样作为输入,其输出结果需要尽量模仿训练集中的真实样本。

判别网络的输入则为真实样本或生成网络的输出,其目的是将生成网络的输出从真实样本中尽可能分辨出来。

而生成网络则要尽可能地欺骗判别网络。

两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。

GAN 工作原理如下图所示:

Stable Diffusion && GAN - 天天要闻

Diffusion与GAN的不同点

虽然Stable Diffusion和GAN之间有一些相似之处,例如它们都专注于生成合成数据,但也存在一些关键差异,使这两种方法彼此不同。

1、稳定扩散是一种自监督方法,可以从自身的迭代细化过程中学习,而GAN则涉及生成器和判别器

2、稳定扩散被设计为在连续的潜在空间中运行,而GAN在离散的像素空间中运行。

Diffusion试用

from diffusers import DiffusionPipeline
import torch

#加载base&refiner
base = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0", torch_dtype=torch.float16, variant="fp16", use_safetensors=True
)
base.to("cuda")
refiner = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-refiner-1.0",
    text_encoder_2=base.text_encoder_2,
    vae=base.vae,
    torch_dtype=torch.float16,
    use_safetensors=True,
    variant="fp16",
)
refiner.to("cuda")

#定义步骤数和百分比(80/20)
n_steps = 40
high_noise_frac = 0.8

# 生成一个梵高风格的西安钟楼照片
prompt = "Generate a photo of the Xi'an Bell Tower in the style of Van Gogh"

# 运行
image = base(
    prompt=prompt,
    num_inference_steps=n_steps,
    denoising_end=high_noise_frac,
    output_type="latent",
).images
image = refiner(
    prompt=prompt,
    num_inference_steps=n_steps,
    denoising_start=high_noise_frac,
    image=image,
).images[0]

生成效果

Stable Diffusion && GAN - 天天要闻

科技分类资讯推荐

离开中国的铃木,现在还在海外推出新车? - 天天要闻

离开中国的铃木,现在还在海外推出新车?

铃木原厂在 2024 年 11 月初时正式发布品牌首款纯电产品 e Vitara,亦为纯电概念车 eVX 的量产版,动力规格上拥有前驱与四驱设定、电池容量有着 49kWh 和 61kWh 规格,新车将会是印度制的身份来销售,并将在夏季于欧洲、印度和日本等市场上
携充电宝乘机新规发布,深圳机场可提供7天暂存 - 天天要闻

携充电宝乘机新规发布,深圳机场可提供7天暂存

6月28日起,深圳机场开始执行民航局紧急通知的要求,禁止旅客携带没有3C标识、3C标识不清晰、被召回型号或批次的充电宝乘坐境内航班。新规施行首日,深圳机场多措并举,在严格落实局方要求的同时,尽可能为旅客现场处置不能携带的充电宝提供便利,同时增派人员,确保现场运行平稳有序。在深圳机场航站楼内,从出发层入口到...
让机器人触觉达人手800倍,上海交大教授正加速机器人“就业上岗”速度 - 天天要闻

让机器人触觉达人手800倍,上海交大教授正加速机器人“就业上岗”速度

“机器人的功能再炫酷,最终还是得能‘用’。”上海交通大学船舶海洋与建筑工程学院长聘副教授马道林,一直致力于解决具身智能发展的难点——触觉,这正是机器人能“用”的基础。马道林关于这一研究的论文在全球顶级学术会议——国际机器人与自动化大会(ICRA)上获最佳论文奖,这是4000多篇参会论文中的唯一。而他去年5月...
特斯拉:已在中国大陆地区开放超2100座超级充电站 - 天天要闻

特斯拉:已在中国大陆地区开放超2100座超级充电站

【环球网科技综合报道】6月29日消息,特斯拉日前宣布,其全球超级充电桩已突破7万根。截至目前,中国大陆地区已建设开放超2100座特斯拉超级充电站,逾11600根特斯拉超级充电桩,配合超2500根目的地充电桩。特斯拉充电网络的布局也已经100%覆盖了中国大陆的所有省会城市及直辖市。特斯拉此前曾宣布,中国市场首批V4超级充电...
英伟达新高下,AI服务器业“卖身”求生与算力“价格崩塌” - 天天要闻

英伟达新高下,AI服务器业“卖身”求生与算力“价格崩塌”

【环球网财经综合报道】本周英伟达股价刷新历史新高,黄仁勋称推理需更多算力,然而AI服务器业内却暗流涌动。东方IC近期,AI服务器业内变动频繁。6月20日晚,杰美特公告筹划现金购买思腾合力控制权,可能构成重大资产重组,交易完成后将拓展算力相关业务能力。5月19日晚,慧博云通披露预案,拟收购宝德计算机67.91%股份并募...
荣耀 400 系列手机全球累计激活量突破 100 万台 - 天天要闻

荣耀 400 系列手机全球累计激活量突破 100 万台

IT之家 6 月 29 日消息,据博主 @旺仔百事通 分享,荣耀 400 系列全球累计激活量突破 100 万台,打破近三年荣耀手机激活量最快破百万记录。据IT之家此前报道,今年 5 月,荣耀 400 / 400 Pro 手机发布,新机搭载 2 亿超清写真人像主摄,分别采用骁龙 7 Gen4 处理器和骁龙 8 Gen3 处理器、同时全系配备 7200mAh 第
下一代DNS发展论坛 | 冯登国:构建自主可控的RPKI及安全路由机制 - 天天要闻

下一代DNS发展论坛 | 冯登国:构建自主可控的RPKI及安全路由机制

2025年6月26日,以“网络根基 中国贡献”为主题的第四届下一代DNS发展论坛在京举行。本届论坛,由中国互联网协会、中国通信标准化协会指导,互联网域名系统国家地方联合工程研究中心(ZDNS)与互联网域名管理技术国家工程实验室联合主办。主论坛上,冯登国教授围绕《RPKI:认识与思考》作主题报告。 RPKI:确保路由通告真实...
民航局“3C禁令”引发充电宝行业格局重塑 - 天天要闻

民航局“3C禁令”引发充电宝行业格局重塑

【环球网财经综合报道】日前,民航局发布“3C禁令”,禁止携带无3C标识及被召回的充电宝上境内航班,收紧了对充电宝的航空安全管控,国内多地机场已明确将按此规定实施。这一禁令“击中”充电宝主要使用场景,影响重大。民航局官网截图我国自2023年8月1日起对充电宝实施3C认证管理,2024年8月1日起,未获认证证书和标注认证...