文生图大模型详细讲解-风棱跨境网

1、引言

跨模态大模型是指能够在不同感官模态(如视觉、语言、音频等)之间进行信息转换的大规模语言模型。当前图文跨模态大模型主要有：

今天主要讨论Stable Diffusion，首先让我们看一下，Stable Diffusion能做什么呢？

最简单的形式：给它一个文本提示(Text Prompt) ，它将返回与文本匹配的图像。
除此之外，Stable Diffusion还可以用于图像超分、图像修复、样本生成等领域。

Stable Diffusion的发展历程，主要经过如下三个阶段：

DDPM：无条件图片生成（不支持文本提示）
LDM：有条件图片生成（支持文本等其他形式提示）
Stable Diffusion：基于LDM发展而成的强大的文生图大模型

接下来，本文将按照Stable Diffusion的发展历程展开讲解！

2、DDPM

2.1 概要

Denoising Diffusion Probabilistic Models（去噪概率扩散模型，DDPM）在图像生成领域具有里程碑的意义，当前一些主流的文本转图像模型如DALL·E 2、stable-diffusion 和 Imagen 均采用了扩散模型（Diffusion Model）作为图像生成模型，这也引发了对扩散模型的研究热潮。相比传统的GAN来说，扩散模型训练更稳定，而且能够生成更多样的样本。

2.2 基本原理

**任务：**从随机“向量”到真实图像的生成。和GAN不同的是，DDPM的输入和输出形状是一样的。

动机：DDPM的核心动机，如果我们一点一点地往图像中加噪声，直到把它变成高斯噪声；然后我们把所有加噪的过程逆过来，就可以把高斯分布映射成真实图像的分布。

做法：基于以上动机，作者就设置了如图的加噪声过程（diffusion）和去噪过程（denoising），作者假设加噪过程是个马尔可夫过程，即当前状态只跟上一个状态相关。

扩散模型包括两个过程：

前向过程（扩散，加噪）：对原图x0逐渐增加高斯噪音直至数据变成随机噪音的过程。
反向过程（去噪）：是一个去噪的过程，如果知道反向过程的每一步噪声的真实分布，那么从一个随机噪音N(0, 1)开始，逐渐去噪就能生成一个真实的样本。

简单来讲，图像生成的过程，就是一个去噪的过程；因此扩散模型的关键在于学习图像在前向过程中加入的噪声。

前向过程中，从原图x0到x1，x1到x2，最后到的过程，可以用如下公式表示：

式中，xt-1表示第t-1步的噪声图，xt表示第t步的噪声图。理论上，已知x0和 t，可以通过一步步推导获得xt，但是实际上，这种方式比较耗费计算资源。因此作者通过一种方式（重参数化技巧），能实现x0到xt的直接计算，这样就能节省大量资源，如下如所示：如果能从x0直接到x4，就不需要从x1到x2到x3再到x4。

2.3 重参数化

扩散过程的一个重要特性是可以直接基于原始数据x0来对任意t步的xt**进行采样。**在扩散阶段，根据重参数化，可以推导出x0到xt的直接公式：

扩散过程的这个特性很重要。首先，我们可以看到xt其实可以看成是原始数据x0和随机噪音ϵ的线性组合ÿ

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。