1、引言
跨模态大模型是指能够在不同感官模态(如视觉、语言、音频等)之间进行信息转换的大规模语言模型。当前图文跨模态大模型主要有:
今天主要讨论Stable Diffusion,首先让我们看一下,Stable Diffusion能做什么呢?
-
最简单的形式:给它一个文本提示(Text Prompt) ,它将返回与文本匹配的图像。
-
除此之外,Stable Diffusion还可以用于图像超分、图像修复、样本生成等领域。
Stable Diffusion的发展历程,主要经过如下三个阶段:
-
DDPM:无条件图片生成(不支持文本提示)
-
LDM:有条件图片生成(支持文本等其他形式提示)
-
Stable Diffusion:基于LDM发展而成的强大的文生图大模型
接下来,本文将按照Stable Diffusion的发展历程展开讲解!
2、DDPM
2.1 概要
Denoising Diffusion Probabilistic Models(去噪概率扩散模型,DDPM)在图像生成领域具有里程碑的意义,当前一些主流的文本转图像模型如DALL·E 2、stable-diffusion 和 Imagen 均采用了扩散模型(Diffusion Model)作为图像生成模型,这也引发了对扩散模型的研究热潮。相比传统的GAN来说,扩散模型训练更稳定,而且能够生成更多样的样本。
2.2 基本原理
**任务:**从随机“向量”到真实图像的生成。和GAN不同的是,DDPM的输入和输出形状是一样的。
动机:DDPM的核心动机,如果我们一点一点地往图像中加噪声,直到把它变成高斯噪声;然后我们把所有加噪的过程逆过来,就可以把高斯分布映射成真实图像的分布。
做法:基于以上动机,作者就设置了如图的加噪声过程(diffusion)和去噪过程(denoising),作者假设加噪过程是个马尔可夫过程,即当前状态只跟上一个状态相关。
扩散模型包括两个过程:
-
前向过程(扩散,加噪):对原图x0逐渐增加高斯噪音直至数据变成随机噪音的过程。
-
反向过程(去噪):是一个去噪的过程,如果知道反向过程的每一步噪声的真实分布,那么从一个随机噪音N(0, 1)开始,逐渐去噪就能生成一个真实的样本。
简单来讲,图像生成的过程,就是一个去噪的过程;因此扩散模型的关键在于学习图像在前向过程中加入的噪声。
前向过程中,从原图x0到x1,x1到x2,最后到的过程,可以用如下公式表示:
式中,xt-1表示第t-1步的噪声图,xt表示第t步的噪声图。理论上,已知x0和 t,可以通过一步步推导获得xt,但是实际上,这种方式比较耗费计算资源。因此作者通过一种方式(重参数化技巧),能实现x0到xt的直接计算,这样就能节省大量资源,如下如所示:如果能从x0直接到x4,就不需要从x1到x2到x3再到x4。
2.3 重参数化
扩散过程的一个重要特性是可以直接基于原始数据x0来对任意t步的xt**进行采样。**在扩散阶段,根据重参数化,可以推导出x0到xt的直接公式:
扩散过程的这个特性很重要。首先,我们可以看到xt其实可以看成是原始数据x0和随机噪音ϵ的线性组合ÿ
评论(0)