扩散模型之(十四) Latent space 与 Latent Diffusion

张开发
2026/5/23 12:35:43 15 分钟阅读
扩散模型之(十四) Latent space 与 Latent Diffusion
1. 概述潜在扩散模型(LDM;RombachBlattmann等人,2022)在潜在空间而非像素空间中进行扩散过程,从而降低了训练成本并加快了推理速度。其灵感来源于这样的观察:图像的大部分比特对感知细节有贡献,而在进行激进压缩后,语义和概念构成仍然保留。LDM通过生成式建模学习,将感知压缩和语义压缩松散地分解,首先利用自编码器去除像素级冗余,然后在学习到的潜在空间上通过扩散过程操纵/生成语义概念。图1 压缩率与失真之间tradeoff的曲线图展示两阶段压缩--感知压缩和语义压缩感知压缩过程依赖于自编码器模型。编码器E用于将输入图像xR#XWX3压缩为较小的二维潜在向量zE(x)ERhxwxe,其中下采样率fH/hW/w 2m, m N。然后解码器D从潜在向量重构图像,xD(z)。论文探讨了自编码器训练中的两种正则化方法,以避免潜在空间中出现任意高的方差。KL-reg:对学习到的潜在变量施加一个小的KL惩罚,使其趋向于标准正态分布,类似于VAE。VQ-reg:在解码器中使用向量量化层,类似于VQVAE,但量化层被解码器吸收扩散和去噪过程发生在潜在向量上。去噪模型是一个时间条件化的U-Net,通过交叉注意力机制增强,以处理图像生成的灵活条件信息(例如类别标签、语义图、图像的模糊变体)。该设计等同于通过交叉注意力机制将不同模态的表示融合到模型中。每种类型的条件信息都与特定领域的编码器配对,以将条件输入投影到一个中间表示,该中间表示可以映射到交叉注意力组件中.图 2 latent diffusion model (LDM)架构图

更多文章