VQ-VAE

Nov 9, 2025

notes julyfun 技术学习 models

1 Minutes

104 Words

see: https://kexue.fm/archives/6760

note:

codebook 的目的是离散建模，以适用于 PixelCNN 这样的分类网络.
每个像素会映射到 codebook 中的一个，保留着位置结构。

1
训练:
2
x -> [Encoder (CNN)] -> z (m * m * d)
3
同时 PixelCNN 输入 z 的前 n 个，预测第 n + 1 个（建模 z 分布）
4
同时 z -> [Decoder CNN] -> x
5

6
生成:
7
PixelCNN 自回归生成 m * m * d 的矩阵 -> Decoder -> x

MIT 6.S184 Flow and diffusion

FiLM

Article title：VQ-VAE

Article author：Julyfun

Release time：Nov 9, 2025

Original link：https://how-to.fun/blog/notes/julyfun/技术学习/models/vq-vae

懒得换图标

Sitemap