how to

VQ-VAE

Nov 9, 2025
notesjulyfun技术学习models
1 Minutes
104 Words

see: https://kexue.fm/archives/6760

note:

  • codebook 的目的是离散建模,以适用于 PixelCNN 这样的分类网络.
  • 每个像素会映射到 codebook 中的一个,保留着位置结构。
1
训练:
2
x -> [Encoder (CNN)] -> z (m * m * d)
3
同时 PixelCNN 输入 z 的前 n 个,预测第 n + 1 个(建模 z 分布)
4
同时 z -> [Decoder CNN] -> x
5
6
生成:
7
PixelCNN 自回归生成 m * m * d 的矩阵 -> Decoder -> x
Article title:VQ-VAE
Article author:Julyfun
Release time:Nov 9, 2025
Copyright 2025
Sitemap