see: https://kexue.fm/archives/6760
note:
- codebook 的目的是离散建模,以适用于 PixelCNN 这样的分类网络.
- 每个像素会映射到 codebook 中的一个,保留着位置结构。
1训练:2x -> [Encoder (CNN)] -> z (m * m * d)3同时 PixelCNN 输入 z 的前 n 个,预测第 n + 1 个(建模 z 分布)4同时 z -> [Decoder CNN] -> x5
6生成:7PixelCNN 自回归生成 m * m * d 的矩阵 -> Decoder -> x