10.1.queries keys values
- 设想一个由 key, value 对组成数据库 $cal(D)$。
- 某个实体可以对查询 q 和 $k_i$ 返回权重 $alpha(q, k_i)$
- 则定义 $"Attention"(q, cal(D))$ 为 $sum alpha(q, k_i) v_i$ (即 value 的线性组合)
- 凸组合: 权重和为 1 且权重 $>= 0$,可使用 softmax 来达成
- 这边定义的
show_heatmaps
函数输入矩阵为四维 (n, m, r, c),显示 $n times m$ 个矩阵,每个矩阵长宽 $r times c$