10.1.queries keys values

  • 设想一个由 key, value 对组成数据库 $cal(D)$。
  • 某个实体可以对查询 q 和 $k_i$ 返回权重 $alpha(q, k_i)$
  • 则定义 $"Attention"(q, cal(D))$ 为 $sum alpha(q, k_i) v_i$ (即 value 的线性组合)

image.png

  • 凸组合: 权重和为 1 且权重 $>= 0$,可使用 softmax 来达成
  • 这边定义的 show_heatmaps 函数输入矩阵为四维 (n, m, r, c),显示 $n times m$ 个矩阵,每个矩阵长宽 $r times c$

image.png