设想一个由 key, value 对组成数据库 𝒟。 某个实体可以对查询 q 和 𝑘𝑖 返回权重 𝛼(𝑞,𝑘𝑖) 则定义 Attention(𝑞,𝒟) 为 ∑𝛼(𝑞,𝑘𝑖)𝑣𝑖 (即 value 的线性组合) 凸组合: 权重和为 1 且权重 ≥0,可使用 softmax 来达成 这边定义的 show_heatmaps 函数输入矩阵为四维 (n, m, r, c),显示 𝑛×𝑚 个矩阵,每个矩阵长宽 𝑟×𝑐