Attention 3B1B

  • 考虑:
    • mole 一词在不同上下文有不同含义.
    • 嵌入层将 mole 转换为泛型向量以后,Transformer 的下一层会根据上下文再加一个偏移向量