4.2.mlp $W$ 的形状为 输入单元数,输出单元数 $b$ 形状为 输出单元数 训练时 $X$ 形状为 (batch_size, 第一层单元数),实际乘法过程类似于 [W @ X[i] for i in range(batch_size)] 预测时,$X$ 的形状应该是 (n, 第一层单元数),其中 n 是预测时样本的数量。这里的 n 可以是任意正整数,包括 1(即单个样本的预测)。