- $W$ 的形状为
输入单元数,输出单元数 - $b$ 形状为
输出单元数 - 训练时 $X$ 形状为
(batch_size, 第一层单元数),实际乘法过程类似于[W @ X[i] for i in range(batch_size)] - 预测时,$X$ 的形状应该是
(n, 第一层单元数),其中n是预测时样本的数量。这里的n可以是任意正整数,包括 1(即单个样本的预测)。
Article title:4.2.mlp
Article author:Julyfun
Release time:Aug 13, 2024
Original link:https://how-to.fun/blog/notes/julyfun/技术学习/d2l/42mlp
Copyright 2025
Sitemap