- $W$ 的形状为
输入单元数,输出单元数
- $b$ 形状为
输出单元数
- 训练时 $X$ 形状为
(batch_size, 第一层单元数)
,实际乘法过程类似于[W @ X[i] for i in range(batch_size)]
- 预测时,$X$ 的形状应该是
(n, 第一层单元数)
,其中n
是预测时样本的数量。这里的n
可以是任意正整数,包括 1(即单个样本的预测)。
Article title:4.2.mlp
Article author:Julyfun
Release time:Aug 13, 2024
Original link:https://how-to.fun/blog/notes/julyfun/技术学习/d2l/42mlp
Copyright 2025
Sitemap