9.5.dataset

为了防止词表太大,将低频词元替换为 <unk>


最后生成的 iter 接口为:

```python
train_iter, src_vocab, tgt_vocab = load_data_nmt(batch_size=2, num_steps=8)
for X, X_valid_len, Y, Y_valid_len in train_iter:
    print('X:', X.type(torch.int32))
    print('X的有效长度:', X_valid_len)
    print('Y:', Y.type(torch.int32))
    print('Y的有效长度:', Y_valid_len)
    break

# X: (2, 8) (n, ns)
# Y: 也是 (n, ns)
# 小批量中训练数据的长度统一为 num_steps(上面有),不足的用 1 即 <pad> 填充
X: tensor([[62, 25,  4,  3,  1,  1,  1,  1],
        [99, 10,  4,  3,  1,  1,  1,  1]], dtype=torch.int32)

# 可能代表的数据形如 [["I", "try", ".", <eos>, <pad>, <pad>, <pad>, <pad>], ["This", "is", ".", <eos>, <pad>, <pad>, <pad>, <pad>]]
X的有效长度: tensor([4, 4])
Y: tensor([[186,   5,   3,   1,   1,   1,   1,   1],
        [  0,   8,   4,   3,   1,   1,   1,   1]], dtype=torch.int32)
Y的有效长度: tensor([3, 4])

# <bos> 在 train_seq2seq() 中再加入

注意这并非要求网络输入层维数为 num_steps,比如 rnn 中也有 num_steps 但输入层维数就是词表大小(即一个单词的独热编码)