拉普拉斯平滑
在统计单词 / 连续单词出现次数后,计算出现概率 $P$ 时,添加一个超参数小常量。效果:若常量趋于无穷大,则概率为 $1 / “单词总数”$(对于连续单词 AB,则是趋于 $1 / P(“A”)$)
齐普夫定律
分布满足对数坐标系上的下降直线。一元语法,n 元语法均遵守这个分布。
构造的数据集形如
1for X, Y in seq_data_iter_sequential(my_seq, batch_size=2, num_steps=5):2 print('X: ', X, '\nY:', Y)
1# x shape: (n, ns)2# y shape: (n, ns)3X: tensor([[ 2, 3, 4, 5, 6],4 [18, 19, 20, 21, 22]])5Y: tensor([[ 3, 4, 5, 6, 7],6 [19, 20, 21, 22, 23]])7X: tensor([[ 7, 8, 9, 10, 11],8 [23, 24, 25, 26, 27]])9Y: tensor([[ 8, 9, 10, 11, 12],10 [24, 25, 26, 27, 28]])11X: tensor([[12, 13, 14, 15, 16],12 [28, 29, 30, 31, 32]])13Y: tensor([[13, 14, 15, 16, 17],14 [29, 30, 31, 32, 33]])
44:25