https://stanford-cs336.github.io/spring2025/
Lec 1
word tokenizer 很少使用了.
BPE Tokenizer: Byte pair
unhappiness => un happi ness
- 词汇表大约几万
https://stanford-cs336.github.io/spring2025/
word tokenizer 很少使用了.
BPE Tokenizer: Byte pair
unhappiness => un happi ness