tokenizer 分词 #
- 单词分词法
- 单字分词法
- 子词分词法 BPE [GPT系列], WordPiece
参考 #
1xx. 大模型词表扩充必备工具SentencePiece 1xx. NLP(二):浅谈分词 1xx. https://www.bilibili.com/video/BV1vN411p7t2/ 1xx. 开源大模型如何更好地适应中文场景:LLAMA扩充词表、BLOOM裁剪词表基本原理与开源实现
1xx. 大模型词表扩充必备工具SentencePiece 1xx. NLP(二):浅谈分词 1xx. https://www.bilibili.com/video/BV1vN411p7t2/ 1xx. 开源大模型如何更好地适应中文场景:LLAMA扩充词表、BLOOM裁剪词表基本原理与开源实现