关于llama tokenizer的问题 #772

moseshu · 2023-07-20T03:07:48Z

moseshu
Jul 20, 2023

原始的llama1和llama2的tokenizer包含了chinese-llama中所有token，为什么还要扩充中文词表呢？直接在原始的llama tokenizer基础上进行lora语言模型训练不可以么？如果不扩充词表，对结果会有什么影响么？

ymcui · 2023-07-20T03:15:40Z

ymcui
Jul 20, 2023
Maintainer

原始的llama1和llama2的tokenizer包含了chinese-llama中所有token

大小关系弄反了。原版llama是32k，我们的是接近50k。编码问题已经在技术报告里说了，感兴趣可以自己看一下。

直接在原始的llama tokenizer基础上进行lora语言模型训练不可以么

当然可以，技术选型问题，没有说必须扩展词表

如果不扩充词表，对结果会有什么影响么？

尚未有明确研究结论说明不扩展词表会有什么影响。

0 replies

moseshu · 2023-07-20T05:44:13Z

moseshu
Jul 20, 2023
Author

没有弄反，原始的llama token是多个组合的token id来表示一个中文的token，跟tiktoken一样，我测试了llama1和llama2的token，涵盖了所有的中文token。

1 reply

ymcui Jul 20, 2023
Maintainer

是，我指的就是这个意思。一种是显式地切分，一种是切成byte-level的形式（原版llama）。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于llama tokenizer的问题 #772

Uh oh!

{{title}}

Uh oh!

Replies: 2 comments 1 reply

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

关于llama tokenizer的问题 #772

Uh oh!

moseshu Jul 20, 2023

Replies: 2 comments · 1 reply

Uh oh!

ymcui Jul 20, 2023 Maintainer

Uh oh!

moseshu Jul 20, 2023 Author

Uh oh!

ymcui Jul 20, 2023 Maintainer

moseshu
Jul 20, 2023

Replies: 2 comments 1 reply

ymcui
Jul 20, 2023
Maintainer

moseshu
Jul 20, 2023
Author

ymcui Jul 20, 2023
Maintainer