transformers/docs/source/zh/tiktoken.md
blueingman 6c3f168b36
[i18n-zh]Translated tiktoken.md into chinese (#34936)
* Add translation for tiktoken documentation

* Update tiktoken.md

* Update tiktoken.md
2024-11-26 10:09:52 -08:00

2.6 KiB
Raw Blame History

Transformers与Tiktonken的互操作性

🤗 transformers中当使用from_pretrained方法从Hub加载模型时如果模型包含tiktoken格式的tokenizer.model文件框架可以无缝支持tiktoken模型文件并自动将其转换为我们的快速词符化器

已知包含tiktoken.model文件发布的模型:

- gpt2
- llama3

使用示例

为了在transformers中正确加载tiktoken文件,请确保tiktoken.model文件是tiktoken格式的并且会在加载from_pretrained时自动加载。以下展示如何从同一个文件中加载词符化器(tokenizer)和模型:

from transformers import AutoTokenizer

model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id, subfolder="original") 

创建tiktoken词符化器(tokenizer)

tokenizer.model文件中不包含任何额外的词符(token)或模式字符串(pattern strings)的信息。如果这些信息很重要,需要将词符化器(tokenizer)转换为适用于[PreTrainedTokenizerFast]类的tokenizer.json格式。

使用tiktoken.get_encoding生成tokenizer.model文件,再使用[convert_tiktoken_to_fast]函数将其转换为tokenizer.json文件。


from transformers.integrations.tiktoken import convert_tiktoken_to_fast
from tiktoken import get_encoding

# You can load your custom encoding or the one provided by OpenAI
encoding = get_encoding("gpt2")
convert_tiktoken_to_fast(encoding, "config/save/dir")

生成的tokenizer.json文件将被保存到指定的目录,并且可以通过[PreTrainedTokenizerFast]类来加载。

tokenizer = PreTrainedTokenizerFast.from_pretrained("config/save/dir")