mirror of https://github.com/huggingface/transformers.git synced 2025-07-03 12:50:06 +06:00

[i18n-zh]Translated tiktoken.md into chinese (#34936 )

* Add translation for tiktoken documentation

* Update tiktoken.md

* Update tiktoken.md

2024-11-26 10:09:52 -08:00

2.6 KiB

Raw Blame History

Transformers与Tiktonken的互操作性

在🤗 transformers中，当使用from_pretrained方法从Hub加载模型时，如果模型包含tiktoken格式的tokenizer.model文件，框架可以无缝支持tiktoken模型文件，并自动将其转换为我们的快速词符化器。

已知包含`tiktoken.model`文件发布的模型：

- gpt2
- llama3

使用示例

为了在transformers中正确加载tiktoken文件，请确保tiktoken.model文件是tiktoken格式的，并且会在加载from_pretrained时自动加载。以下展示如何从同一个文件中加载词符化器(tokenizer)和模型：

from transformers import AutoTokenizer

model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id, subfolder="original")

创建tiktoken词符化器(tokenizer)

tokenizer.model文件中不包含任何额外的词符(token)或模式字符串(pattern strings)的信息。如果这些信息很重要，需要将词符化器(tokenizer)转换为适用于[PreTrainedTokenizerFast]类的tokenizer.json格式。

使用tiktoken.get_encoding生成tokenizer.model文件，再使用[convert_tiktoken_to_fast]函数将其转换为tokenizer.json文件。


from transformers.integrations.tiktoken import convert_tiktoken_to_fast
from tiktoken import get_encoding

# You can load your custom encoding or the one provided by OpenAI
encoding = get_encoding("gpt2")
convert_tiktoken_to_fast(encoding, "config/save/dir")

生成的tokenizer.json文件将被保存到指定的目录，并且可以通过[PreTrainedTokenizerFast]类来加载。

tokenizer = PreTrainedTokenizerFast.from_pretrained("config/save/dir")

2.6 KiB Raw Blame History Unescape Escape

Transformers与Tiktonken的互操作性

已知包含tiktoken.model文件发布的模型：

使用示例

创建tiktoken词符化器(tokenizer)

2.6 KiB

Raw Blame History

已知包含`tiktoken.model`文件发布的模型：