mirror of
https://github.com/huggingface/transformers.git
synced 2025-07-06 14:20:04 +06:00

* docs: ko: bert-japanese.md * Update _toctree.yml * fix: manual edits * Update docs/source/ko/_toctree.yml Co-authored-by: Sungmin Oh <fabxoe.kor@gmail.com> * Update docs/source/ko/_toctree.yml Co-authored-by: Sungmin Oh <fabxoe.kor@gmail.com> --------- Co-authored-by: Sungmin Oh <fabxoe.kor@gmail.com> Co-authored-by: Steven Liu <59462357+stevhliu@users.noreply.github.com>
2.9 KiB
2.9 KiB
일본어 BERT (BertJapanese) bertjapanese
개요 overview
일본어 문장에 학습된 BERT 모델 입니다.
각각 서로 다른 토큰화 방법을 사용하는 두 모델:
MecabTokenizer를 사용하려면, 의존성을 설치하기 위해 pip install transformers["ja"]
(또는 소스에서 설치하는 경우 pip install -e .["ja"]
) 명령을 실행해야 합니다.
자세한 내용은 cl-tohoku 리포지토리에서 확인하세요.
MeCab과 WordPiece 토큰화를 사용하는 모델 예시:
>>> import torch
>>> from transformers import AutoModel, AutoTokenizer
>>> bertjapanese = AutoModel.from_pretrained("cl-tohoku/bert-base-japanese")
>>> tokenizer = AutoTokenizer.from_pretrained("cl-tohoku/bert-base-japanese")
>>> ## Input Japanese Text
>>> line = "吾輩は猫である。"
>>> inputs = tokenizer(line, return_tensors="pt")
>>> print(tokenizer.decode(inputs["input_ids"][0]))
[CLS] 吾輩 は 猫 で ある 。 [SEP]
>>> outputs = bertjapanese(**inputs)
문자 토큰화를 사용하는 모델 예시:
>>> bertjapanese = AutoModel.from_pretrained("cl-tohoku/bert-base-japanese-char")
>>> tokenizer = AutoTokenizer.from_pretrained("cl-tohoku/bert-base-japanese-char")
>>> ## Input Japanese Text
>>> line = "吾輩は猫である。"
>>> inputs = tokenizer(line, return_tensors="pt")
>>> print(tokenizer.decode(inputs["input_ids"][0]))
[CLS] 吾 輩 は 猫 で あ る 。 [SEP]
>>> outputs = bertjapanese(**inputs)
이는 토큰화 방법을 제외하고는 BERT와 동일합니다. API 참조 정보는 BERT 문서를 참조하세요. 이 모델은 cl-tohoku께서 기여하였습니다.
BertJapaneseTokenizer
autodoc BertJapaneseTokenizer