mirror of
https://github.com/huggingface/transformers.git
synced 2025-07-05 13:50:13 +06:00

* docs: ko: bertweet.md * Update _toctree.yml * fix: manual edits * Update docs/source/ko/model_doc/bertweet.md Co-authored-by: HyeokJun SHIN <96534680+jun048098@users.noreply.github.com> --------- Co-authored-by: HyeokJun SHIN <96534680+jun048098@users.noreply.github.com>
2.9 KiB
2.9 KiB
BERTweet bertweet
개요 overview
BERTweet 모델은 Dat Quoc Nguyen, Thanh Vu, Anh Tuan Nguyen에 의해 BERTweet: A pre-trained language model for English Tweets 에서 제안되었습니다.
해당 논문의 초록 :
영어 트윗을 위한 최초의 공개 대규모 사전 학습된 언어 모델인 BERTweet을 소개합니다. BERTweet은 BERT-base(Devlin et al., 2019)와 동일한 아키텍처를 가지고 있으며, RoBERTa 사전 학습 절차(Liu et al., 2019)를 사용하여 학습되었습니다. 실험 결과, BERTweet은 강력한 기준 모델인 RoBERTa-base 및 XLM-R-base(Conneau et al., 2020)의 성능을 능가하여 세 가지 트윗 NLP 작업(품사 태깅, 개체명 인식, 텍스트 분류)에서 이전 최신 모델보다 더 나은 성능을 보여주었습니다.
이 모델은 dqnguyen 께서 기여하셨습니다. 원본 코드는 여기.에서 확인할 수 있습니다.
사용 예시 usage-example
>>> import torch
>>> from transformers import AutoModel, AutoTokenizer
>>> bertweet = AutoModel.from_pretrained("vinai/bertweet-base")
>>> # 트랜스포머 버전 4.x 이상 :
>>> tokenizer = AutoTokenizer.from_pretrained("vinai/bertweet-base", use_fast=False)
>>> # 트랜스포머 버전 3.x 이상:
>>> # tokenizer = AutoTokenizer.from_pretrained("vinai/bertweet-base")
>>> # 입력된 트윗은 이미 정규화되었습니다!
>>> line = "SC has first two presumptive cases of coronavirus , DHEC confirms HTTPURL via @USER :cry:"
>>> input_ids = torch.tensor([tokenizer.encode(line)])
>>> with torch.no_grad():
... features = bertweet(input_ids) # Models outputs are now tuples
>>> # With TensorFlow 2.0+:
>>> # from transformers import TFAutoModel
>>> # bertweet = TFAutoModel.from_pretrained("vinai/bertweet-base")
이 구현은 토큰화 방법을 제외하고는 BERT와 동일합니다. API 참조 정보는 BERT 문서 를 참조하세요.
Bertweet 토큰화(BertweetTokenizer) transformers.BertweetTokenizer
autodoc BertweetTokenizer