# ๐ค Transformers: ูู
ุญุฉ ุนุงู
ุฉ
ุฃุญุฏุซ ู
ุง ูู ู
ุฌุงู ุงูุชุนูู
ุงูุขูู ูู [PyTorch](https://pytorch.org/) ู [TensorFlow](https://www.tensorflow.org/) ู [JAX](https://jax.readthedocs.io/en/latest/)
ุชููุฑ ๐ค Transformers ูุงุฌูุงุช ุจุฑู
ุฌุฉ ุงูุชุทุจููุงุช (APIs) ูุงูุฃุฏูุงุช ุงููุงุฒู
ุฉ ูุชูุฒูู ูุชุฏุฑูุจ ุฃุญุฏุซ ุงููู
ุงุฐุฌ ุงูู
ุณุจูุฉ ุงูุชุฏุฑูุจ ุจุณูููุฉ. ููู
ูู ุฃู ูููู ุงุณุชุฎุฏุงู
ุงููู
ุงุฐุฌ ุงูู
ุณุจูุฉ ุงูุชุฏุฑูุจ ู
ู ุชูุงููู ุงูุญูุณุจุฉ ูุงูุญุฏ ู
ู ุงูุฃุซุฑ ุงูุจูุฆูุ ูุชูููุฑ ุงูููุช ูุงูู
ูุงุฑุฏ ุงููุงุฒู
ูู ูุชุฏุฑูุจ ูู
ูุฐุฌ ู
ู ุงูุตูุฑ. ูุชุฏุนู
ูุฐู ุงููู
ุงุฐุฌ ุงูู
ูุงู
ุงูุดุงุฆุนุฉ ูู ู
ุฌุงูุงุช ู
ุฎุชููุฉุ ู
ุซู:
๐ **ู
ุนุงูุฌุฉ ุงููุบุงุช ุงูุทุจูุนูุฉ**: ุชุตููู ุงููุตูุตุ ูุชุนุฑูู ุงูููุงูุงุช ุงูู
ุณู
ุงุฉุ ูุงูุฅุฌุงุจุฉ ุนูู ุงูุฃุณุฆูุฉุ ููู
ุฐุฌุฉ ุงููุบุฉุ ูุงูุชูุฎูุตุ ูุงูุชุฑุฌู
ุฉุ ูุงูุงุฎุชูุงุฑ ู
ู ู
ุชุนุฏุฏุ ูุชูููุฏ ุงููุตูุต.
๐ผ๏ธ **ุงูุฑุคูุฉ ุงูุญุงุณูุจูุฉ**: ุชุตููู ุงูุตูุฑุ ููุดู ุงูุฃุดูุงุกุ ูุชุฌุฒุฆุชูุง.
๐ฃ๏ธ **ุงูุตูุช**: ุงูุชุนุฑู ุงูุชููุงุฆู ุนูู ุงูููุงู
ุ ูุชุตููู ุงูุตูุช.
๐ **ู
ุชุนุฏุฏ ุงููุณุงุฆุท**: ุงูุฅุฌุงุจุฉ ุนูู ุงูุฃุณุฆูุฉ ุงูุฌุฏูููุฉุ ูุงูุชุนุฑู ุงูุจุตุฑู ุนูู ุงูุญุฑููุ ูุงุณุชุฎุฑุงุฌ ุงูู
ุนููู
ุงุช ู
ู ุงูู
ุณุชูุฏุงุช ุงูู
ู
ุณูุญุฉ ุถูุฆููุงุ ูุชุตููู ุงูููุฏููุ ูุงูุฅุฌุงุจุฉ ุนูู ุงูุฃุณุฆูุฉ ุงูุจุตุฑูุฉ.
ุชุฏุนู
๐ค Transformers ุงูุชูุงูู ุจูู ุฃุทุฑ ุงูุนู
ู ุงูู
ุฎุชููุฉ ู
ุซู PyTorch ู TensorFlow ู JAX. ููููุฑ ุฐูู ุงูู
ุฑููุฉ ูุงุณุชุฎุฏุงู
ุฅุทุงุฑ ุนู
ู ู
ุฎุชูู ูู ูู ู
ุฑุญูุฉ ู
ู ู
ุฑุงุญู ุญูุงุฉ ุงููู
ูุฐุฌุ ูู
ุจุชุฏุฑูุจ ูู
ูุฐุฌ ูู ุซูุงุซ ุฎุทูุท ู
ู ุงูุชุนููู
ุงุช ุงูุจุฑู
ุฌูุฉ ูู ุฅุทุงุฑ ูุงุญุฏุ ููู
ุจุชุญู
ููู ููุงุณุชุฏูุงู ูู ุฅุทุงุฑ ุขุฎุฑ. ููู
ูู ุฃูุถูุง ุชุตุฏูุฑ ุงููู
ุงุฐุฌ ุฅูู ุตูุบ ู
ุซู ONNX ู TorchScript ูููุดุฑ ูู ุจูุฆุงุช ุงูุฅูุชุงุฌ.
ุงูุถู
ุฅูู ุงูู
ุฌุชู
ุน ุงูู
ุชูุงู
ู ุนูู [Hub](https://huggingface.co/models) ุฃู [ุงูู
ูุชุฏู](https://discuss.huggingface.co/) ุฃู [Discord](https://discord.com/invite/JfAtkvEtRb) ุงูููู
!
## ุฅุฐุง ููุช ุชุจุญุซ ุนู ุฏุนู
ู
ุฎุตุต ู
ู ูุฑูู Hugging Face
## ุงูู
ุญุชููุงุช
ูููุณู
ุงูุชูุซูู ุฅูู ุฎู
ุณุฉ ุฃูุณุงู
:
- **ุงุจุฏุฃ** ุชูุฏู
ุฌููุฉ ุณุฑูุนุฉ ูู ุงูู
ูุชุจุฉ ูุชุนููู
ุงุช ุงูุชุซุจูุช ููุจุฏุก.
- **ุงูุฏุฑูุณ ุงูุชุนููู
ูุฉ** ูู ู
ูุงู ุฑุงุฆุน ููุจุฏุก ุฅุฐุง ููุช ู
ุจุชุฏุฆูุง. ุณูุณุงุนุฏู ูุฐุง ุงููุณู
ุนูู ุงูุชุณุงุจ ุงูู
ูุงุฑุงุช ุงูุฃุณุงุณูุฉ ุงูุชู ุชุญุชุงุฌูุง ููุจุฏุก ูู ุงุณุชุฎุฏุงู
ุงูู
ูุชุจุฉ.
- **ุฃุฏูุฉ ููููุฉ ุงูุงุณุชุฎุฏุงู
** ุชูุธูุฑ ูู ููููุฉ ุชุญููู ูุฏู ู
ุญุฏุฏุ ู
ุซู ุถุจุท ูู
ูุฐุฌ ู
ุณุจู ุงูุชุฏุฑูุจ ููู
ุฐุฌุฉ ุงููุบุฉ ุฃู ููููุฉ ูุชุงุจุฉ ูู
ุดุงุฑูุฉ ูู
ูุฐุฌ ู
ุฎุตุต.
- **ุงูุฃุฏูุฉ ุงูู
ูุงููู
ูุฉ** ุชูุฏู
ู
ูุงูุดุฉ ูุชูุณูุฑูุง ุฃูุซุฑ ููุฃููุงุฑ ูุงูู
ูุงููู
ุงูุฃุณุงุณูุฉ ูุฑุงุก ุงููู
ุงุฐุฌ ูุงูู
ูุงู
ูููุณูุฉ ุงูุชุตู
ูู
ูู ๐ค Transformers.
- **ูุงุฌูุฉ ุจุฑู
ุฌุฉ ุงูุชุทุจููุงุช (API)** ุชุตู ุฌู
ูุน ุงููุฆุงุช ูุงููุธุงุฆู:
- **ุงููุฆุงุช ุงูุฑุฆูุณูุฉ** ุชุดุฑุญ ุงููุฆุงุช ุงูุฃูุซุฑ ุฃูู
ูุฉ ู
ุซู ุงูุชูููู ูุงููู
ุฐุฌุฉ ูุงูุชุญููู ุงููุตู ูุฎุท ุงูุฃูุงุจูุจ.
- **ุงููู
ุงุฐุฌ** ุชุดุฑุญ ุงููุฆุงุช ูุงููุธุงุฆู ุงูู
ุชุนููุฉ ุจูู ูู
ูุฐุฌ ูุชู
ุชูููุฐู ูู ุงูู
ูุชุจุฉ.
- **ุงูู
ุณุงุนุฏูู ุงูุฏุงุฎูููู** ูุดุฑุญูู ูุฆุงุช ููุธุงุฆู ุงูู
ุณุงุนุฏุฉ ุงูุชู ูุชู
ุงุณุชุฎุฏุงู
ูุง ุฏุงุฎูููุง.
## ุงููู
ุงุฐุฌ ูุงูุฃุทุฑ ุงูู
ุฏุนูู
ุฉ
ูู
ุซู ุงูุฌุฏูู ุฃุฏูุงู ุงูุฏุนู
ุงูุญุงูู ูู ุงูู
ูุชุจุฉ ููู ู
ู ูุฐู ุงููู
ุงุฐุฌุ ูู
ุง ุฅุฐุง ูุงู ูุฏููุง ู
ุญูู ูุญูู Python (ููุณู
ู "ุจุทูุก"). ู
ุญูู ูุญูู "ุณุฑูุน" ู
ุฏุนูู
ุจู
ูุชุจุฉ ๐ค Tokenizersุ ูู
ุง ุฅุฐุง ูุงู ูุฏููุง ุฏุนู
ูู Jax (ุนุจุฑ Flax) ู/ุฃู PyTorch ู/ุฃู TensorFlow.
| Model | PyTorch support | TensorFlow support | Flax Support |
|:------------------------------------------------------------------------:|:---------------:|:------------------:|:------------:|
| [ALBERT](model_doc/albert) | โ
| โ
| โ
|
| [ALIGN](model_doc/align) | โ
| โ | โ |
| [AltCLIP](model_doc/altclip) | โ
| โ | โ |
| [Audio Spectrogram Transformer](model_doc/audio-spectrogram-transformer) | โ
| โ | โ |
| [Autoformer](model_doc/autoformer) | โ
| โ | โ |
| [Bark](model_doc/bark) | โ
| โ | โ |
| [BART](model_doc/bart) | โ
| โ
| โ
|
| [BARThez](model_doc/barthez) | โ
| โ
| โ
|
| [BARTpho](model_doc/bartpho) | โ
| โ
| โ
|
| [BEiT](model_doc/beit) | โ
| โ | โ
|
| [BERT](model_doc/bert) | โ
| โ
| โ
|
| [Bert Generation](model_doc/bert-generation) | โ
| โ | โ |
| [BertJapanese](model_doc/bert-japanese) | โ
| โ
| โ
|
| [BERTweet](model_doc/bertweet) | โ
| โ
| โ
|
| [BigBird](model_doc/big_bird) | โ
| โ | โ
|
| [BigBird-Pegasus](model_doc/bigbird_pegasus) | โ
| โ | โ |
| [BioGpt](model_doc/biogpt) | โ
| โ | โ |
| [BiT](model_doc/bit) | โ
| โ | โ |
| [Blenderbot](model_doc/blenderbot) | โ
| โ
| โ
|
| [BlenderbotSmall](model_doc/blenderbot-small) | โ
| โ
| โ
|
| [BLIP](model_doc/blip) | โ
| โ
| โ |
| [BLIP-2](model_doc/blip-2) | โ
| โ | โ |
| [BLOOM](model_doc/bloom) | โ
| โ | โ
|
| [BORT](model_doc/bort) | โ
| โ
| โ
|
| [BridgeTower](model_doc/bridgetower) | โ
| โ | โ |
| [BROS](model_doc/bros) | โ
| โ | โ |
| [ByT5](model_doc/byt5) | โ
| โ
| โ
|
| [CamemBERT](model_doc/camembert) | โ
| โ
| โ |
| [CANINE](model_doc/canine) | โ
| โ | โ |
| [Chameleon](model_doc/chameleon) | โ
| โ | โ |
| [Chinese-CLIP](model_doc/chinese_clip) | โ
| โ | โ |
| [CLAP](model_doc/clap) | โ
| โ | โ |
| [CLIP](model_doc/clip) | โ
| โ
| โ
|
| [CLIPSeg](model_doc/clipseg) | โ
| โ | โ |
| [CLVP](model_doc/clvp) | โ
| โ | โ |
| [CodeGen](model_doc/codegen) | โ
| โ | โ |
| [CodeLlama](model_doc/code_llama) | โ
| โ | โ
|
| [Cohere](model_doc/cohere) | โ
| โ | โ |
| [Conditional DETR](model_doc/conditional_detr) | โ
| โ | โ |
| [ConvBERT](model_doc/convbert) | โ
| โ
| โ |
| [ConvNeXT](model_doc/convnext) | โ
| โ
| โ |
| [ConvNeXTV2](model_doc/convnextv2) | โ
| โ
| โ |
| [CPM](model_doc/cpm) | โ
| โ
| โ
|
| [CPM-Ant](model_doc/cpmant) | โ
| โ | โ |
| [CTRL](model_doc/ctrl) | โ
| โ
| โ |
| [CvT](model_doc/cvt) | โ
| โ
| โ |
| [DAC](model_doc/dac) | โ
| โ | โ |
| [Data2VecAudio](model_doc/data2vec) | โ
| โ | โ |
| [Data2VecText](model_doc/data2vec) | โ
| โ | โ |
| [Data2VecVision](model_doc/data2vec) | โ
| โ
| โ |
| [DBRX](model_doc/dbrx) | โ
| โ | โ |
| [DeBERTa](model_doc/deberta) | โ
| โ
| โ |
| [DeBERTa-v2](model_doc/deberta-v2) | โ
| โ
| โ |
| [Decision Transformer](model_doc/decision_transformer) | โ
| โ | โ |
| [Deformable DETR](model_doc/deformable_detr) | โ
| โ | โ |
| [DeiT](model_doc/deit) | โ
| โ
| โ |
| [DePlot](model_doc/deplot) | โ
| โ | โ |
| [Depth Anything](model_doc/depth_anything) | โ
| โ | โ |
| [DETA](model_doc/deta) | โ
| โ | โ |
| [DETR](model_doc/detr) | โ
| โ | โ |
| [DialoGPT](model_doc/dialogpt) | โ
| โ
| โ
|
| [DiNAT](model_doc/dinat) | โ
| โ | โ |
| [DINOv2](model_doc/dinov2) | โ
| โ | โ
|
| [DistilBERT](model_doc/distilbert) | โ
| โ
| โ
|
| [DiT](model_doc/dit) | โ
| โ | โ
|
| [DonutSwin](model_doc/donut) | โ
| โ | โ |
| [DPR](model_doc/dpr) | โ
| โ
| โ |
| [DPT](model_doc/dpt) | โ
| โ | โ |
| [EfficientFormer](model_doc/efficientformer) | โ
| โ
| โ |
| [EfficientNet](model_doc/efficientnet) | โ
| โ | โ |
| [ELECTRA](model_doc/electra) | โ
| โ
| โ
|
| [EnCodec](model_doc/encodec) | โ
| โ | โ |
| [Encoder decoder](model_doc/encoder-decoder) | โ
| โ
| โ
|
| [ERNIE](model_doc/ernie) | โ
| โ | โ |
| [ErnieM](model_doc/ernie_m) | โ
| โ | โ |
| [ESM](model_doc/esm) | โ
| โ
| โ |
| [FairSeq Machine-Translation](model_doc/fsmt) | โ
| โ | โ |
| [Falcon](model_doc/falcon) | โ
| โ | โ |
| [FalconMamba](model_doc/falcon_mamba) | โ
| โ | โ |
| [FastSpeech2Conformer](model_doc/fastspeech2_conformer) | โ
| โ | โ |
| [FLAN-T5](model_doc/flan-t5) | โ
| โ
| โ
|
| [FLAN-UL2](model_doc/flan-ul2) | โ
| โ
| โ
|
| [FlauBERT](model_doc/flaubert) | โ
| โ
| โ |
| [FLAVA](model_doc/flava) | โ
| โ | โ |
| [FNet](model_doc/fnet) | โ
| โ | โ |
| [FocalNet](model_doc/focalnet) | โ
| โ | โ |
| [Funnel Transformer](model_doc/funnel) | โ
| โ
| โ |
| [Fuyu](model_doc/fuyu) | โ
| โ | โ |
| [Gemma](model_doc/gemma) | โ
| โ | โ
|
| [Gemma2](model_doc/gemma2) | โ
| โ | โ |
| [GIT](model_doc/git) | โ
| โ | โ |
| [GLPN](model_doc/glpn) | โ
| โ | โ |
| [GPT Neo](model_doc/gpt_neo) | โ
| โ | โ
|
| [GPT NeoX](model_doc/gpt_neox) | โ
| โ | โ |
| [GPT NeoX Japanese](model_doc/gpt_neox_japanese) | โ
| โ | โ |
| [GPT-J](model_doc/gptj) | โ
| โ
| โ
|
| [GPT-Sw3](model_doc/gpt-sw3) | โ
| โ
| โ
|
| [GPTBigCode](model_doc/gpt_bigcode) | โ
| โ | โ |
| [GPTSAN-japanese](model_doc/gptsan-japanese) | โ
| โ | โ |
| [Granite](model_doc/granite) | โ
| โ | โ |
| [Graphormer](model_doc/graphormer) | โ
| โ | โ |
| [Grounding DINO](model_doc/grounding-dino) | โ
| โ | โ |
| [GroupViT](model_doc/groupvit) | โ
| โ
| โ |
| [HerBERT](model_doc/herbert) | โ
| โ
| โ
|
| [Hiera](model_doc/hiera) | โ
| โ | โ |
| [Hubert](model_doc/hubert) | โ
| โ
| โ |
| [I-BERT](model_doc/ibert) | โ
| โ | โ |
| [IDEFICS](model_doc/idefics) | โ
| โ
| โ |
| [Idefics2](model_doc/idefics2) | โ
| โ | โ |
| [ImageGPT](model_doc/imagegpt) | โ
| โ | โ |
| [Informer](model_doc/informer) | โ
| โ | โ |
| [InstructBLIP](model_doc/instructblip) | โ
| โ | โ |
| [InstructBlipVideo](model_doc/instructblipvideo) | โ
| โ | โ |
| [Jamba](model_doc/jamba) | โ
| โ | โ |
| [JetMoe](model_doc/jetmoe) | โ
| โ | โ |
| [Jukebox](model_doc/jukebox) | โ
| โ | โ |
| [KOSMOS-2](model_doc/kosmos-2) | โ
| โ | โ |
| [LayoutLM](model_doc/layoutlm) | โ
| โ
| โ |
| [LayoutLMv2](model_doc/layoutlmv2) | โ
| โ | โ |
| [LayoutLMv3](model_doc/layoutlmv3) | โ
| โ
| โ |
| [LayoutXLM](model_doc/layoutxlm) | โ
| โ | โ |
| [LED](model_doc/led) | โ
| โ
| โ |
| [LeViT](model_doc/levit) | โ
| โ | โ |
| [LiLT](model_doc/lilt) | โ
| โ | โ |
| [LLaMA](model_doc/llama) | โ
| โ | โ
|
| [Llama2](model_doc/llama2) | โ
| โ | โ
|
| [Llama3](model_doc/llama3) | โ
| โ | โ
|
| [LLaVa](model_doc/llava) | โ
| โ | โ |
| [LLaVA-NeXT](model_doc/llava_next) | โ
| โ | โ |
| [LLaVa-NeXT-Video](model_doc/llava_next_video) | โ
| โ | โ |
| [Longformer](model_doc/longformer) | โ
| โ
| โ |
| [LongT5](model_doc/longt5) | โ
| โ | โ
|
| [LUKE](model_doc/luke) | โ
| โ | โ |
| [LXMERT](model_doc/lxmert) | โ
| โ
| โ |
| [M-CTC-T](model_doc/mctct) | โ
| โ | โ |
| [M2M100](model_doc/m2m_100) | โ
| โ | โ |
| [MADLAD-400](model_doc/madlad-400) | โ
| โ
| โ
|
| [Mamba](model_doc/mamba) | โ
| โ | โ |
| [mamba2](model_doc/mamba2) | โ
| โ | โ |
| [Marian](model_doc/marian) | โ
| โ
| โ
|
| [MarkupLM](model_doc/markuplm) | โ
| โ | โ |
| [Mask2Former](model_doc/mask2former) | โ
| โ | โ |
| [MaskFormer](model_doc/maskformer) | โ
| โ | โ |
| [MatCha](model_doc/matcha) | โ
| โ | โ |
| [mBART](model_doc/mbart) | โ
| โ
| โ
|
| [mBART-50](model_doc/mbart50) | โ
| โ
| โ
|
| [MEGA](model_doc/mega) | โ
| โ | โ |
| [Megatron-BERT](model_doc/megatron-bert) | โ
| โ | โ |
| [Megatron-GPT2](model_doc/megatron_gpt2) | โ
| โ
| โ
|
| [MGP-STR](model_doc/mgp-str) | โ
| โ | โ |
| [Mistral](model_doc/mistral) | โ
| โ
| โ
|
| [Mixtral](model_doc/mixtral) | โ
| โ | โ |
| [mLUKE](model_doc/mluke) | โ
| โ | โ |
| [MMS](model_doc/mms) | โ
| โ
| โ
|
| [MobileBERT](model_doc/mobilebert) | โ
| โ
| โ |
| [MobileNetV1](model_doc/mobilenet_v1) | โ
| โ | โ |
| [MobileNetV2](model_doc/mobilenet_v2) | โ
| โ | โ |
| [MobileViT](model_doc/mobilevit) | โ
| โ
| โ |
| [MobileViTV2](model_doc/mobilevitv2) | โ
| โ | โ |
| [MPNet](model_doc/mpnet) | โ
| โ
| โ |
| [MPT](model_doc/mpt) | โ
| โ | โ |
| [MRA](model_doc/mra) | โ
| โ | โ |
| [MT5](model_doc/mt5) | โ
| โ
| โ
|
| [MusicGen](model_doc/musicgen) | โ
| โ | โ |
| [MusicGen Melody](model_doc/musicgen_melody) | โ
| โ | โ |
| [MVP](model_doc/mvp) | โ
| โ | โ |
| [NAT](model_doc/nat) | โ
| โ | โ |
| [Nemotron](model_doc/nemotron) | โ
| โ | โ |
| [Nezha](model_doc/nezha) | โ
| โ | โ |
| [NLLB](model_doc/nllb) | โ
| โ | โ |
| [NLLB-MOE](model_doc/nllb-moe) | โ
| โ | โ |
| [Nougat](model_doc/nougat) | โ
| โ
| โ
|
| [Nystrรถmformer](model_doc/nystromformer) | โ
| โ | โ |
| [OLMo](model_doc/olmo) | โ
| โ | โ |
| [OneFormer](model_doc/oneformer) | โ
| โ | โ |
| [OpenAI GPT](model_doc/openai-gpt) | โ
| โ
| โ |
| [OpenAI GPT-2](model_doc/gpt2) | โ
| โ
| โ
|
| [OpenLlama](model_doc/open-llama) | โ
| โ | โ |
| [OPT](model_doc/opt) | โ
| โ
| โ
|
| [OWL-ViT](model_doc/owlvit) | โ
| โ | โ |
| [OWLv2](model_doc/owlv2) | โ
| โ | โ |
| [PaliGemma](model_doc/paligemma) | โ
| โ | โ |
| [PatchTSMixer](model_doc/patchtsmixer) | โ
| โ | โ |
| [PatchTST](model_doc/patchtst) | โ
| โ | โ |
| [Pegasus](model_doc/pegasus) | โ
| โ
| โ
|
| [PEGASUS-X](model_doc/pegasus_x) | โ
| โ | โ |
| [Perceiver](model_doc/perceiver) | โ
| โ | โ |
| [Persimmon](model_doc/persimmon) | โ
| โ | โ |
| [Phi](model_doc/phi) | โ
| โ | โ |
| [Phi3](model_doc/phi3) | โ
| โ | โ |
| [PhoBERT](model_doc/phobert) | โ
| โ
| โ
|
| [Pix2Struct](model_doc/pix2struct) | โ
| โ | โ |
| [PLBart](model_doc/plbart) | โ
| โ | โ |
| [PoolFormer](model_doc/poolformer) | โ
| โ | โ |
| [Pop2Piano](model_doc/pop2piano) | โ
| โ | โ |
| [ProphetNet](model_doc/prophetnet) | โ
| โ | โ |
| [PVT](model_doc/pvt) | โ
| โ | โ |
| [PVTv2](model_doc/pvt_v2) | โ
| โ | โ |
| [QDQBert](model_doc/qdqbert) | โ
| โ | โ |
| [Qwen2](model_doc/qwen2) | โ
| โ | โ |
| [Qwen2Audio](model_doc/qwen2_audio) | โ
| โ | โ |
| [Qwen2MoE](model_doc/qwen2_moe) | โ
| โ | โ |
| [Qwen2VL](model_doc/qwen2_vl) | โ
| โ | โ |
| [RAG](model_doc/rag) | โ
| โ
| โ |
| [REALM](model_doc/realm) | โ
| โ | โ |
| [RecurrentGemma](model_doc/recurrent_gemma) | โ
| โ | โ |
| [Reformer](model_doc/reformer) | โ
| โ | โ |
| [RegNet](model_doc/regnet) | โ
| โ
| โ
|
| [RemBERT](model_doc/rembert) | โ
| โ
| โ |
| [ResNet](model_doc/resnet) | โ
| โ
| โ
|
| [RetriBERT](model_doc/retribert) | โ
| โ | โ |
| [RoBERTa](model_doc/roberta) | โ
| โ
| โ
|
| [RoBERTa-PreLayerNorm](model_doc/roberta-prelayernorm) | โ
| โ
| โ
|
| [RoCBert](model_doc/roc_bert) | โ
| โ | โ |
| [RoFormer](model_doc/roformer) | โ
| โ
| โ
|
| [RT-DETR](model_doc/rt_detr) | โ
| โ | โ |
| [RT-DETR-ResNet](model_doc/rt_detr_resnet) | โ
| โ | โ |
| [RWKV](model_doc/rwkv) | โ
| โ | โ |
| [SAM](model_doc/sam) | โ
| โ
| โ |
| [SeamlessM4T](model_doc/seamless_m4t) | โ
| โ | โ |
| [SeamlessM4Tv2](model_doc/seamless_m4t_v2) | โ
| โ | โ |
| [SegFormer](model_doc/segformer) | โ
| โ
| โ |
| [SegGPT](model_doc/seggpt) | โ
| โ | โ |
| [SEW](model_doc/sew) | โ
| โ | โ |
| [SEW-D](model_doc/sew-d) | โ
| โ | โ |
| [SigLIP](model_doc/siglip) | โ
| โ | โ |
| [Speech Encoder decoder](model_doc/speech-encoder-decoder) | โ
| โ | โ
|
| [Speech2Text](model_doc/speech_to_text) | โ
| โ
| โ |
| [SpeechT5](model_doc/speecht5) | โ
| โ | โ |
| [Splinter](model_doc/splinter) | โ
| โ | โ |
| [SqueezeBERT](model_doc/squeezebert) | โ
| โ | โ |
| [StableLm](model_doc/stablelm) | โ
| โ | โ |
| [Starcoder2](model_doc/starcoder2) | โ
| โ | โ |
| [SuperPoint](model_doc/superpoint) | โ
| โ | โ |
| [SwiftFormer](model_doc/swiftformer) | โ
| โ
| โ |
| [Swin Transformer](model_doc/swin) | โ
| โ
| โ |
| [Swin Transformer V2](model_doc/swinv2) | โ
| โ | โ |
| [Swin2SR](model_doc/swin2sr) | โ
| โ | โ |
| [SwitchTransformers](model_doc/switch_transformers) | โ
| โ | โ |
| [T5](model_doc/t5) | โ
| โ
| โ
|
| [T5v1.1](model_doc/t5v1.1) | โ
| โ
| โ
|
| [Table Transformer](model_doc/table-transformer) | โ
| โ | โ |
| [TAPAS](model_doc/tapas) | โ
| โ
| โ |
| [TAPEX](model_doc/tapex) | โ
| โ
| โ
|
| [Time Series Transformer](model_doc/time_series_transformer) | โ
| โ | โ |
| [TimeSformer](model_doc/timesformer) | โ
| โ | โ |
| [Trajectory Transformer](model_doc/trajectory_transformer) | โ
| โ | โ |
| [Transformer-XL](model_doc/transfo-xl) | โ
| โ
| โ |
| [TrOCR](model_doc/trocr) | โ
| โ | โ |
| [TVLT](model_doc/tvlt) | โ
| โ | โ |
| [TVP](model_doc/tvp) | โ
| โ | โ |
| [UDOP](model_doc/udop) | โ
| โ | โ |
| [UL2](model_doc/ul2) | โ
| โ
| โ
|
| [UMT5](model_doc/umt5) | โ
| โ | โ |
| [UniSpeech](model_doc/unispeech) | โ
| โ | โ |
| [UniSpeechSat](model_doc/unispeech-sat) | โ
| โ | โ |
| [UnivNet](model_doc/univnet) | โ
| โ | โ |
| [UPerNet](model_doc/upernet) | โ
| โ | โ |
| [VAN](model_doc/van) | โ
| โ | โ |
| [VideoLlava](model_doc/video_llava) | โ
| โ | โ |
| [VideoMAE](model_doc/videomae) | โ
| โ | โ |
| [ViLT](model_doc/vilt) | โ
| โ | โ |
| [VipLlava](model_doc/vipllava) | โ
| โ | โ |
| [Vision Encoder decoder](model_doc/vision-encoder-decoder) | โ
| โ
| โ
|
| [VisionTextDualEncoder](model_doc/vision-text-dual-encoder) | โ
| โ
| โ
|
| [VisualBERT](model_doc/visual_bert) | โ
| โ | โ |
| [ViT](model_doc/vit) | โ
| โ
| โ
|
| [ViT Hybrid](model_doc/vit_hybrid) | โ
| โ | โ |
| [VitDet](model_doc/vitdet) | โ
| โ | โ |
| [ViTMAE](model_doc/vit_mae) | โ
| โ
| โ |
| [ViTMatte](model_doc/vitmatte) | โ
| โ | โ |
| [ViTMSN](model_doc/vit_msn) | โ
| โ | โ |
| [VITS](model_doc/vits) | โ
| โ | โ |
| [ViViT](model_doc/vivit) | โ
| โ | โ |
| [Wav2Vec2](model_doc/wav2vec2) | โ
| โ
| โ
|
| [Wav2Vec2-BERT](model_doc/wav2vec2-bert) | โ
| โ | โ |
| [Wav2Vec2-Conformer](model_doc/wav2vec2-conformer) | โ
| โ | โ |
| [Wav2Vec2Phoneme](model_doc/wav2vec2_phoneme) | โ
| โ
| โ
|
| [WavLM](model_doc/wavlm) | โ
| โ | โ |
| [Whisper](model_doc/whisper) | โ
| โ
| โ
|
| [X-CLIP](model_doc/xclip) | โ
| โ | โ |
| [X-MOD](model_doc/xmod) | โ
| โ | โ |
| [XGLM](model_doc/xglm) | โ
| โ
| โ
|
| [XLM](model_doc/xlm) | โ
| โ
| โ |
| [XLM-ProphetNet](model_doc/xlm-prophetnet) | โ
| โ | โ |
| [XLM-RoBERTa](model_doc/xlm-roberta) | โ
| โ
| โ
|
| [XLM-RoBERTa-XL](model_doc/xlm-roberta-xl) | โ
| โ | โ |
| [XLM-V](model_doc/xlm-v) | โ
| โ
| โ
|
| [XLNet](model_doc/xlnet) | โ
| โ
| โ |
| [XLS-R](model_doc/xls_r) | โ
| โ
| โ
|
| [XLSR-Wav2Vec2](model_doc/xlsr_wav2vec2) | โ
| โ
| โ
|
| [YOLOS](model_doc/yolos) | โ
| โ | โ |
| [YOSO](model_doc/yoso) | โ
| โ | โ |
| [ZoeDepth](model_doc/zoedepth) | โ
| โ | โ |