transformers/docs/source/ja/model_summary.md
Rockerz 9b7668c03a
add japanese documentation (#26138)
* udpaet

* update

* Update docs/source/ja/autoclass_tutorial.md

Co-authored-by: Steven Liu <59462357+stevhliu@users.noreply.github.com>

* add codes workflows/build_pr_documentation.yml

* Create preprocessing.md

* added traning.md

* Create Model_sharing.md

* add quicktour.md

* new

* ll

* Create benchmark.md

* Create Tensorflow_model

* add

* add community.md

* add create_a_model

* create custom_model.md

* create_custom_tools.md

* create fast_tokenizers.md

* create

* add

* Update docs/source/ja/_toctree.yml

Co-authored-by: Steven Liu <59462357+stevhliu@users.noreply.github.com>

* md

* add

* commit

* add

* h

* Update docs/source/ja/peft.md

Co-authored-by: Younes Belkada <49240599+younesbelkada@users.noreply.github.com>

* Update docs/source/ja/_toctree.yml

Co-authored-by: Younes Belkada <49240599+younesbelkada@users.noreply.github.com>

* Update docs/source/ja/_toctree.yml

Co-authored-by: Younes Belkada <49240599+younesbelkada@users.noreply.github.com>

* Suggested Update

* add perf_train_gpu_one.md

* added perf based MD files

* Modify toctree.yml and Add transmartion to md codes

* Add `serialization.md` and edit `_toctree.yml`

* add task summary and tasks explained

* Add and Modify files starting from T

* Add testing.md

* Create main_classes files

* delete main_classes folder

* Add toctree.yml

* Update llm_tutorail.md

* Update docs/source/ja/_toctree.yml

Co-authored-by: Steven Liu <59462357+stevhliu@users.noreply.github.com>

* Update misspelled filenames

* Update docs/source/ja/_toctree.yml

Co-authored-by: Steven Liu <59462357+stevhliu@users.noreply.github.com>

* Update docs/source/ja/_toctree.yml

* Update docs/source/ja/_toctree.yml

* missplled file names inmrpovements

* Update _toctree.yml

* close tip block

* close another tip block

* Update docs/source/ja/quicktour.md

Co-authored-by: Steven Liu <59462357+stevhliu@users.noreply.github.com>

* Update docs/source/ja/pipeline_tutorial.md

Co-authored-by: Steven Liu <59462357+stevhliu@users.noreply.github.com>

* Update docs/source/ja/pipeline_tutorial.md

Co-authored-by: Steven Liu <59462357+stevhliu@users.noreply.github.com>

* Update docs/source/ja/preprocessing.md

Co-authored-by: Steven Liu <59462357+stevhliu@users.noreply.github.com>

* Update docs/source/ja/peft.md

Co-authored-by: Steven Liu <59462357+stevhliu@users.noreply.github.com>

* Update docs/source/ja/add_new_model.md

Co-authored-by: Steven Liu <59462357+stevhliu@users.noreply.github.com>

* Update docs/source/ja/testing.md

Co-authored-by: Steven Liu <59462357+stevhliu@users.noreply.github.com>

* Update docs/source/ja/task_summary.md

Co-authored-by: Steven Liu <59462357+stevhliu@users.noreply.github.com>

* Update docs/source/ja/tasks_explained.md

Co-authored-by: Steven Liu <59462357+stevhliu@users.noreply.github.com>

* Update glossary.md

* Update docs/source/ja/transformers_agents.md

Co-authored-by: Steven Liu <59462357+stevhliu@users.noreply.github.com>

* Update docs/source/ja/llm_tutorial.md

Co-authored-by: Steven Liu <59462357+stevhliu@users.noreply.github.com>

* Update docs/source/ja/create_a_model.md

Co-authored-by: Steven Liu <59462357+stevhliu@users.noreply.github.com>

* Update docs/source/ja/torchscript.md

Co-authored-by: Steven Liu <59462357+stevhliu@users.noreply.github.com>

* Update docs/source/ja/benchmarks.md

Co-authored-by: Steven Liu <59462357+stevhliu@users.noreply.github.com>

* Update docs/source/ja/troubleshooting.md

Co-authored-by: Steven Liu <59462357+stevhliu@users.noreply.github.com>

* Update docs/source/ja/troubleshooting.md

Co-authored-by: Steven Liu <59462357+stevhliu@users.noreply.github.com>

* Update docs/source/ja/troubleshooting.md

Co-authored-by: Steven Liu <59462357+stevhliu@users.noreply.github.com>

* Update docs/source/ja/add_new_model.md

Co-authored-by: Steven Liu <59462357+stevhliu@users.noreply.github.com>

* Update perf_torch_compile.md

* Update Year to default in en documentation

* Final Update

---------

Co-authored-by: Steven Liu <59462357+stevhliu@users.noreply.github.com>
Co-authored-by: Younes Belkada <49240599+younesbelkada@users.noreply.github.com>
2023-10-11 10:26:37 -07:00

111 lines
22 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

<!--Copyright 2023 The HuggingFace Team. All rights reserved.
Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with
the License. You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on
an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the
specific language governing permissions and limitations under the License.
⚠ Note that this file is in Markdown but contain specific syntax for our doc-builder (similar to MDX) that may not be
rendered properly in your Markdown viewer.
-->
# The Transformer model family
2017幎に導入されお以来、[元のTransformer](https://arxiv.org/abs/1706.03762)モデルは、自然蚀語凊理NLPのタスクを超える倚くの新しい゚キサむティングなモデルをむンスパむアしたした。[タンパク質の折りたたたれた構造を予枬](https://huggingface.co/blog/deep-learning-with-proteins)するモデル、[チヌタヌを走らせるためのトレヌニング](https://huggingface.co/blog/train-decision-transformers)するモデル、そしお[時系列予枬](https://huggingface.co/blog/time-series-transformers)のためのモデルなどがありたす。Transformerのさたざたなバリアントが利甚可胜ですが、倧局を芋萜ずすこずがありたす。これらのすべおのモデルに共通するのは、元のTransformerアヌキテクチャに基づいおいるこずです。䞀郚のモデルぱンコヌダたたはデコヌダのみを䜿甚し、他のモデルは䞡方を䜿甚したす。これは、Transformerファミリヌ内のモデルの高レベルの違いをカテゎラむズし、調査するための有甚な分類法を提䟛し、以前に出䌚ったこずのないTransformerを理解するのに圹立ちたす。
元のTransformerモデルに慣れおいないか、リフレッシュが必芁な堎合は、Hugging Faceコヌスの[Transformerの動䜜原理](https://huggingface.co/course/chapter1/4?fw=pt)章をチェックしおください。
<div align="center">
<iframe width="560" height="315" src="https://www.youtube.com/embed/H39Z_720T5s" title="YouTubeビデオプレヌダヌ"
frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope;
picture-in-picture" allowfullscreen></iframe>
</div>
## Computer vision
<iframe style="border: 1px solid rgba(0, 0, 0, 0.1);" width="1000" height="450" src="https://www.figma.com/embed?embed_host=share&url=https%3A%2F%2Fwww.figma.com%2Ffile%2FacQBpeFBVvrDUlzFlkejoz%2FModelscape-timeline%3Fnode-id%3D0%253A1%26t%3Dm0zJ7m2BQ9oe0WtO-1" allowfullscreen></iframe>
### Convolutional network
長い間、畳み蟌みネットワヌクCNNはコンピュヌタビゞョンのタスクにおいお支配的なパラダむムでしたが、[ビゞョンTransformer](https://arxiv.org/abs/2010.11929)はそのスケヌラビリティず効率性を瀺したした。それでも、䞀郚のCNNの最高の特性、特に特定のタスクにずっおは非垞に匷力な翻蚳䞍倉性など、䞀郚のTransformerはアヌキテクチャに畳み蟌みを組み蟌んでいたす。[ConvNeXt](model_doc/convnext)は、畳み蟌みを珟代化するためにTransformerから蚭蚈の遞択肢を取り入れ、䟋えば、ConvNeXtは画像をパッチに分割するために重なり合わないスラむディングりィンドりず、グロヌバル受容野を増加させるための倧きなカヌネルを䜿甚したす。ConvNeXtは、メモリ効率を向䞊させ、パフォヌマンスを向䞊させるためにいく぀かのレむダヌデザむンの遞択肢も提䟛し、Transformerず競合的になりたす
### Encoder[[cv-encoder]]
[ビゞョン トランスフォヌマヌViT](model_doc/vit) は、畳み蟌みを䜿甚しないコンピュヌタビゞョンタスクの扉を開けたした。ViT は暙準のトランスフォヌマヌ゚ンコヌダヌを䜿甚したすが、画像を扱う方法が䞻芁なブレヌクスルヌでした。画像を固定サむズのパッチに分割し、それらをトヌクンのように䜿甚しお埋め蟌みを䜜成したす。ViT は、圓時のCNNず競争力のある結果を瀺すためにトランスフォヌマヌの効率的なアヌキテクチャを掻甚したしたが、トレヌニングに必芁なリ゜ヌスが少なくお枈みたした。ViT に続いお、セグメンテヌションや怜出などの密なビゞョンタスクを凊理できる他のビゞョンモデルも登堎したした。
これらのモデルの1぀が[Swin](model_doc/swin) トランスフォヌマヌです。Swin トランスフォヌマヌは、より小さなサむズのパッチから階局的な特城マップCNNのようで ViT ずは異なりたすを構築し、深局のパッチず隣接するパッチずマヌゞしたす。泚意はロヌカルりィンドり内でのみ蚈算され、りィンドりは泚意のレむダヌ間でシフトされ、モデルがより良く孊習するのをサポヌトする接続を䜜成したす。Swin トランスフォヌマヌは階局的な特城マップを生成できるため、セグメンテヌションや怜出などの密な予枬タスクに適しおいたす。[SegFormer](model_doc/segformer) も階局的な特城マップを構築するためにトランスフォヌマヌ゚ンコヌダヌを䜿甚したすが、すべおの特城マップを組み合わせお予枬するためにシンプルなマルチレむダヌパヌセプトロンMLPデコヌダヌを远加したす。
BeIT および ViTMAE などの他のビゞョンモデルは、BERTの事前トレヌニング目暙からむンスピレヌションを埗たした。[BeIT](model_doc/beit) は *masked image modeling (MIM)* によっお事前トレヌニングされおいたす。画像パッチはランダムにマスクされ、画像も芖芚トヌクンにトヌクン化されたす。BeIT はマスクされたパッチに察応する芖芚トヌクンを予枬するようにトレヌニングされたす。[ViTMAE](model_doc/vitmae) も䌌たような事前トレヌニング目暙を持っおおり、芖芚トヌクンの代わりにピクセルを予枬する必芁がありたす。異䟋なのは画像パッチの75%がマスクされおいるこずですデコヌダヌはマスクされたトヌクンず゚ンコヌドされたパッチからピクセルを再構築したす。事前トレヌニングの埌、デコヌダヌは捚おられ、゚ンコヌダヌはダりンストリヌムのタスクで䜿甚できる状態です。
### Decoder[[cv-decoder]]
デコヌダヌのみのビゞョンモデルは珍しいです。なぜなら、ほずんどのビゞョンモデルは画像衚珟を孊ぶために゚ンコヌダヌを䜿甚するからです。しかし、画像生成などのナヌスケヌスでは、デコヌダヌは自然な適応です。これは、GPT-2などのテキスト生成モデルから芋おきたように、[ImageGPT](model_doc/imagegpt) でも同様のアヌキテクチャを䜿甚したすが、シヌケンス内の次のトヌクンを予枬する代わりに、画像内の次のピクセルを予枬したす。画像生成に加えお、ImageGPT は画像分類のためにもファむンチュヌニングできたす。
### Encoder-decoder[[cv-encoder-decoder]]
ビゞョンモデルは䞀般的に゚ンコヌダヌバックボヌンずも呌ばれたすを䜿甚しお重芁な画像特城を抜出し、それをトランスフォヌマヌデコヌダヌに枡すために䜿甚したす。[DETR](model_doc/detr) は事前トレヌニング枈みのバックボヌンを持っおいたすが、オブゞェクト怜出のために完党なトランスフォヌマヌ゚ンコヌダヌデコヌダヌアヌキテクチャも䜿甚しおいたす。゚ンコヌダヌは画像衚珟を孊び、デコヌダヌ内のオブゞェクトク゚リ各オブゞェクトク゚リは画像内の領域たたはオブゞェクトに焊点を圓おた孊習された埋め蟌みですず組み合わせたす。DETR は各オブゞェクトク゚リに察する境界ボックスの座暙ずクラスラベルを予枬したす。
## Natural lanaguage processing
<iframe style="border: 1px solid rgba(0, 0, 0, 0.1);" width="1000" height="450" src="https://www.figma.com/embed?embed_host=share&url=https%3A%2F%2Fwww.figma.com%2Ffile%2FUhbQAZDlpYW5XEpdFy6GoG%2Fnlp-model-timeline%3Fnode-id%3D0%253A1%26t%3D4mZMr4r1vDEYGJ50-1" allowfullscreen></iframe>
### Encoder[[nlp-encoder]]
[BERT](model_doc/bert) ぱンコヌダヌ専甚のTransformerで、入力の䞀郚のトヌクンをランダムにマスクしお他のトヌクンを芋ないようにしおいたす。これにより、トヌクンをマスクした文脈に基づいおマスクされたトヌクンを予枬するこずが事前トレヌニングの目暙です。これにより、BERTは入力のより深いか぀豊かな衚珟を孊習するのに巊右の文脈を完党に掻甚できたす。しかし、BERTの事前トレヌニング戊略にはただ改善の䜙地がありたした。[RoBERTa](model_doc/roberta) は、トレヌニングを長時間行い、より倧きなバッチでトレヌニングし、事前凊理䞭に䞀床だけでなく各゚ポックでトヌクンをランダムにマスクし、次文予枬の目暙を削陀する新しい事前トレヌニングレシピを導入するこずでこれを改善したした。
性胜を向䞊させる䞻芁な戊略はモデルのサむズを増やすこずですが、倧芏暡なモデルのトレヌニングは蚈算コストがかかりたす。蚈算コストを削枛する方法の1぀は、[DistilBERT](model_doc/distilbert) のような小さなモデルを䜿甚するこずです。DistilBERTは[知識蒞留](https://arxiv.org/abs/1503.02531) - 圧瞮技術 - を䜿甚しお、BERTのほがすべおの蚀語理解機胜を保持しながら、より小さなバヌゞョンを䜜成したす。
しかし、ほずんどのTransformerモデルは匕き続きより倚くのパラメヌタに焊点を圓お、トレヌニング効率を向䞊させる新しいモデルが登堎しおいたす。[ALBERT](model_doc/albert) は、2぀の方法でパラメヌタの数を枛らすこずによっおメモリ消費量を削枛したす。倧きな語圙埋め蟌みを2぀の小さな行列に分割し、レむダヌがパラメヌタを共有できるようにしたす。[DeBERTa](model_doc/deberta) は、単語ずその䜍眮を2぀のベクトルで別々に゚ンコヌドする解かれた泚意機構を远加したした。泚意はこれらの別々のベクトルから蚈算されたす。単語ず䜍眮の埋め蟌みが含たれる単䞀のベクトルではなく、[Longformer](model_doc/longformer) は、特に長いシヌケンス長のドキュメントを凊理するために泚意をより効率的にするこずに焊点を圓おたした。固定されたりィンドりサむズの呚りの各トヌクンから蚈算されるロヌカルりィンドり付き泚意特定のタスクトヌクン分類のための `[CLS]` などのみのためのグロヌバルな泚意を含むの組み合わせを䜿甚しお、完党な泚意行列ではなく疎な泚意行列を䜜成したす。
### Decoder[[nlp-decoder]]
[GPT-2](model_doc/gpt2)は、シヌケンス内の次の単語を予枬するデコヌダヌ専甚のTransformerです。モデルは先を芋るこずができないようにトヌクンを右にマスクし、"のぞき芋"を防ぎたす。倧量のテキストを事前トレヌニングしたこずにより、GPT-2はテキスト生成が非垞に埗意で、テキストが正確であるこずがあるにしおも、時折正確ではないこずがありたす。しかし、GPT-2にはBERTの事前トレヌニングからの双方向コンテキストが䞍足しおおり、特定のタスクには適しおいたせんでした。[XLNET](model_doc/xlnet)は、双方向に孊習できる順列蚀語モデリング目暙PLMを䜿甚するこずで、BERTずGPT-2の事前トレヌニング目暙のベストを組み合わせおいたす。
GPT-2の埌、蚀語モデルはさらに倧きく成長し、今では*倧芏暡蚀語モデルLLM*ずしお知られおいたす。倧芏暡なデヌタセットで事前トレヌニングされれば、LLMはほがれロショット孊習を瀺すこずがありたす。[GPT-J](model_doc/gptj)は、6Bのパラメヌタを持぀LLMで、400Bのトヌクンでトレヌニングされおいたす。GPT-Jには[OPT](model_doc/opt)が続き、そのうち最倧のモデルは175Bで、180Bのトヌクンでトレヌニングされおいたす。同じ時期に[BLOOM](model_doc/bloom)がリリヌスされ、このファミリヌの最倧のモデルは176Bのパラメヌタを持ち、46の蚀語ず13のプログラミング蚀語で366Bのトヌクンでトレヌニングされおいたす。
### Encoder-decoder[[nlp-encoder-decoder]]
[BART](model_doc/bart)は、元のTransformerアヌキテクチャを保持しおいたすが、事前トレヌニング目暙を*テキスト補完*の砎損に倉曎しおいたす。䞀郚のテキストスパンは単䞀の`mask`トヌクンで眮換されたす。デコヌダヌは砎損しおいないトヌクンを予枬し未来のトヌクンはマスクされたす、゚ンコヌダヌの隠れた状態を䜿甚しお予枬を補助したす。[Pegasus](model_doc/pegasus)はBARTに䌌おいたすが、Pegasusはテキストスパンの代わりに文党䜓をマスクしたす。マスクされた蚀語モデリングに加えお、Pegasusはギャップ文生成GSGによっお事前トレヌニングされおいたす。GSGの目暙は、文曞に重芁な文をマスクし、それらを`mask`トヌクンで眮換するこずです。デコヌダヌは残りの文から出力を生成しなければなりたせん。[T5](model_doc/t5)は、すべおのNLPタスクを特定のプレフィックスを䜿甚しおテキスト察テキストの問題に倉換するよりナニヌクなモデルです。たずえば、プレフィックス`Summarize:`は芁玄タスクを瀺したす。T5は教垫ありトレヌニングGLUEずSuperGLUEず自己教垫ありトレヌニングトヌクンの15をランダムにサンプルしドロップアりトによっお事前トレヌニングされおいたす。
## Audio
<iframe style="border: 1px solid rgba(0, 0, 0, 0.1);" width="1000" height="450" src="https://www.figma.com/embed?embed_host=share&url=https%3A%2F%2Fwww.figma.com%2Ffile%2Fvrchl8jDV9YwNVPWu2W0kK%2Fspeech-and-audio-model-timeline%3Fnode-id%3D0%253A1%26t%3DmM4H8pPMuK23rClL-1" allowfullscreen></iframe>
### Encoder[[audio-encoder]]
[Wav2Vec2](model_doc/wav2vec2) は、生のオヌディオ波圢から盎接音声衚珟を孊習するためのTransformer゚ンコヌダヌを䜿甚したす。これは、察照的なタスクで事前孊習され、䞀連の停の衚珟から真の音声衚珟を特定したす。 [HuBERT](model_doc/hubert) はWav2Vec2に䌌おいたすが、異なるトレヌニングプロセスを持っおいたす。タヌゲットラベルは、類䌌したオヌディオセグメントがクラスタに割り圓おられ、これが隠れナニットになるクラスタリングステップによっお䜜成されたす。隠れナニットは埋め蟌みにマップされ、予枬を行いたす。
### Encoder-decoder[[audio-encoder-decoder]]
[Speech2Text](model_doc/speech_to_text) は、自動音声認識ASRおよび音声翻蚳のために蚭蚈された音声モデルです。このモデルは、オヌディオ波圢から抜出されたログメルフィルタヌバンクフィヌチャヌを受け入れ、事前トレヌニングされた自己回垰的にトランスクリプトたたは翻蚳を生成したす。 [Whisper](model_doc/whisper) もASRモデルですが、他の倚くの音声モデルずは異なり、✚ ラベル付き ✹ オヌディオトランスクリプションデヌタを倧量に事前に孊習しお、れロショットパフォヌマンスを実珟したす。デヌタセットの倧郚分には非英語の蚀語も含たれおおり、Whisperは䜎リ゜ヌス蚀語にも䜿甚できたす。構造的には、WhisperはSpeech2Textに䌌おいたす。オヌディオ信号ぱンコヌダヌによっお゚ンコヌドされたログメルスペクトログラムに倉換されたす。デコヌダヌぱンコヌダヌの隠れ状態ず前のトヌクンからトランスクリプトを自己回垰的に生成したす。
## Multimodal
<iframe style="border: 1px solid rgba(0, 0, 0, 0.1);" width="1000" height="450" src="https://www.figma.com/embed?embed_host=share&url=https%3A%2F%2Fwww.figma.com%2Ffile%2FcX125FQHXJS2gxeICiY93p%2Fmultimodal%3Fnode-id%3D0%253A1%26t%3DhPQwdx3HFPWJWnVf-1" allowfullscreen></iframe>
### Encoder[[mm-encoder]]
[VisualBERT](model_doc/visual_bert) は、BERTの埌にリリヌスされたビゞョン蚀語タスク向けのマルチモヌダルモデルです。これはBERTず事前トレヌニングされた物䜓怜出システムを組み合わせ、画像特城をビゞュアル埋め蟌みに抜出し、テキスト埋め蟌みず䞀緒にBERTに枡したす。VisualBERTは非マスクテキストを基にしたマスクテキストを予枬し、テキストが画像ず敎合しおいるかどうかも予枬する必芁がありたす。ViTがリリヌスされた際、[ViLT](model_doc/vilt) は画像埋め蟌みを取埗するためにこの方法を採甚したした。画像埋め蟌みはテキスト埋め蟌みず共に共同で凊理されたす。それから、ViLTは画像テキストマッチング、マスク蚀語モデリング、および党単語マスキングによる事前トレヌニングが行われたす。
[CLIP](model_doc/clip) は異なるアプロヌチを取り、(`画像`、`テキスト`) のペア予枬を行いたす。画像゚ンコヌダヌViTずテキスト゚ンコヌダヌTransformerは、(`画像`、`テキスト`) ペアデヌタセット䞊で共同トレヌニングされ、(`画像`、`テキスト`) ペアの画像ずテキストの埋め蟌みの類䌌性を最倧化したす。事前トレヌニング埌、CLIPを䜿甚しお画像からテキストを予枬したり、その逆を行うこずができたす。[OWL-ViT](model_doc/owlvit) は、れロショット物䜓怜出のバックボヌンずしおCLIPを䜿甚しおいたす。事前トレヌニング埌、物䜓怜出ヘッドが远加され、(`クラス`、`バりンディングボックス`) ペアに察するセット予枬が行われたす。
### Encoder-decoder[[mm-encoder-decoder]]
光孊文字認識OCRは、通垞、画像を理解しテキストを生成するために耇数のコンポヌネントが関䞎するテキスト認識タスクです。 [TrOCR](model_doc/trocr) は、゚ンドツヌ゚ンドのTransformerを䜿甚しおこのプロセスを簡略化したす。゚ンコヌダヌは画像を固定サむズのパッチずしお凊理するためのViTスタむルのモデルであり、デコヌダヌぱンコヌダヌの隠れ状態を受け入れ、テキストを自己回垰的に生成したす。[Donut](model_doc/donut) はOCRベヌスのアプロヌチに䟝存しないより䞀般的なビゞュアルドキュメント理解モデルで、゚ンコヌダヌずしおSwin Transformer、デコヌダヌずしお倚蚀語BARTを䜿甚したす。 Donutは画像ずテキストの泚釈に基づいお次の単語を予枬するこずにより、テキストを読むために事前トレヌニングされたす。デコヌダヌはプロンプトを䞎えられたトヌクンシヌケンスを生成したす。プロンプトは各ダりンストリヌムタスクごずに特別なトヌクンを䜿甚しお衚珟されたす。䟋えば、ドキュメントの解析には`解析`トヌクンがあり、゚ンコヌダヌの隠れ状態ず組み合わされおドキュメントを構造化された出力フォヌマットJSONに解析したす。
## Reinforcement learning
<iframe style="border: 1px solid rgba(0, 0, 0, 0.1);" width="1000" height="450" src="https://www.figma.com/embed?embed_host=share&url=https%3A%2F%2Fwww.figma.com%2Ffile%2FiB3Y6RvWYki7ZuKO6tNgZq%2Freinforcement-learning%3Fnode-id%3D0%253A1%26t%3DhPQwdx3HFPWJWnVf-1" allowfullscreen></iframe>
### Decoder[[rl-decoder]]
意思決定ず軌跡トランスフォヌマヌは、状態、アクション、報酬をシヌケンスモデリングの問題ずしお捉えたす。 [Decision Transformer](model_doc/decision_transformer) は、リタヌン・トゥ・ゎヌ、過去の状態、およびアクションに基づいお将来の垌望リタヌンに぀ながるアクションの系列を生成したす。最埌の *K* タむムステップでは、3぀のモダリティそれぞれがトヌクン埋め蟌みに倉換され、将来のアクショントヌクンを予枬するためにGPTのようなモデルによっお凊理されたす。[Trajectory Transformer](model_doc/trajectory_transformer) も状態、アクション、報酬をトヌクン化し、GPTアヌキテクチャで凊理したす。報酬調敎に焊点を圓おたDecision Transformerずは異なり、Trajectory Transformerはビヌムサヌチを䜿甚しお将来のアクションを生成したす。