Update quality tooling for formatting (#21480)

* Result of black 23.1 * Update target to Python 3.7 * Switch flake8 to ruff * Configure isort * Configure isort * Apply isort with line limit * Put the right black version * adapt black in check copies * Fix copies
2025-07-04 05:10:06 +06:00 · 2023-02-06 18:10:56 -05:00 · 2023-02-06 18:10:56 -05:00 · 6f79d26442
commit 6f79d26442
parent b7bb2b59f7
1211 changed files with 1532 additions and 2687 deletions
--- a/.circleci/config.yml
+++ b/.circleci/config.yml
@ -134,11 +134,10 @@ jobs:
                command: pip freeze | tee installed.txt
            - store_artifacts:
                  path: ~/transformers/installed.txt
-            - run: black --check --preview examples tests src utils
+            - run: black --check examples tests src utils
-            - run: isort --check-only examples tests src utils
+            - run: ruff examples tests src utils
            - run: python utils/custom_init_isort.py --check_only
            - run: python utils/sort_auto_mappings.py --check_only
            - run: flake8 examples tests src utils
            - run: doc-builder style src/transformers docs/source --max_len 119 --check_only --path_to_docs docs/source
            - run: python utils/check_doc_toc.py
--- a/14
+++ b/14
@ -9,9 +9,8 @@ modified_only_fixup:
 	$(eval modified_py_files := $(shell python utils/get_modified_files.py $(check_dirs)))
 	@if test -n "$(modified_py_files)"; then \
 		echo "Checking/fixing $(modified_py_files)"; \
-		black --preview $(modified_py_files); \
+		black $(modified_py_files); \
-		isort $(modified_py_files); \
+		ruff $(modified_py_files) --fix; \
 		flake8 $(modified_py_files); \
 	else \
 		echo "No library .py files were modified"; \
 	fi
@ -48,11 +47,10 @@ repo-consistency:
 # this target runs checks on all files
 quality:
-	black --check --preview $(check_dirs)
+	black --check $(check_dirs)
 	isort --check-only $(check_dirs)
 	python utils/custom_init_isort.py --check_only
 	python utils/sort_auto_mappings.py --check_only
-	flake8 $(check_dirs)
+	ruff $(check_dirs)
 	doc-builder style src/transformers docs/source --max_len 119 --check_only --path_to_docs docs/source
 	python utils/check_doc_toc.py
@ -67,8 +65,8 @@ extra_style_checks:
 # this target runs checks on all files and potentially modifies some of them
 style:
-	black --preview $(check_dirs)
+	black $(check_dirs)
-	isort $(check_dirs)
+	ruff $(check_dirs) --fix
 	${MAKE} autogenerate_code
 	${MAKE} extra_style_checks
--- a/docs/source/en/pipeline_webserver.mdx
+++ b/docs/source/en/pipeline_webserver.mdx
@ -96,7 +96,7 @@ while True:
    queues.append(rq)
 strings
 outs = pipe(strings, batch_size=len(strings))
-for (rq, out) in zip(queues, outs):
+for rq, out in zip(queues, outs):
    await rq.put(out)
 ```
--- a/docs/source/en/tasks/asr.mdx
+++ b/docs/source/en/tasks/asr.mdx
@ -166,7 +166,6 @@ Unlike other data collators, this specific data collator needs to apply a differ
 >>> @dataclass
 ... class DataCollatorCTCWithPadding:
 ...     processor: AutoProcessor
 ...     padding: Union[bool, str] = "longest"
--- a/docs/source/en/tasks/object_detection.mdx
+++ b/docs/source/en/tasks/object_detection.mdx
@ -213,7 +213,6 @@ The `image_processor` expects the annotations to be in the following format: `{'
 ```py
 >>> def formatted_anns(image_id, category, area, bbox):
 ...     annotations = []
 ...     for i in range(0, len(category)):
 ...         new_ann = {
@ -399,6 +398,7 @@ First, prepare the `cppe5["test"]` set: format the annotations and save the data
 ```py
 >>> import json
 >>> # format annotations the same as for training, no need for data augmentation
 >>> def val_formatted_anns(image_id, objects):
 ...     annotations = []
--- a/docs/source/es/tasks/asr.mdx
+++ b/docs/source/es/tasks/asr.mdx
@ -159,7 +159,6 @@ A diferencia de otros collators de datos, este tiene que aplicarle un método de
 >>> @dataclass
 ... class DataCollatorCTCWithPadding:
 ...     processor: AutoProcessor
 ...     padding: Union[bool, str] = "longest"
--- a/examples/flax/image-captioning/run_image_captioning_flax.py
+++ b/examples/flax/image-captioning/run_image_captioning_flax.py
@ -29,23 +29,23 @@ from pathlib import Path
 from typing import Callable, Optional
 import datasets
 import nltk  # Here to have a nice missing dependency error message early on
 import numpy as np
 from datasets import Dataset, load_dataset
 from PIL import Image
 from tqdm import tqdm
 import evaluate
 import jax
 import jax.numpy as jnp
 import nltk  # Here to have a nice missing dependency error message early on
 import numpy as np
 import optax
-import transformers
+from datasets import Dataset, load_dataset
 from filelock import FileLock
 from flax import jax_utils, traverse_util
 from flax.jax_utils import unreplicate
 from flax.training import train_state
 from flax.training.common_utils import get_metrics, onehot, shard, shard_prng_key
 from huggingface_hub import Repository, create_repo
 from PIL import Image
 from tqdm import tqdm
 import transformers
 from transformers import (
    AutoImageProcessor,
    AutoTokenizer,
--- a/examples/flax/language-modeling/run_bart_dlm_flax.py
+++ b/examples/flax/language-modeling/run_bart_dlm_flax.py
@ -32,20 +32,20 @@ from itertools import chain
 from pathlib import Path
 from typing import Dict, List, Optional
 import nltk
 import numpy as np
 from datasets import load_dataset
 from tqdm import tqdm
 import flax
 import jax
 import jax.numpy as jnp
 import nltk
 import numpy as np
 import optax
 from datasets import load_dataset
 from flax import jax_utils, traverse_util
 from flax.jax_utils import pad_shard_unpad
 from flax.training import train_state
 from flax.training.common_utils import get_metrics, onehot, shard
 from huggingface_hub import Repository, create_repo
 from tqdm import tqdm
 from transformers import (
    CONFIG_MAPPING,
    FLAX_MODEL_FOR_MASKED_LM_MAPPING,
--- a/examples/flax/language-modeling/run_clm_flax.py
+++ b/examples/flax/language-modeling/run_clm_flax.py
@ -34,19 +34,19 @@ from pathlib import Path
 from typing import Callable, Optional
 import datasets
 import numpy as np
 from datasets import Dataset, load_dataset
 from tqdm import tqdm
 import jax
 import jax.numpy as jnp
 import numpy as np
 import optax
-import transformers
+from datasets import Dataset, load_dataset
 from flax import jax_utils, traverse_util
 from flax.jax_utils import pad_shard_unpad, unreplicate
 from flax.training import train_state
 from flax.training.common_utils import get_metrics, onehot, shard, shard_prng_key
 from huggingface_hub import Repository, create_repo
 from tqdm import tqdm
 import transformers
 from transformers import (
    CONFIG_MAPPING,
    FLAX_MODEL_FOR_CAUSAL_LM_MAPPING,
--- a/examples/flax/language-modeling/run_mlm_flax.py
+++ b/examples/flax/language-modeling/run_mlm_flax.py
@ -34,19 +34,19 @@ from itertools import chain
 from pathlib import Path
 from typing import Dict, List, Optional, Tuple
 import numpy as np
 from datasets import load_dataset
 from tqdm import tqdm
 import flax
 import jax
 import jax.numpy as jnp
 import numpy as np
 import optax
 from datasets import load_dataset
 from flax import jax_utils, traverse_util
 from flax.jax_utils import pad_shard_unpad
 from flax.training import train_state
 from flax.training.common_utils import get_metrics, onehot, shard
 from huggingface_hub import Repository, create_repo
 from tqdm import tqdm
 from transformers import (
    CONFIG_MAPPING,
    FLAX_MODEL_FOR_MASKED_LM_MAPPING,
--- a/examples/flax/language-modeling/run_t5_mlm_flax.py
+++ b/examples/flax/language-modeling/run_t5_mlm_flax.py
@ -33,19 +33,19 @@ from itertools import chain
 from pathlib import Path
 from typing import Dict, List, Optional
 import numpy as np
 from datasets import load_dataset
 from tqdm import tqdm
 import flax
 import jax
 import jax.numpy as jnp
 import numpy as np
 import optax
 from datasets import load_dataset
 from flax import jax_utils, traverse_util
 from flax.jax_utils import pad_shard_unpad
 from flax.training import train_state
 from flax.training.common_utils import get_metrics, onehot, shard
 from huggingface_hub import Repository, create_repo
 from tqdm import tqdm
 from transformers import (
    CONFIG_MAPPING,
    FLAX_MODEL_FOR_MASKED_LM_MAPPING,
--- a/examples/flax/question-answering/run_qa.py
+++ b/examples/flax/question-answering/run_qa.py
@ -31,20 +31,21 @@ from pathlib import Path
 from typing import Any, Callable, Dict, Optional, Tuple
 import datasets
 import numpy as np
 from datasets import load_dataset
 from tqdm import tqdm
 import evaluate
 import jax
 import jax.numpy as jnp
 import numpy as np
 import optax
-import transformers
+from datasets import load_dataset
 from flax import struct, traverse_util
 from flax.jax_utils import pad_shard_unpad, replicate, unreplicate
 from flax.training import train_state
 from flax.training.common_utils import get_metrics, onehot, shard
 from huggingface_hub import Repository, create_repo
 from tqdm import tqdm
 from utils_qa import postprocess_qa_predictions
 import transformers
 from transformers import (
    AutoConfig,
    AutoTokenizer,
@ -55,7 +56,6 @@ from transformers import (
    is_tensorboard_available,
 )
 from transformers.utils import check_min_version, get_full_repo_name, send_example_telemetry
 from utils_qa import postprocess_qa_predictions
 logger = logging.getLogger(__name__)
@ -301,6 +301,7 @@ class DataTrainingArguments:
 # endregion
 # region Create a train state
 def create_train_state(
    model: FlaxAutoModelForQuestionAnswering,
@ -387,6 +388,7 @@ def create_learning_rate_fn(
 # endregion
 # region train data iterator
 def train_data_collator(rng: PRNGKey, dataset: Dataset, batch_size: int):
    """Returns shuffled batches of size `batch_size` from truncated `train dataset`, sharded over all local devices."""
@ -405,6 +407,7 @@ def train_data_collator(rng: PRNGKey, dataset: Dataset, batch_size: int):
 # endregion
 # region eval data iterator
 def eval_data_collator(dataset: Dataset, batch_size: int):
    """Returns batches of size `batch_size` from `eval dataset`. Sharding handled by `pad_shard_unpad` in the eval loop."""
@ -934,7 +937,6 @@ def main():
    total_steps = step_per_epoch * num_epochs
    epochs = tqdm(range(num_epochs), desc=f"Epoch ... (1/{num_epochs})", position=0)
    for epoch in epochs:
        train_start = time.time()
        train_metrics = []
@ -975,7 +977,6 @@ def main():
                and (cur_step % training_args.eval_steps == 0 or cur_step % step_per_epoch == 0)
                and cur_step > 0
            ):
                eval_metrics = {}
                all_start_logits = []
                all_end_logits = []
--- a/examples/flax/summarization/run_summarization_flax.py
+++ b/examples/flax/summarization/run_summarization_flax.py
@ -31,22 +31,22 @@ from pathlib import Path
 from typing import Callable, Optional
 import datasets
 import nltk  # Here to have a nice missing dependency error message early on
 import numpy as np
 from datasets import Dataset, load_dataset
 from tqdm import tqdm
 import evaluate
 import jax
 import jax.numpy as jnp
 import nltk  # Here to have a nice missing dependency error message early on
 import numpy as np
 import optax
-import transformers
+from datasets import Dataset, load_dataset
 from filelock import FileLock
 from flax import jax_utils, traverse_util
 from flax.jax_utils import pad_shard_unpad, unreplicate
 from flax.training import train_state
 from flax.training.common_utils import get_metrics, onehot, shard, shard_prng_key
 from huggingface_hub import Repository, create_repo
 from tqdm import tqdm
 import transformers
 from transformers import (
    CONFIG_MAPPING,
    FLAX_MODEL_FOR_SEQ_TO_SEQ_CAUSAL_LM_MAPPING,
--- a/examples/flax/text-classification/run_flax_glue.py
+++ b/examples/flax/text-classification/run_flax_glue.py
@ -26,20 +26,20 @@ from pathlib import Path
 from typing import Any, Callable, Dict, Optional, Tuple
 import datasets
 import numpy as np
 from datasets import load_dataset
 from tqdm import tqdm
 import evaluate
 import jax
 import jax.numpy as jnp
 import numpy as np
 import optax
-import transformers
+from datasets import load_dataset
 from flax import struct, traverse_util
 from flax.jax_utils import pad_shard_unpad, replicate, unreplicate
 from flax.training import train_state
 from flax.training.common_utils import get_metrics, onehot, shard
 from huggingface_hub import Repository, create_repo
 from tqdm import tqdm
 import transformers
 from transformers import (
    AutoConfig,
    AutoTokenizer,
@ -586,7 +586,6 @@ def main():
    total_steps = steps_per_epoch * num_epochs
    epochs = tqdm(range(num_epochs), desc=f"Epoch ... (0/{num_epochs})", position=0)
    for epoch in epochs:
        train_start = time.time()
        train_metrics = []
@ -623,7 +622,6 @@ def main():
                train_metrics = []
            if (cur_step % training_args.eval_steps == 0 or cur_step % steps_per_epoch == 0) and cur_step > 0:
                # evaluate
                eval_loader = glue_eval_data_collator(eval_dataset, eval_batch_size)
                for batch in tqdm(
--- a/examples/flax/token-classification/run_flax_ner.py
+++ b/examples/flax/token-classification/run_flax_ner.py
@ -28,20 +28,20 @@ from pathlib import Path
 from typing import Any, Callable, Dict, Optional, Tuple
 import datasets
 import numpy as np
 from datasets import ClassLabel, load_dataset
 from tqdm import tqdm
 import evaluate
 import jax
 import jax.numpy as jnp
 import numpy as np
 import optax
-import transformers
+from datasets import ClassLabel, load_dataset
 from flax import struct, traverse_util
 from flax.jax_utils import pad_shard_unpad, replicate, unreplicate
 from flax.training import train_state
 from flax.training.common_utils import get_metrics, onehot, shard
 from huggingface_hub import Repository, create_repo
 from tqdm import tqdm
 import transformers
 from transformers import (
    AutoConfig,
    AutoTokenizer,
@ -695,7 +695,6 @@ def main():
    total_steps = step_per_epoch * num_epochs
    epochs = tqdm(range(num_epochs), desc=f"Epoch ... (1/{num_epochs})", position=0)
    for epoch in epochs:
        train_start = time.time()
        train_metrics = []
@ -731,7 +730,6 @@ def main():
                train_metrics = []
            if cur_step % training_args.eval_steps == 0 and cur_step > 0:
                eval_metrics = {}
                # evaluate
                for batch in tqdm(
--- a/examples/flax/vision/run_image_classification.py
+++ b/examples/flax/vision/run_image_classification.py
@ -29,21 +29,22 @@ from enum import Enum
 from pathlib import Path
 from typing import Callable, Optional
 import jax
 import jax.numpy as jnp
 import optax
 # for dataset and preprocessing
 import torch
 import torchvision
 import torchvision.transforms as transforms
 from tqdm import tqdm
 import jax
 import jax.numpy as jnp
 import optax
 import transformers
 from flax import jax_utils
 from flax.jax_utils import pad_shard_unpad, unreplicate
 from flax.training import train_state
 from flax.training.common_utils import get_metrics, onehot, shard, shard_prng_key
 from huggingface_hub import Repository, create_repo
 from tqdm import tqdm
 import transformers
 from transformers import (
    CONFIG_MAPPING,
    FLAX_MODEL_FOR_IMAGE_CLASSIFICATION_MAPPING,
--- a/examples/legacy/multiple_choice/run_multiple_choice.py
+++ b/examples/legacy/multiple_choice/run_multiple_choice.py
@ -22,6 +22,7 @@ from dataclasses import dataclass, field
 from typing import Dict, Optional
 import numpy as np
 from utils_multiple_choice import MultipleChoiceDataset, Split, processors
 import transformers
 from transformers import (
@ -36,7 +37,6 @@ from transformers import (
    set_seed,
 )
 from transformers.trainer_utils import is_main_process
 from utils_multiple_choice import MultipleChoiceDataset, Split, processors
 logger = logging.getLogger(__name__)
--- a/examples/legacy/multiple_choice/utils_multiple_choice.py
+++ b/examples/legacy/multiple_choice/utils_multiple_choice.py
@ -26,8 +26,8 @@ from enum import Enum
 from typing import List, Optional
 import tqdm
 from filelock import FileLock
 from transformers import PreTrainedTokenizer, is_tf_available, is_torch_available
@ -112,7 +112,6 @@ if is_torch_available():
            # and the others will use the cache.
            lock_path = cached_features_file + ".lock"
            with FileLock(lock_path):
                if os.path.exists(cached_features_file) and not overwrite_cache:
                    logger.info(f"Loading features from cached file {cached_features_file}")
                    self.features = torch.load(cached_features_file)
--- a/examples/legacy/pytorch-lightning/lightning_base.py
+++ b/examples/legacy/pytorch-lightning/lightning_base.py
@ -69,7 +69,7 @@ class BaseTransformer(pl.LightningModule):
        config=None,
        tokenizer=None,
        model=None,
-        **config_kwargs
+        **config_kwargs,
    ):
        """Initialize a model, tokenizer and config."""
        super().__init__()
@ -346,7 +346,7 @@ def generic_train(
    extra_callbacks=[],
    checkpoint_callback=None,
    logging_callback=None,
-    **extra_train_kwargs
+    **extra_train_kwargs,
 ):
    pl.seed_everything(args.seed)
--- a/examples/legacy/pytorch-lightning/run_glue.py
+++ b/examples/legacy/pytorch-lightning/run_glue.py
@ -7,21 +7,19 @@ from argparse import Namespace
 import numpy as np
 import torch
 from lightning_base import BaseTransformer, add_generic_args, generic_train
 from torch.utils.data import DataLoader, TensorDataset
 from lightning_base import BaseTransformer, add_generic_args, generic_train
 from transformers import glue_compute_metrics as compute_metrics
 from transformers import glue_convert_examples_to_features as convert_examples_to_features
-from transformers import glue_output_modes
+from transformers import glue_output_modes, glue_tasks_num_labels
 from transformers import glue_processors as processors
 from transformers import glue_tasks_num_labels
 logger = logging.getLogger(__name__)
 class GLUETransformer(BaseTransformer):
    mode = "sequence-classification"
    def __init__(self, hparams):
--- a/examples/legacy/pytorch-lightning/run_ner.py
+++ b/examples/legacy/pytorch-lightning/run_ner.py
@ -7,11 +7,10 @@ from importlib import import_module
 import numpy as np
 import torch
 from lightning_base import BaseTransformer, add_generic_args, generic_train
 from seqeval.metrics import accuracy_score, f1_score, precision_score, recall_score
 from torch.nn import CrossEntropyLoss
 from torch.utils.data import DataLoader, TensorDataset
 from lightning_base import BaseTransformer, add_generic_args, generic_train
 from utils_ner import TokenClassificationTask
--- a/examples/legacy/question-answering/run_squad.py
+++ b/examples/legacy/question-answering/run_squad.py
@ -172,7 +172,6 @@ def train(args, train_dataset, model, tokenizer):
    for _ in train_iterator:
        epoch_iterator = tqdm(train_dataloader, desc="Iteration", disable=args.local_rank not in [-1, 0])
        for step, batch in enumerate(epoch_iterator):
            # Skip past any already trained steps if resuming training
            if steps_trained_in_current_epoch > 0:
                steps_trained_in_current_epoch -= 1
--- a/examples/legacy/question-answering/run_squad_trainer.py
+++ b/examples/legacy/question-answering/run_squad_trainer.py
@ -30,9 +30,10 @@ from transformers import (
    DataCollatorWithPadding,
    HfArgumentParser,
    SquadDataset,
    Trainer,
    TrainingArguments,
 )
 from transformers import SquadDataTrainingArguments as DataTrainingArguments
 from transformers import Trainer, TrainingArguments
 from transformers.trainer_utils import is_main_process
--- a/examples/legacy/run_chinese_ref.py
+++ b/examples/legacy/run_chinese_ref.py
@ -4,6 +4,7 @@ import json
 from typing import List
 from ltp import LTP
 from transformers import BertTokenizer
@ -93,7 +94,6 @@ def prepare_ref(lines: List[str], ltp_tokenizer: LTP, bert_tokenizer: BertTokeni
    ref_ids = []
    for input_ids, chinese_word in zip(bert_res, ltp_res):
        input_tokens = []
        for id in input_ids:
            token = bert_tokenizer._convert_id_to_token(id)
--- a/examples/legacy/seq2seq/finetune_trainer.py
+++ b/examples/legacy/seq2seq/finetune_trainer.py
@ -19,9 +19,10 @@ import sys
 from dataclasses import dataclass, field
 from typing import Optional
 import transformers
 from seq2seq_trainer import Seq2SeqTrainer
 from seq2seq_training_args import Seq2SeqTrainingArguments
 import transformers
 from transformers import (
    AutoConfig,
    AutoModelForSeq2SeqLM,
@ -337,7 +338,6 @@ def main():
        metrics["val_loss"] = round(metrics["val_loss"], 4)
        if trainer.is_world_process_zero():
            handle_metrics("val", metrics, training_args.output_dir)
            all_metrics.update(metrics)
--- a/examples/legacy/seq2seq/old_test_calculate_rouge.py
+++ b/examples/legacy/seq2seq/old_test_calculate_rouge.py
@ -16,8 +16,8 @@ from collections import defaultdict
 from pathlib import Path
 import pandas as pd
 from rouge_cli import calculate_rouge_path
 from utils import calculate_rouge
@ -87,7 +87,6 @@ def test_single_sent_scores_dont_depend_on_newline_sep():
 def test_pegasus_newline():
    pred = [
        """" "a person who has such a video needs to immediately give it to the investigators," prosecutor says .<n> "it is a very disturbing scene," editor-in-chief of bild online tells "erin burnett: outfront" """
    ]
--- a/examples/legacy/seq2seq/old_test_datasets.py
+++ b/examples/legacy/seq2seq/old_test_datasets.py
@ -17,11 +17,11 @@ from pathlib import Path
 import numpy as np
 import pytest
 from torch.utils.data import DataLoader
 from pack_dataset import pack_data_dir
 from parameterized import parameterized
 from save_len_file import save_len_file
 from torch.utils.data import DataLoader
 from transformers import AutoTokenizer
 from transformers.models.mbart.modeling_mbart import shift_tokens_right
 from transformers.testing_utils import TestCasePlus, slow
--- a/examples/legacy/seq2seq/old_test_fsmt_bleu_score.py
+++ b/examples/legacy/seq2seq/old_test_fsmt_bleu_score.py
@ -18,6 +18,7 @@ import json
 import unittest
 from parameterized import parameterized
 from transformers import FSMTForConditionalGeneration, FSMTTokenizer
 from transformers.testing_utils import get_tests_dir, require_torch, slow, torch_device
 from utils import calculate_bleu
--- a/examples/legacy/seq2seq/old_test_seq2seq_examples.py
+++ b/examples/legacy/seq2seq/old_test_seq2seq_examples.py
@ -21,6 +21,7 @@ from unittest.mock import patch
 from parameterized import parameterized
 from run_eval import run_generate
 from run_eval_search import run_search
 from transformers.testing_utils import CaptureStdout, TestCasePlus, slow
 from utils import ROUGE_KEYS
--- a/examples/legacy/seq2seq/pack_dataset.py
+++ b/examples/legacy/seq2seq/pack_dataset.py
@ -29,7 +29,6 @@ from transformers import AutoTokenizer
 def pack_examples(tok, src_examples, tgt_examples, max_tokens=1024):
    finished_src, finished_tgt = [], []
    sorted_examples = list(zip(src_examples, tgt_examples))
--- a/examples/legacy/seq2seq/run_eval_search.py
+++ b/examples/legacy/seq2seq/run_eval_search.py
@ -20,6 +20,7 @@ import sys
 from collections import OrderedDict
 from run_eval import datetime_now, run_generate
 from utils import ROUGE_KEYS
--- a/examples/legacy/seq2seq/seq2seq_training_args.py
+++ b/examples/legacy/seq2seq/seq2seq_training_args.py
@ -17,6 +17,7 @@ from dataclasses import dataclass, field
 from typing import Optional
 from seq2seq_trainer import arg_to_scheduler
 from transformers import TrainingArguments
--- a/examples/legacy/seq2seq/utils.py
+++ b/examples/legacy/seq2seq/utils.py
@ -29,10 +29,10 @@ import torch
 import torch.distributed as dist
 from rouge_score import rouge_scorer, scoring
 from sacrebleu import corpus_bleu
 from sentence_splitter import add_newline_to_end_of_each_sentence
 from torch import nn
 from torch.utils.data import Dataset, Sampler
 from sentence_splitter import add_newline_to_end_of_each_sentence
 from transformers import BartTokenizer, EvalPrediction, PreTrainedTokenizer, T5Tokenizer
 from transformers.models.bart.modeling_bart import shift_tokens_right
 from transformers.utils import cached_property
@ -132,7 +132,7 @@ class AbstractSeq2SeqDataset(Dataset):
        type_path="train",
        n_obs=None,
        prefix="",
-        **dataset_kwargs
+        **dataset_kwargs,
    ):
        super().__init__()
        self.src_file = Path(data_dir).joinpath(type_path + ".source")
--- a/examples/legacy/token-classification/run_ner.py
+++ b/examples/legacy/token-classification/run_ner.py
@ -24,6 +24,7 @@ from typing import Dict, List, Optional, Tuple
 import numpy as np
 from seqeval.metrics import accuracy_score, f1_score, precision_score, recall_score
 from torch import nn
 from utils_ner import Split, TokenClassificationDataset, TokenClassificationTask
 import transformers
 from transformers import (
@ -38,7 +39,6 @@ from transformers import (
    set_seed,
 )
 from transformers.trainer_utils import is_main_process
 from utils_ner import Split, TokenClassificationDataset, TokenClassificationTask
 logger = logging.getLogger(__name__)
--- a/examples/legacy/token-classification/run_tf_ner.py
+++ b/examples/legacy/token-classification/run_tf_ner.py
@ -24,6 +24,7 @@ from typing import Dict, List, Optional, Tuple
 import numpy as np
 from seqeval.metrics import classification_report, f1_score, precision_score, recall_score
 from utils_ner import Split, TFTokenClassificationDataset, TokenClassificationTask
 from transformers import (
    AutoConfig,
@ -35,7 +36,6 @@ from transformers import (
    TFTrainingArguments,
 )
 from transformers.utils import logging as hf_logging
 from utils_ner import Split, TFTokenClassificationDataset, TokenClassificationTask
 hf_logging.set_verbosity_info()
--- a/examples/legacy/token-classification/tasks.py
+++ b/examples/legacy/token-classification/tasks.py
@ -3,7 +3,6 @@ import os
 from typing import List, TextIO, Union
 from conllu import parse_incr
 from utils_ner import InputExample, Split, TokenClassificationTask
--- a/examples/legacy/token-classification/utils_ner.py
+++ b/examples/legacy/token-classification/utils_ner.py
@ -23,6 +23,7 @@ from enum import Enum
 from typing import List, Optional, Union
 from filelock import FileLock
 from transformers import PreTrainedTokenizer, is_tf_available, is_torch_available
@ -240,7 +241,6 @@ if is_torch_available():
            # and the others will use the cache.
            lock_path = cached_features_file + ".lock"
            with FileLock(lock_path):
                if os.path.exists(cached_features_file) and not overwrite_cache:
                    logger.info(f"Loading features from cached file {cached_features_file}")
                    self.features = torch.load(cached_features_file)
--- a/examples/pytorch/audio-classification/run_audio_classification.py
+++ b/examples/pytorch/audio-classification/run_audio_classification.py
@ -23,10 +23,10 @@ from random import randint
 from typing import Optional
 import datasets
 import evaluate
 import numpy as np
 from datasets import DatasetDict, load_dataset
 import evaluate
 import transformers
 from transformers import (
    AutoConfig,
--- a/examples/pytorch/image-classification/run_image_classification.py
+++ b/examples/pytorch/image-classification/run_image_classification.py
@ -19,6 +19,7 @@ import sys
 from dataclasses import dataclass, field
 from typing import Optional
 import evaluate
 import numpy as np
 import torch
 from datasets import load_dataset
@ -33,7 +34,6 @@ from torchvision.transforms import (
    ToTensor,
 )
 import evaluate
 import transformers
 from transformers import (
    MODEL_FOR_IMAGE_CLASSIFICATION_MAPPING,
--- a/examples/pytorch/image-classification/run_image_classification_no_trainer.py
+++ b/examples/pytorch/image-classification/run_image_classification_no_trainer.py
@ -21,8 +21,13 @@ import os
 from pathlib import Path
 import datasets
 import evaluate
 import torch
 from accelerate import Accelerator
 from accelerate.logging import get_logger
 from accelerate.utils import set_seed
 from datasets import load_dataset
 from huggingface_hub import Repository, create_repo
 from torch.utils.data import DataLoader
 from torchvision.transforms import (
    CenterCrop,
@ -35,12 +40,7 @@ from torchvision.transforms import (
 )
 from tqdm.auto import tqdm
 import evaluate
 import transformers
 from accelerate import Accelerator
 from accelerate.logging import get_logger
 from accelerate.utils import set_seed
 from huggingface_hub import Repository, create_repo
 from transformers import AutoConfig, AutoImageProcessor, AutoModelForImageClassification, SchedulerType, get_scheduler
 from transformers.utils import check_min_version, get_full_repo_name, send_example_telemetry
 from transformers.utils.versions import require_version
--- a/examples/pytorch/language-modeling/run_clm.py
+++ b/examples/pytorch/language-modeling/run_clm.py
@ -30,10 +30,10 @@ from itertools import chain
 from typing import Optional
 import datasets
 import evaluate
 import torch
 from datasets import load_dataset
 import evaluate
 import transformers
 from transformers import (
    CONFIG_MAPPING,
--- a/examples/pytorch/language-modeling/run_clm_no_trainer.py
+++ b/examples/pytorch/language-modeling/run_clm_no_trainer.py
@ -33,15 +33,15 @@ from pathlib import Path
 import datasets
 import torch
 from accelerate import Accelerator, DistributedType
 from accelerate.logging import get_logger
 from accelerate.utils import set_seed
 from datasets import load_dataset
 from huggingface_hub import Repository, create_repo
 from torch.utils.data import DataLoader
 from tqdm.auto import tqdm
 import transformers
 from accelerate import Accelerator, DistributedType
 from accelerate.logging import get_logger
 from accelerate.utils import set_seed
 from huggingface_hub import Repository, create_repo
 from transformers import (
    CONFIG_MAPPING,
    MODEL_MAPPING,
--- a/examples/pytorch/language-modeling/run_mlm.py
+++ b/examples/pytorch/language-modeling/run_mlm.py
@ -30,9 +30,9 @@ from itertools import chain
 from typing import Optional
 import datasets
 import evaluate
 from datasets import load_dataset
 import evaluate
 import transformers
 from transformers import (
    CONFIG_MAPPING,
--- a/examples/pytorch/language-modeling/run_mlm_no_trainer.py
+++ b/examples/pytorch/language-modeling/run_mlm_no_trainer.py
@ -33,15 +33,15 @@ from pathlib import Path
 import datasets
 import torch
 from accelerate import Accelerator, DistributedType
 from accelerate.logging import get_logger
 from accelerate.utils import set_seed
 from datasets import load_dataset
 from huggingface_hub import Repository, create_repo
 from torch.utils.data import DataLoader
 from tqdm.auto import tqdm
 import transformers
 from accelerate import Accelerator, DistributedType
 from accelerate.logging import get_logger
 from accelerate.utils import set_seed
 from huggingface_hub import Repository, create_repo
 from transformers import (
    CONFIG_MAPPING,
    MODEL_MAPPING,
--- a/examples/pytorch/multiple-choice/run_swag_no_trainer.py
+++ b/examples/pytorch/multiple-choice/run_swag_no_trainer.py
@ -30,17 +30,17 @@ from pathlib import Path
 from typing import Optional, Union
 import datasets
 import torch
 from datasets import load_dataset
 from torch.utils.data import DataLoader
 from tqdm.auto import tqdm
 import evaluate
-import transformers
+import torch
 from accelerate import Accelerator
 from accelerate.logging import get_logger
 from accelerate.utils import set_seed
 from datasets import load_dataset
 from huggingface_hub import Repository, create_repo
 from torch.utils.data import DataLoader
 from tqdm.auto import tqdm
 import transformers
 from transformers import (
    CONFIG_MAPPING,
    MODEL_MAPPING,
--- a/examples/pytorch/question-answering/run_qa.py
+++ b/examples/pytorch/question-answering/run_qa.py
@ -25,11 +25,12 @@ from dataclasses import dataclass, field
 from typing import Optional
 import datasets
 from datasets import load_dataset
 import evaluate
-import transformers
+from datasets import load_dataset
 from trainer_qa import QuestionAnsweringTrainer
 from utils_qa import postprocess_qa_predictions
 import transformers
 from transformers import (
    AutoConfig,
    AutoModelForQuestionAnswering,
@ -45,7 +46,6 @@ from transformers import (
 from transformers.trainer_utils import get_last_checkpoint
 from transformers.utils import check_min_version, send_example_telemetry
 from transformers.utils.versions import require_version
 from utils_qa import postprocess_qa_predictions
 # Will error if the minimal version of Transformers is not installed. Remove at your own risks.
--- a/examples/pytorch/question-answering/run_qa_beam_search.py
+++ b/examples/pytorch/question-answering/run_qa_beam_search.py
@ -25,11 +25,12 @@ from dataclasses import dataclass, field
 from typing import Optional
 import datasets
 from datasets import load_dataset
 import evaluate
-import transformers
+from datasets import load_dataset
 from trainer_qa import QuestionAnsweringTrainer
 from utils_qa import postprocess_qa_predictions_with_beam_search
 import transformers
 from transformers import (
    DataCollatorWithPadding,
    EvalPrediction,
@ -44,7 +45,6 @@ from transformers import (
 from transformers.trainer_utils import get_last_checkpoint
 from transformers.utils import check_min_version, send_example_telemetry
 from transformers.utils.versions import require_version
 from utils_qa import postprocess_qa_predictions_with_beam_search
 # Will error if the minimal version of Transformers is not installed. Remove at your own risks.
--- a/examples/pytorch/question-answering/run_qa_beam_search_no_trainer.py
+++ b/examples/pytorch/question-answering/run_qa_beam_search_no_trainer.py
@ -27,18 +27,19 @@ import random
 from pathlib import Path
 import datasets
 import evaluate
 import numpy as np
 import torch
 from datasets import load_dataset
 from torch.utils.data import DataLoader
 from tqdm.auto import tqdm
 import evaluate
 import transformers
 from accelerate import Accelerator
 from accelerate.logging import get_logger
 from accelerate.utils import set_seed
 from datasets import load_dataset
 from huggingface_hub import Repository, create_repo
 from torch.utils.data import DataLoader
 from tqdm.auto import tqdm
 from utils_qa import postprocess_qa_predictions_with_beam_search
 import transformers
 from transformers import (
    AdamW,
    DataCollatorWithPadding,
@ -52,7 +53,6 @@ from transformers import (
 )
 from transformers.utils import check_min_version, get_full_repo_name, send_example_telemetry
 from transformers.utils.versions import require_version
 from utils_qa import postprocess_qa_predictions_with_beam_search
 # Will error if the minimal version of Transformers is not installed. Remove at your own risks.
--- a/examples/pytorch/question-answering/run_qa_no_trainer.py
+++ b/examples/pytorch/question-answering/run_qa_no_trainer.py
@ -27,18 +27,19 @@ import random
 from pathlib import Path
 import datasets
 import evaluate
 import numpy as np
 import torch
 from datasets import load_dataset
 from torch.utils.data import DataLoader
 from tqdm.auto import tqdm
 import evaluate
 import transformers
 from accelerate import Accelerator
 from accelerate.logging import get_logger
 from accelerate.utils import set_seed
 from datasets import load_dataset
 from huggingface_hub import Repository, create_repo
 from torch.utils.data import DataLoader
 from tqdm.auto import tqdm
 from utils_qa import postprocess_qa_predictions
 import transformers
 from transformers import (
    CONFIG_MAPPING,
    MODEL_MAPPING,
@ -53,7 +54,6 @@ from transformers import (
 )
 from transformers.utils import check_min_version, get_full_repo_name, send_example_telemetry
 from transformers.utils.versions import require_version
 from utils_qa import postprocess_qa_predictions
 # Will error if the minimal version of Transformers is not installed. Remove at your own risks.
--- a/examples/pytorch/question-answering/run_seq2seq_qa.py
+++ b/examples/pytorch/question-answering/run_seq2seq_qa.py
@ -25,11 +25,11 @@ from dataclasses import dataclass, field
 from typing import List, Optional, Tuple
 import datasets
 from datasets import load_dataset
 import evaluate
-import transformers
+from datasets import load_dataset
 from trainer_seq2seq_qa import QuestionAnsweringSeq2SeqTrainer
 import transformers
 from transformers import (
    AutoConfig,
    AutoModelForSeq2SeqLM,
--- a/examples/pytorch/semantic-segmentation/run_semantic_segmentation.py
+++ b/examples/pytorch/semantic-segmentation/run_semantic_segmentation.py
@ -21,17 +21,17 @@ import sys
 from dataclasses import dataclass, field
 from typing import Optional
 import evaluate
 import numpy as np
 import torch
 from datasets import load_dataset
 from huggingface_hub import hf_hub_download
 from PIL import Image
 from torch import nn
 from torchvision import transforms
 from torchvision.transforms import functional
 import evaluate
 import transformers
 from huggingface_hub import hf_hub_download
 from transformers import (
    AutoConfig,
    AutoImageProcessor,
--- a/examples/pytorch/semantic-segmentation/run_semantic_segmentation_no_trainer.py
+++ b/examples/pytorch/semantic-segmentation/run_semantic_segmentation_no_trainer.py
@ -22,21 +22,21 @@ import random
 from pathlib import Path
 import datasets
 import evaluate
 import numpy as np
 import torch
 from accelerate import Accelerator
 from accelerate.logging import get_logger
 from accelerate.utils import set_seed
 from datasets import load_dataset
 from huggingface_hub import Repository, create_repo, hf_hub_download
 from PIL import Image
 from torch.utils.data import DataLoader
 from torchvision import transforms
 from torchvision.transforms import functional
 from tqdm.auto import tqdm
 import evaluate
 import transformers
 from accelerate import Accelerator
 from accelerate.logging import get_logger
 from accelerate.utils import set_seed
 from huggingface_hub import Repository, create_repo, hf_hub_download
 from transformers import (
    AutoConfig,
    AutoImageProcessor,
--- a/examples/pytorch/speech-pretraining/run_wav2vec2_pretraining_no_trainer.py
+++ b/examples/pytorch/speech-pretraining/run_wav2vec2_pretraining_no_trainer.py
@ -24,14 +24,14 @@ from typing import Dict, List, Optional, Union
 import datasets
 import torch
 from accelerate import Accelerator
 from accelerate.logging import get_logger
 from datasets import DatasetDict, concatenate_datasets, load_dataset
 from huggingface_hub import Repository, create_repo
 from torch.utils.data.dataloader import DataLoader
 from tqdm.auto import tqdm
 import transformers
 from accelerate import Accelerator
 from accelerate.logging import get_logger
 from huggingface_hub import Repository, create_repo
 from transformers import (
    AdamW,
    SchedulerType,
@ -641,7 +641,6 @@ def main():
            # update step
            if (step + 1) % args.gradient_accumulation_steps == 0 or step == len(train_dataloader) - 1:
                # compute grad norm for monitoring
                scale = (
                    accelerator.scaler._scale.item()
--- a/examples/pytorch/speech-recognition/run_speech_recognition_ctc.py
+++ b/examples/pytorch/speech-recognition/run_speech_recognition_ctc.py
@ -26,11 +26,11 @@ from dataclasses import dataclass, field
 from typing import Dict, List, Optional, Union
 import datasets
 import evaluate
 import numpy as np
 import torch
 from datasets import DatasetDict, load_dataset
 import evaluate
 import transformers
 from transformers import (
    AutoConfig,
@ -708,7 +708,6 @@ def main():
    # Training
    if training_args.do_train:
        # use last checkpoint if exist
        if last_checkpoint is not None:
            checkpoint = last_checkpoint
--- a/examples/pytorch/speech-recognition/run_speech_recognition_seq2seq.py
+++ b/examples/pytorch/speech-recognition/run_speech_recognition_seq2seq.py
@ -26,10 +26,10 @@ from dataclasses import dataclass, field
 from typing import Any, Dict, List, Optional, Union
 import datasets
 import evaluate
 import torch
 from datasets import DatasetDict, load_dataset
 import evaluate
 import transformers
 from transformers import (
    AutoConfig,
--- a/examples/pytorch/summarization/run_summarization.py
+++ b/examples/pytorch/summarization/run_summarization.py
@ -25,13 +25,13 @@ from dataclasses import dataclass, field
 from typing import Optional
 import datasets
 import evaluate
 import nltk  # Here to have a nice missing dependency error message early on
 import numpy as np
 from datasets import load_dataset
 import evaluate
 import transformers
 from filelock import FileLock
 import transformers
 from transformers import (
    AutoConfig,
    AutoModelForSeq2SeqLM,
--- a/examples/pytorch/summarization/run_summarization_no_trainer.py
+++ b/examples/pytorch/summarization/run_summarization_no_trainer.py
@ -27,20 +27,20 @@ import random
 from pathlib import Path
 import datasets
 import evaluate
 import nltk
 import numpy as np
 import torch
 from datasets import load_dataset
 from torch.utils.data import DataLoader
 from tqdm.auto import tqdm
 import evaluate
 import transformers
 from accelerate import Accelerator
 from accelerate.logging import get_logger
 from accelerate.utils import set_seed
 from datasets import load_dataset
 from filelock import FileLock
 from huggingface_hub import Repository, create_repo
 from torch.utils.data import DataLoader
 from tqdm.auto import tqdm
 import transformers
 from transformers import (
    CONFIG_MAPPING,
    MODEL_MAPPING,
--- a/examples/pytorch/test_accelerate_examples.py
+++ b/examples/pytorch/test_accelerate_examples.py
@ -24,8 +24,8 @@ import tempfile
 from unittest import mock
 import torch
 from accelerate.utils import write_basic_config
 from transformers.testing_utils import TestCasePlus, get_gpu_count, run_command, slow, torch_device
 from transformers.utils import is_apex_available
--- a/examples/pytorch/text-classification/run_glue.py
+++ b/examples/pytorch/text-classification/run_glue.py
@ -24,10 +24,10 @@ from dataclasses import dataclass, field
 from typing import Optional
 import datasets
 import evaluate
 import numpy as np
 from datasets import load_dataset
 import evaluate
 import transformers
 from transformers import (
    AutoConfig,
--- a/examples/pytorch/text-classification/run_glue_no_trainer.py
+++ b/examples/pytorch/text-classification/run_glue_no_trainer.py
@ -22,17 +22,17 @@ import random
 from pathlib import Path
 import datasets
 import torch
 from datasets import load_dataset
 from torch.utils.data import DataLoader
 from tqdm.auto import tqdm
 import evaluate
-import transformers
+import torch
 from accelerate import Accelerator
 from accelerate.logging import get_logger
 from accelerate.utils import set_seed
 from datasets import load_dataset
 from huggingface_hub import Repository, create_repo
 from torch.utils.data import DataLoader
 from tqdm.auto import tqdm
 import transformers
 from transformers import (
    AutoConfig,
    AutoModelForSequenceClassification,
--- a/examples/pytorch/text-classification/run_xnli.py
+++ b/examples/pytorch/text-classification/run_xnli.py
@ -25,10 +25,10 @@ from dataclasses import dataclass, field
 from typing import Optional
 import datasets
 import evaluate
 import numpy as np
 from datasets import load_dataset
 import evaluate
 import transformers
 from transformers import (
    AutoConfig,
--- a/examples/pytorch/token-classification/run_ner.py
+++ b/examples/pytorch/token-classification/run_ner.py
@ -26,10 +26,10 @@ from dataclasses import dataclass, field
 from typing import Optional
 import datasets
 import evaluate
 import numpy as np
 from datasets import ClassLabel, load_dataset
 import evaluate
 import transformers
 from transformers import (
    AutoConfig,
--- a/examples/pytorch/token-classification/run_ner_no_trainer.py
+++ b/examples/pytorch/token-classification/run_ner_no_trainer.py
@ -27,17 +27,17 @@ import random
 from pathlib import Path
 import datasets
 import torch
 from datasets import ClassLabel, load_dataset
 from torch.utils.data import DataLoader
 from tqdm.auto import tqdm
 import evaluate
-import transformers
+import torch
 from accelerate import Accelerator
 from accelerate.logging import get_logger
 from accelerate.utils import set_seed
 from datasets import ClassLabel, load_dataset
 from huggingface_hub import Repository, create_repo
 from torch.utils.data import DataLoader
 from tqdm.auto import tqdm
 import transformers
 from transformers import (
    CONFIG_MAPPING,
    MODEL_MAPPING,
--- a/examples/pytorch/translation/run_translation.py
+++ b/examples/pytorch/translation/run_translation.py
@ -25,10 +25,10 @@ from dataclasses import dataclass, field
 from typing import Optional
 import datasets
 import evaluate
 import numpy as np
 from datasets import load_dataset
 import evaluate
 import transformers
 from transformers import (
    AutoConfig,
--- a/examples/pytorch/translation/run_translation_no_trainer.py
+++ b/examples/pytorch/translation/run_translation_no_trainer.py
@ -27,18 +27,18 @@ import random
 from pathlib import Path
 import datasets
 import evaluate
 import numpy as np
 import torch
 from datasets import load_dataset
 from torch.utils.data import DataLoader
 from tqdm.auto import tqdm
 import evaluate
 import transformers
 from accelerate import Accelerator
 from accelerate.logging import get_logger
 from accelerate.utils import set_seed
 from datasets import load_dataset
 from huggingface_hub import Repository, create_repo
 from torch.utils.data import DataLoader
 from tqdm.auto import tqdm
 import transformers
 from transformers import (
    CONFIG_MAPPING,
    MODEL_MAPPING,
@ -69,7 +69,6 @@ MODEL_TYPES = tuple(conf.model_type for conf in MODEL_CONFIG_CLASSES)
 # Parsing input arguments
 def parse_args():
    parser = argparse.ArgumentParser(description="Finetune a transformers model on a text classification task")
    parser.add_argument(
        "--dataset_name",
@ -751,5 +750,4 @@ def main():
 if __name__ == "__main__":
    main()
--- a/examples/research_projects/adversarial/run_hans.py
+++ b/examples/research_projects/adversarial/run_hans.py
@ -22,6 +22,7 @@ from typing import Dict, List, Optional
 import numpy as np
 import torch
 from utils_hans import HansDataset, InputFeatures, hans_processors, hans_tasks_num_labels
 import transformers
 from transformers import (
@ -35,7 +36,6 @@ from transformers import (
    set_seed,
 )
 from transformers.trainer_utils import is_main_process
 from utils_hans import HansDataset, InputFeatures, hans_processors, hans_tasks_num_labels
 logger = logging.getLogger(__name__)
--- a/examples/research_projects/adversarial/utils_hans.py
+++ b/examples/research_projects/adversarial/utils_hans.py
@ -20,8 +20,8 @@ from dataclasses import dataclass
 from typing import List, Optional, Union
 import tqdm
 from filelock import FileLock
 from transformers import (
    BartTokenizer,
    BartTokenizerFast,
@ -134,7 +134,6 @@ if is_torch_available():
            # and the others will use the cache.
            lock_path = cached_features_file + ".lock"
            with FileLock(lock_path):
                if os.path.exists(cached_features_file) and not overwrite_cache:
                    logger.info(f"Loading features from cached file {cached_features_file}")
                    self.features = torch.load(cached_features_file)
--- a/examples/research_projects/bert-loses-patience/run_glue_with_pabee.py
+++ b/examples/research_projects/bert-loses-patience/run_glue_with_pabee.py
@ -25,14 +25,14 @@ import random
 import numpy as np
 import torch
 from pabee.modeling_pabee_albert import AlbertForSequenceClassificationWithPabee
 from pabee.modeling_pabee_bert import BertForSequenceClassificationWithPabee
 from torch import nn
 from torch.utils.data import DataLoader, RandomSampler, SequentialSampler, TensorDataset
 from torch.utils.data.distributed import DistributedSampler
 from tqdm import tqdm, trange
 import transformers
 from pabee.modeling_pabee_albert import AlbertForSequenceClassificationWithPabee
 from pabee.modeling_pabee_bert import BertForSequenceClassificationWithPabee
 from transformers import (
    WEIGHTS_NAME,
    AdamW,
@ -173,7 +173,6 @@ def train(args, train_dataset, model, tokenizer):
    for _ in train_iterator:
        epoch_iterator = tqdm(train_dataloader, desc="Iteration", disable=args.local_rank not in [-1, 0])
        for step, batch in enumerate(epoch_iterator):
            # Skip past any already trained steps if resuming training
            if steps_trained_in_current_epoch > 0:
                steps_trained_in_current_epoch -= 1
@ -263,7 +262,6 @@ def train(args, train_dataset, model, tokenizer):
 def evaluate(args, model, tokenizer, prefix="", patience=0):
    if args.model_type == "albert":
        model.albert.set_regression_threshold(args.regression_threshold)
        model.albert.set_patience(patience)
@ -736,7 +734,6 @@ def main():
        logger.info("Evaluate the following checkpoints: %s", checkpoints)
        for checkpoint in checkpoints:
            global_step = checkpoint.split("-")[-1] if len(checkpoints) > 1 else ""
            prefix = checkpoint.split("/")[-1] if checkpoint.find("checkpoint") != -1 else ""
--- a/examples/research_projects/bert-loses-patience/test_run_glue_with_pabee.py
+++ b/examples/research_projects/bert-loses-patience/test_run_glue_with_pabee.py
@ -4,6 +4,7 @@ import sys
 from unittest.mock import patch
 import run_glue_with_pabee
 from transformers.testing_utils import TestCasePlus
--- a/examples/research_projects/bertabs/convert_bertabs_original_pytorch_checkpoint.py
+++ b/examples/research_projects/bertabs/convert_bertabs_original_pytorch_checkpoint.py
@ -24,9 +24,9 @@ import logging
 from collections import namedtuple
 import torch
 from model_bertabs import BertAbsSummarizer
 from models.model_builder import AbsSummarizer  # The authors' implementation
 from transformers import BertTokenizer
--- a/examples/research_projects/bertabs/modeling_bertabs.py
+++ b/examples/research_projects/bertabs/modeling_bertabs.py
@ -24,10 +24,10 @@ import math
 import numpy as np
 import torch
 from configuration_bertabs import BertAbsConfig
 from torch import nn
 from torch.nn.init import xavier_uniform_
 from configuration_bertabs import BertAbsConfig
 from transformers import BertConfig, BertModel, PreTrainedModel
--- a/examples/research_projects/bertabs/run_summarization.py
+++ b/examples/research_projects/bertabs/run_summarization.py
@ -6,10 +6,10 @@ import sys
 from collections import namedtuple
 import torch
 from modeling_bertabs import BertAbs, build_predictor
 from torch.utils.data import DataLoader, SequentialSampler
 from tqdm import tqdm
 from modeling_bertabs import BertAbs, build_predictor
 from transformers import BertTokenizer
 from .utils_summarization import (
@ -45,7 +45,6 @@ def evaluate(args):
        generated_summaries = []
        import nltk
        import rouge
        nltk.download("punkt")
--- a/examples/research_projects/codeparrot/examples/train_complexity_predictor.py
+++ b/examples/research_projects/codeparrot/examples/train_complexity_predictor.py
@ -3,8 +3,8 @@ from copy import deepcopy
 import numpy as np
 from datasets import ClassLabel, DatasetDict, load_dataset
 from evaluate import load
 from transformers import (
    AutoModelForSequenceClassification,
    AutoTokenizer,
--- a/examples/research_projects/codeparrot/scripts/bpe_training.py
+++ b/examples/research_projects/codeparrot/scripts/bpe_training.py
@ -1,7 +1,7 @@
 from arguments import TokenizerTrainingArguments
 from datasets import load_dataset
 from tqdm import tqdm
 from arguments import TokenizerTrainingArguments
 from transformers import AutoTokenizer, HfArgumentParser
 from transformers.models.gpt2.tokenization_gpt2 import bytes_to_unicode
--- a/examples/research_projects/codeparrot/scripts/codeparrot_training.py
+++ b/examples/research_projects/codeparrot/scripts/codeparrot_training.py
@ -6,16 +6,16 @@ from pathlib import Path
 import datasets
 import torch
 from accelerate import Accelerator, DistributedType
 from arguments import TrainingArguments
 from datasets import load_dataset
 from huggingface_hub import Repository
 from torch.optim import AdamW
 from torch.utils.data import IterableDataset
 from torch.utils.data.dataloader import DataLoader
 from torch.utils.data.datapipes.iter.combinatorics import ShufflerIterDataPipe
 import transformers
 from accelerate import Accelerator, DistributedType
 from arguments import TrainingArguments
 from huggingface_hub import Repository
 from transformers import AutoModelForCausalLM, AutoTokenizer, HfArgumentParser, get_scheduler, set_seed
--- a/examples/research_projects/codeparrot/scripts/human_eval.py
+++ b/examples/research_projects/codeparrot/scripts/human_eval.py
@ -5,15 +5,15 @@ import re
 from collections import defaultdict
 import torch
 from accelerate import Accelerator
 from accelerate.utils import set_seed
 from arguments import HumanEvalArguments
 from datasets import load_dataset, load_metric
 from torch.utils.data import IterableDataset
 from torch.utils.data.dataloader import DataLoader
 from tqdm import tqdm
 import transformers
 from accelerate import Accelerator
 from accelerate.utils import set_seed
 from arguments import HumanEvalArguments
 from transformers import AutoModelForCausalLM, AutoTokenizer, HfArgumentParser, StoppingCriteria, StoppingCriteriaList
--- a/examples/research_projects/codeparrot/scripts/initialize_model.py
+++ b/examples/research_projects/codeparrot/scripts/initialize_model.py
@ -1,4 +1,5 @@
 from arguments import InitializationArguments
 from transformers import AutoConfig, AutoModelForCausalLM, AutoTokenizer, HfArgumentParser
--- a/examples/research_projects/codeparrot/scripts/minhash_deduplication.py
+++ b/examples/research_projects/codeparrot/scripts/minhash_deduplication.py
@ -6,10 +6,9 @@ from functools import partial
 from typing import Dict, List, Optional, Set, Tuple, Type
 from datasets import Dataset
 from tqdm import tqdm
 from datasketch import MinHash, MinHashLSH
 from dpu_utils.utils.iterators import ThreadedIterator
 from tqdm import tqdm
 NON_ALPHA = re.compile("[^A-Za-z_0-9]")
--- a/examples/research_projects/codeparrot/scripts/preprocessing.py
+++ b/examples/research_projects/codeparrot/scripts/preprocessing.py
@ -9,10 +9,10 @@ import time
 from pathlib import Path
 import numpy as np
 from datasets import load_dataset
 from arguments import PreprocessingArguments
 from datasets import load_dataset
 from minhash_deduplication import deduplicate_dataset
 from transformers import AutoTokenizer, HfArgumentParser
--- a/examples/research_projects/codeparrot/scripts/pretokenizing.py
+++ b/examples/research_projects/codeparrot/scripts/pretokenizing.py
@ -1,9 +1,9 @@
 import multiprocessing
 import time
 from arguments import PretokenizationArguments
 from datasets import load_dataset
 from arguments import PretokenizationArguments
 from transformers import AutoTokenizer, HfArgumentParser
--- a/examples/research_projects/codeparrot/scripts/tests/test_deduplicate.py
+++ b/examples/research_projects/codeparrot/scripts/tests/test_deduplicate.py
@ -1,7 +1,6 @@
 from unittest import TestCase
 from datasets import Dataset
 from minhash_deduplication import deduplicate_dataset, make_duplicate_clusters
--- a/examples/research_projects/codeparrot/scripts/validation_loss.py
+++ b/examples/research_projects/codeparrot/scripts/validation_loss.py
@ -1,12 +1,12 @@
 import logging
 import torch
 from accelerate import Accelerator
 from arguments import EvaluationArguments
 from datasets import load_dataset
 from torch.utils.data import IterableDataset
 from torch.utils.data.dataloader import DataLoader
 from accelerate import Accelerator
 from arguments import EvaluationArguments
 from transformers import AutoModelForCausalLM, AutoTokenizer, HfArgumentParser, set_seed
--- a/examples/research_projects/decision_transformer/run_decision_transformer.py
+++ b/examples/research_projects/decision_transformer/run_decision_transformer.py
@ -1,8 +1,8 @@
 import gym
 import numpy as np
 import torch
 import gym
 from mujoco_py import GlfwContext
 from transformers import DecisionTransformerModel
--- a/examples/research_projects/deebert/src/modeling_highway_bert.py
+++ b/examples/research_projects/deebert/src/modeling_highway_bert.py
@ -229,7 +229,10 @@ class DeeBertModel(BertPreTrainedModel):
        sequence_output = encoder_outputs[0]
        pooled_output = self.pooler(sequence_output)
-        outputs = (sequence_output, pooled_output,) + encoder_outputs[
+        outputs = (
            sequence_output,
            pooled_output,
        ) + encoder_outputs[
            1:
        ]  # add hidden_states and attentions if they are here
        return outputs  # sequence_output, pooled_output, (hidden_states), (attentions), highway exits
--- a/examples/research_projects/deebert/src/modeling_highway_roberta.py
+++ b/examples/research_projects/deebert/src/modeling_highway_roberta.py
@ -19,7 +19,6 @@ from .modeling_highway_bert import BertPreTrainedModel, DeeBertModel, HighwayExc
    ROBERTA_START_DOCSTRING,
 )
 class DeeRobertaModel(DeeBertModel):
    config_class = RobertaConfig
    base_model_prefix = "roberta"
@ -36,7 +35,6 @@ class DeeRobertaModel(DeeBertModel):
    ROBERTA_START_DOCSTRING,
 )
 class DeeRobertaForSequenceClassification(BertPreTrainedModel):
    config_class = RobertaConfig
    base_model_prefix = "roberta"
--- a/examples/research_projects/deebert/test_glue_deebert.py
+++ b/examples/research_projects/deebert/test_glue_deebert.py
@ -4,6 +4,7 @@ import sys
 from unittest.mock import patch
 import run_glue_deebert
 from transformers.testing_utils import TestCasePlus, get_gpu_count, require_torch_non_multi_gpu, slow
@ -45,7 +46,6 @@ class DeeBertTests(TestCasePlus):
    @slow
    @require_torch_non_multi_gpu
    def test_glue_deebert_train(self):
        train_args = """
            --model_type roberta
            --model_name_or_path roberta-base
--- a/examples/research_projects/distillation/distiller.py
+++ b/examples/research_projects/distillation/distiller.py
@ -21,14 +21,14 @@ import time
 import psutil
 import torch
 from grouped_batch_sampler import GroupedBatchSampler, create_lengths_groups
 from lm_seqs_dataset import LmSeqsDataset
 from torch import nn
 from torch.optim import AdamW
 from torch.utils.data import BatchSampler, DataLoader, RandomSampler
 from torch.utils.data.distributed import DistributedSampler
 from tqdm import tqdm
 from grouped_batch_sampler import GroupedBatchSampler, create_lengths_groups
 from lm_seqs_dataset import LmSeqsDataset
 from transformers import get_linear_schedule_with_warmup
 from utils import logger
--- a/examples/research_projects/distillation/run_squad_w_distillation.py
+++ b/examples/research_projects/distillation/run_squad_w_distillation.py
@ -189,7 +189,6 @@ def train(args, train_dataset, model, tokenizer, teacher=None):
    for _ in train_iterator:
        epoch_iterator = tqdm(train_dataloader, desc="Iteration", disable=args.local_rank not in [-1, 0])
        for step, batch in enumerate(epoch_iterator):
            # Skip past any already trained steps if resuming training
            if steps_trained_in_current_epoch > 0:
                steps_trained_in_current_epoch -= 1
--- a/examples/research_projects/distillation/train.py
+++ b/examples/research_projects/distillation/train.py
@ -24,9 +24,9 @@ import shutil
 import numpy as np
 import torch
 from distiller import Distiller
 from lm_seqs_dataset import LmSeqsDataset
 from transformers import (
    BertConfig,
    BertForMaskedLM,
--- a/examples/research_projects/information-gain-filtration/igf/igf.py
+++ b/examples/research_projects/information-gain-filtration/igf/igf.py
@ -5,13 +5,13 @@ import copy
 import logging
 import random
 import joblib
 import numpy as np
 import torch
 import torch.nn as nn
 from torch.utils.data import DataLoader
 from tqdm import tqdm
 import joblib
 from transformers import AdamW, GPT2LMHeadModel, get_linear_schedule_with_warmup
@ -119,7 +119,6 @@ def recopy_gpt2(orig_model, device, max_steps):
 def intermittent_save(contexts, real_perps, past_perps, filename):
    """
    save the perplexity differences to filename
@ -152,7 +151,6 @@ def collect_objective_set(
    filename="dev.jbl",
    recopy_model=recopy_gpt2,
 ):
    """
    Collect individual IGF values from pre-trained transformer model
    max_steps samples of training data to train secondary model
@ -271,7 +269,6 @@ def generate_datasets(
 def train_secondary_learner(
    secondary_learner, train_dataset, max_epochs, batch_size, eval_freq=50, igf_model_path="secondary_learner.pt"
 ):
    """
    Train the secondary learner (igf_model)
--- a/examples/research_projects/information-gain-filtration/run_clm_igf.py
+++ b/examples/research_projects/information-gain-filtration/run_clm_igf.py
@ -28,11 +28,9 @@ Last, a plot is generated to compare the performance of IGF to standard fine-tun
 import argparse
 import random
 import joblib
 import numpy as np
 import torch
 from torch.utils.data import DataLoader, RandomSampler
 import joblib
 from igf.igf import (
    SecondaryLearner,
    collect_objective_set,
@ -43,6 +41,8 @@ from igf.igf import (
    set_seed,
    train_secondary_learner,
 )
 from torch.utils.data import DataLoader, RandomSampler
 from transformers import GPT2LMHeadModel
@ -55,7 +55,6 @@ def generate_n_pairs(
    data_file="data/tokenized_stories_train_wikitext103.jbl",
    igf_data_file="igf_context_pairs.jbl",
 ):
    """
    Collecting *n* pairs for training the secondary learner
    Args:
--- a/examples/research_projects/jax-projects/big_bird/bigbird_flax.py
+++ b/examples/research_projects/jax-projects/big_bird/bigbird_flax.py
@ -4,8 +4,6 @@ from dataclasses import dataclass
 from functools import partial
 from typing import Callable
 from tqdm.auto import tqdm
 import flax.linen as nn
 import jax
 import jax.numpy as jnp
@ -16,6 +14,8 @@ from flax import jax_utils, struct, traverse_util
 from flax.serialization import from_bytes, to_bytes
 from flax.training import train_state
 from flax.training.common_utils import shard
 from tqdm.auto import tqdm
 from transformers import BigBirdConfig, FlaxBigBirdForQuestionAnswering
 from transformers.models.big_bird.modeling_flax_big_bird import FlaxBigBirdForQuestionAnsweringModule
@ -98,7 +98,6 @@ class Args:
@dataclass
 class DataCollator:
    pad_id: int
    max_length: int = 4096  # no dynamic padding on TPUs
--- a/examples/research_projects/jax-projects/big_bird/evaluate.py
+++ b/examples/research_projects/jax-projects/big_bird/evaluate.py
@ -1,8 +1,8 @@
 from datasets import load_from_disk
 import jax
 import jax.numpy as jnp
 from bigbird_flax import FlaxBigBirdForNaturalQuestions
 from datasets import load_from_disk
 from transformers import BigBirdTokenizerFast
--- a/examples/research_projects/jax-projects/big_bird/prepare_natural_questions.py
+++ b/examples/research_projects/jax-projects/big_bird/prepare_natural_questions.py
@ -1,10 +1,9 @@
 import os
 import jsonlines
 import numpy as np
 from tqdm import tqdm
 import jsonlines
 DOC_STRIDE = 2048
 MAX_LENGTH = 4096
--- a/examples/research_projects/jax-projects/big_bird/train.py
+++ b/examples/research_projects/jax-projects/big_bird/train.py
@ -1,12 +1,12 @@
 import os
 from dataclasses import replace
 from datasets import load_dataset
 import jax
 import wandb
 from bigbird_flax import Args, DataCollator, FlaxBigBirdForNaturalQuestions, Trainer, build_tx, train_step, val_step
 from datasets import load_dataset
 from flax import jax_utils
 from transformers import BigBirdTokenizerFast
--- a/examples/research_projects/jax-projects/dataset-streaming/run_mlm_flax_stream.py
+++ b/examples/research_projects/jax-projects/dataset-streaming/run_mlm_flax_stream.py
@ -32,17 +32,17 @@ from pathlib import Path
 from typing import Dict, List, Optional, Tuple
 import datasets
 import numpy as np
 from datasets import load_dataset
 from tqdm import tqdm
 import flax
 import jax
 import jax.numpy as jnp
 import numpy as np
 import optax
 from datasets import load_dataset
 from flax import jax_utils, traverse_util
 from flax.training import train_state
 from flax.training.common_utils import get_metrics, onehot, shard
 from tqdm import tqdm
 from transformers import (
    CONFIG_MAPPING,
    FLAX_MODEL_FOR_MASKED_LM_MAPPING,
--- a/examples/research_projects/jax-projects/hybrid_clip/modeling_hybrid_clip.py
+++ b/examples/research_projects/jax-projects/hybrid_clip/modeling_hybrid_clip.py
@ -20,6 +20,7 @@ import jax
 import jax.numpy as jnp
 from configuration_hybrid_clip import HybridCLIPConfig
 from flax.core.frozen_dict import FrozenDict
 from transformers import FLAX_MODEL_MAPPING, FlaxCLIPVisionModel
 from transformers.modeling_flax_utils import FlaxPreTrainedModel
 from transformers.models.clip.modeling_flax_clip import FlaxCLIPOutput
@ -132,7 +133,7 @@ class FlaxHybridCLIP(FlaxPreTrainedModel):
        input_shape: Optional[Tuple] = None,
        seed: int = 0,
        dtype: jnp.dtype = jnp.float32,
-        **kwargs
+        **kwargs,
    ):
        if input_shape is None:
            input_shape = ((1, 1), (1, config.vision_config.image_size, config.vision_config.image_size, 3))
--- a/examples/research_projects/jax-projects/hybrid_clip/run_hybrid_clip.py
+++ b/examples/research_projects/jax-projects/hybrid_clip/run_hybrid_clip.py
@ -32,22 +32,22 @@ from dataclasses import dataclass, field
 from pathlib import Path
 from typing import Callable, Optional
 import jax
 import jax.numpy as jnp
 import optax
 import torch
 from flax import jax_utils
 from flax.jax_utils import unreplicate
 from flax.training import train_state
 from flax.training.common_utils import get_metrics, shard, shard_prng_key
 from modeling_hybrid_clip import FlaxHybridCLIP
 from torchvision.datasets import VisionDataset
 from torchvision.io import ImageReadMode, read_image
 from torchvision.transforms import CenterCrop, ConvertImageDtype, Normalize, Resize
 from torchvision.transforms.functional import InterpolationMode
 from tqdm import tqdm
 import jax
 import jax.numpy as jnp
 import optax
 import transformers
 from flax import jax_utils
 from flax.jax_utils import unreplicate
 from flax.training import train_state
 from flax.training.common_utils import get_metrics, shard, shard_prng_key
 from modeling_hybrid_clip import FlaxHybridCLIP
 from transformers import AutoTokenizer, HfArgumentParser, TrainingArguments, is_tensorboard_available, set_seed
--- a/examples/research_projects/jax-projects/model_parallel/run_clm_mp.py
+++ b/examples/research_projects/jax-projects/model_parallel/run_clm_mp.py
@ -28,19 +28,19 @@ from pathlib import Path
 from typing import Callable, Optional
 import datasets
 import numpy as np
 from datasets import Dataset, load_dataset
 from tqdm import tqdm
 import jax
 import jax.numpy as jnp
 import numpy as np
 import optax
-import transformers
+from datasets import Dataset, load_dataset
 from flax.core.frozen_dict import freeze, unfreeze
 from flax.training.common_utils import onehot, stack_forest
 from jax.experimental.maps import mesh
 from jax.experimental.pjit import pjit
 from partitions import set_partitions
 from tqdm import tqdm
 import transformers
 from transformers import (
    CONFIG_MAPPING,
    FLAX_MODEL_FOR_CAUSAL_LM_MAPPING,
--- a/examples/research_projects/jax-projects/wav2vec2/run_wav2vec2_pretrain_flax.py
+++ b/examples/research_projects/jax-projects/wav2vec2/run_wav2vec2_pretrain_flax.py
@ -6,18 +6,18 @@ from dataclasses import field
 from pathlib import Path
 from typing import Dict, List, Optional, Union
 import numpy as np
 from datasets import DatasetDict, load_dataset
 from tqdm import tqdm
 import flax
 import jax
 import jax.numpy as jnp
 import librosa
 import numpy as np
 import optax
 from datasets import DatasetDict, load_dataset
 from flax import jax_utils, traverse_util
 from flax.training import train_state
 from flax.training.common_utils import get_metrics, onehot, shard
 from tqdm import tqdm
 from transformers import (
    FlaxWav2Vec2ForPreTraining,
    HfArgumentParser,
--- a/Show More
+++ b/Show More
`@ -1,4 +1,5 @@`
	`from arguments import InitializationArguments`	`from arguments import InitializationArguments`

	`from transformers import AutoConfig, AutoModelForCausalLM, AutoTokenizer, HfArgumentParser`	`from transformers import AutoConfig, AutoModelForCausalLM, AutoTokenizer, HfArgumentParser`