Sort imports with isort.

This is the result of: $ isort --recursive examples templates transformers utils hubconf.py setup.py
2025-07-31 02:02:21 +06:00 · 2019-12-21 15:57:32 +01:00 · 2019-12-21 15:57:32 +01:00 · 158e82e061
commit 158e82e061
parent bc1715c1e0
195 changed files with 1182 additions and 1044 deletions
--- a/examples/benchmarks.py
+++ b/examples/benchmarks.py
@ -18,12 +18,14 @@
 # If checking the tensors placement
 # tf.debugging.set_log_device_placement(True)

-from typing import List
-import timeit
-from transformers import is_tf_available, is_torch_available
-from time import time
 import argparse
 import csv
+import timeit
+from time import time
+from typing import List
+
+from transformers import AutoConfig, AutoTokenizer, is_tf_available, is_torch_available
+

 if is_tf_available():
    import tensorflow as tf
@ -33,7 +35,6 @@ if is_torch_available():
    import torch
    from transformers import AutoModel

-from transformers import AutoConfig, AutoTokenizer

 input_text = """Bent over their instruments, three hundred Fertilizers were plunged, as 
 the Director of Hatcheries and Conditioning entered the room, in the 
--- a/examples/contrib/run_camembert.py
+++ b/examples/contrib/run_camembert.py
@ -1,11 +1,11 @@
-from pathlib import Path
 import tarfile
 import urllib.request
+from pathlib import Path

 import torch

-from transformers.tokenization_camembert import CamembertTokenizer
 from transformers.modeling_camembert import CamembertForMaskedLM
+from transformers.tokenization_camembert import CamembertTokenizer


 def fill_mask(masked_input, model, tokenizer, topk=5):
--- a/examples/contrib/run_openai_gpt.py
+++ b/examples/contrib/run_openai_gpt.py
@ -28,26 +28,27 @@
          --train_batch_size 16 \
 """
 import argparse
-import os
 import csv
-import random
 import logging
-from tqdm import tqdm, trange
+import os
+import random

 import numpy as np
 import torch
 from torch.utils.data import DataLoader, RandomSampler, SequentialSampler, TensorDataset
+from tqdm import tqdm, trange

 from transformers import (
+    CONFIG_NAME,
+    WEIGHTS_NAME,
+    AdamW,
    OpenAIGPTDoubleHeadsModel,
    OpenAIGPTTokenizer,
-    AdamW,
    cached_path,
-    WEIGHTS_NAME,
-    CONFIG_NAME,
    get_linear_schedule_with_warmup,
 )

+
 ROCSTORIES_URL = "https://s3.amazonaws.com/datasets.huggingface.co/ROCStories.tar.gz"

 logging.basicConfig(
--- a/examples/contrib/run_swag.py
+++ b/examples/contrib/run_swag.py
@ -19,28 +19,34 @@
 from __future__ import absolute_import, division, print_function

 import argparse
-import logging
 import csv
+import glob
+import logging
 import os
 import random
 import sys
-import glob

 import numpy as np
 import torch
 from torch.utils.data import DataLoader, RandomSampler, SequentialSampler, TensorDataset
 from torch.utils.data.distributed import DistributedSampler
+from tqdm import tqdm, trange
+
+from transformers import (
+    WEIGHTS_NAME,
+    AdamW,
+    BertConfig,
+    BertForMultipleChoice,
+    BertTokenizer,
+    get_linear_schedule_with_warmup,
+)
+

 try:
    from torch.utils.tensorboard import SummaryWriter
 except:
    from tensorboardX import SummaryWriter

-from tqdm import tqdm, trange
-
-from transformers import WEIGHTS_NAME, BertConfig, BertForMultipleChoice, BertTokenizer
-
-from transformers import AdamW, get_linear_schedule_with_warmup

 logger = logging.getLogger(__name__)

--- a/examples/contrib/run_transfo_xl.py
+++ b/examples/contrib/run_transfo_xl.py
@ -23,12 +23,13 @@ from __future__ import absolute_import, division, print_function, unicode_litera

 import argparse
 import logging
-import time
 import math
+import time

 import torch

-from transformers import TransfoXLLMHeadModel, TransfoXLCorpus, TransfoXLTokenizer
+from transformers import TransfoXLCorpus, TransfoXLLMHeadModel, TransfoXLTokenizer
+

 logging.basicConfig(
    format="%(asctime)s - %(levelname)s - %(name)s -   %(message)s", datefmt="%m/%d/%Y %H:%M:%S", level=logging.INFO
--- a/examples/distillation/distiller.py
+++ b/examples/distillation/distiller.py
@ -15,31 +15,31 @@
 """ The distiller to distil the student.
    Adapted in part from Facebook, Inc XLM model (https://github.com/facebookresearch/XLM)
 """
-import os
 import math
-import psutil
+import os
 import time
-from tqdm import trange, tqdm
-import numpy as np

+import numpy as np
 import torch
 import torch.nn as nn
 import torch.nn.functional as F
 from torch.optim import AdamW
+from torch.utils.data import BatchSampler, DataLoader, RandomSampler
 from torch.utils.data.distributed import DistributedSampler
-from torch.utils.data import RandomSampler, BatchSampler, DataLoader
+from tqdm import tqdm, trange
+
+import psutil
+from grouped_batch_sampler import GroupedBatchSampler, create_lengths_groups
+from lm_seqs_dataset import LmSeqsDataset
+from transformers import get_linear_schedule_with_warmup
+from utils import logger
+

 try:
    from torch.utils.tensorboard import SummaryWriter
 except:
    from tensorboardX import SummaryWriter

-from transformers import get_linear_schedule_with_warmup
-
-from utils import logger
-from lm_seqs_dataset import LmSeqsDataset
-from grouped_batch_sampler import GroupedBatchSampler, create_lengths_groups
-

 class Distiller:
    def __init__(
--- a/examples/distillation/grouped_batch_sampler.py
+++ b/examples/distillation/grouped_batch_sampler.py
@ -17,8 +17,8 @@
 import bisect
 import copy
 from collections import defaultdict
-import numpy as np

+import numpy as np
 from torch.utils.data.sampler import BatchSampler, Sampler

 from utils import logger
--- a/examples/distillation/lm_seqs_dataset.py
+++ b/examples/distillation/lm_seqs_dataset.py
@ -15,10 +15,10 @@
 """ Dataset to distilled models
    adapted in part from Facebook, Inc XLM model (https://github.com/facebookresearch/XLM)
 """
+import numpy as np
 import torch
 from torch.utils.data import Dataset

-import numpy as np
 from utils import logger


--- a/examples/distillation/run_squad_w_distillation.py
+++ b/examples/distillation/run_squad_w_distillation.py
@ -18,56 +18,58 @@
 from __future__ import absolute_import, division, print_function

 import argparse
+import glob
 import logging
 import os
 import random
-import glob

 import numpy as np
 import torch
+import torch.nn as nn
+import torch.nn.functional as F
 from torch.utils.data import DataLoader, RandomSampler, SequentialSampler, TensorDataset
 from torch.utils.data.distributed import DistributedSampler
-import torch.nn.functional as F
-import torch.nn as nn
-
-try:
-    from torch.utils.tensorboard import SummaryWriter
-except:
-    from tensorboardX import SummaryWriter
-
 from tqdm import tqdm, trange

 from transformers import (
    WEIGHTS_NAME,
+    AdamW,
    BertConfig,
    BertForQuestionAnswering,
    BertTokenizer,
+    DistilBertConfig,
+    DistilBertForQuestionAnswering,
+    DistilBertTokenizer,
    XLMConfig,
    XLMForQuestionAnswering,
    XLMTokenizer,
    XLNetConfig,
    XLNetForQuestionAnswering,
    XLNetTokenizer,
-    DistilBertConfig,
-    DistilBertForQuestionAnswering,
-    DistilBertTokenizer,
+    get_linear_schedule_with_warmup,
 )

-from transformers import AdamW, get_linear_schedule_with_warmup
-
 from ..utils_squad import (
-    read_squad_examples,
-    convert_examples_to_features,
    RawResult,
-    write_predictions,
    RawResultExtended,
+    convert_examples_to_features,
+    read_squad_examples,
+    write_predictions,
    write_predictions_extended,
 )

 # The follwing import is the official SQuAD evaluation script (2.0).
 # You can remove it from the dependencies if you are using this script outside of the library
 # We've added it here for automated tests (see examples/test_examples.py file)
-from ..utils_squad_evaluate import EVAL_OPTS, main as evaluate_on_squad
+from ..utils_squad_evaluate import EVAL_OPTS
+from ..utils_squad_evaluate import main as evaluate_on_squad
+
+
+try:
+    from torch.utils.tensorboard import SummaryWriter
+except:
+    from tensorboardX import SummaryWriter
+

 logger = logging.getLogger(__name__)

--- a/examples/distillation/scripts/binarized_data.py
+++ b/examples/distillation/scripts/binarized_data.py
@ -16,12 +16,15 @@
 Preprocessing script before distillation.
 """
 import argparse
+import logging
 import pickle
 import random
 import time
+
 import numpy as np
-from transformers import BertTokenizer, RobertaTokenizer, GPT2Tokenizer
-import logging
+
+from transformers import BertTokenizer, GPT2Tokenizer, RobertaTokenizer
+

 logging.basicConfig(
    format="%(asctime)s - %(levelname)s - %(name)s -   %(message)s", datefmt="%m/%d/%Y %H:%M:%S", level=logging.INFO
--- a/examples/distillation/scripts/extract.py
+++ b/examples/distillation/scripts/extract.py
@ -16,10 +16,13 @@
 Preprocessing script before training the distilled model.
 Specific to RoBERTa -> DistilRoBERTa and GPT2 -> DistilGPT2.
 """
-from transformers import BertForMaskedLM, RobertaForMaskedLM, GPT2LMHeadModel
-import torch
 import argparse

+import torch
+
+from transformers import BertForMaskedLM, GPT2LMHeadModel, RobertaForMaskedLM
+
+
 if __name__ == "__main__":
    parser = argparse.ArgumentParser(
        description="Extraction some layers of the full RobertaForMaskedLM or GPT2LMHeadModel for Transfer Learned Distillation"
--- a/examples/distillation/scripts/extract_distilbert.py
+++ b/examples/distillation/scripts/extract_distilbert.py
@ -16,10 +16,13 @@
 Preprocessing script before training DistilBERT.
 Specific to BERT -> DistilBERT.
 """
-from transformers import BertForMaskedLM, RobertaForMaskedLM
-import torch
 import argparse

+import torch
+
+from transformers import BertForMaskedLM, RobertaForMaskedLM
+
+
 if __name__ == "__main__":
    parser = argparse.ArgumentParser(
        description="Extraction some layers of the full BertForMaskedLM or RObertaForMaskedLM for Transfer Learned Distillation"
--- a/examples/distillation/scripts/token_counts.py
+++ b/examples/distillation/scripts/token_counts.py
@ -15,10 +15,11 @@
 """
 Preprocessing script before training the distilled model.
 """
-from collections import Counter
 import argparse
-import pickle
 import logging
+import pickle
+from collections import Counter
+

 logging.basicConfig(
    format="%(asctime)s - %(levelname)s - %(name)s -   %(message)s", datefmt="%m/%d/%Y %H:%M:%S", level=logging.INFO
--- a/examples/distillation/train.py
+++ b/examples/distillation/train.py
@ -16,22 +16,32 @@
 Training the distilled model.
 Supported architectures include: BERT -> DistilBERT, RoBERTa -> DistilRoBERTa, GPT2 -> DistilGPT2.
 """
-import os
 import argparse
-import pickle
 import json
+import os
+import pickle
 import shutil
+
 import numpy as np
 import torch

-from transformers import BertConfig, BertForMaskedLM, BertTokenizer
-from transformers import RobertaConfig, RobertaForMaskedLM, RobertaTokenizer
-from transformers import DistilBertConfig, DistilBertForMaskedLM, DistilBertTokenizer
-from transformers import GPT2Config, GPT2LMHeadModel, GPT2Tokenizer
-
 from distiller import Distiller
-from utils import git_log, logger, init_gpu_params, set_seed
 from lm_seqs_dataset import LmSeqsDataset
+from transformers import (
+    BertConfig,
+    BertForMaskedLM,
+    BertTokenizer,
+    DistilBertConfig,
+    DistilBertForMaskedLM,
+    DistilBertTokenizer,
+    GPT2Config,
+    GPT2LMHeadModel,
+    GPT2Tokenizer,
+    RobertaConfig,
+    RobertaForMaskedLM,
+    RobertaTokenizer,
+)
+from utils import git_log, init_gpu_params, logger, set_seed


 MODEL_CLASSES = {
--- a/examples/distillation/utils.py
+++ b/examples/distillation/utils.py
@ -15,14 +15,16 @@
 """ Utils to train DistilBERT
    adapted in part from Facebook, Inc XLM model (https://github.com/facebookresearch/XLM)
 """
-import git
 import json
+import logging
 import os
 import socket
-import torch
-import numpy as np

-import logging
+import numpy as np
+import torch
+
+import git
+

 logging.basicConfig(
    format="%(asctime)s - %(levelname)s - %(name)s - PID: %(process)d -  %(message)s",
--- a/examples/mm-imdb/run_mmimdb.py
+++ b/examples/mm-imdb/run_mmimdb.py
@ -19,32 +19,33 @@ from __future__ import absolute_import, division, print_function

 import argparse
 import glob
+import json
 import logging
 import os
 import random
-import json
-from sklearn.metrics import f1_score

 import numpy as np
 import torch
 import torch.nn as nn
+from sklearn.metrics import f1_score
 from torch.utils.data import DataLoader, RandomSampler, SequentialSampler
 from torch.utils.data.distributed import DistributedSampler
-
-try:
-    from torch.utils.tensorboard import SummaryWriter
-except:
-    from tensorboardX import SummaryWriter
-
 from tqdm import tqdm, trange

-from utils_mmimdb import ImageEncoder, JsonlDataset, collate_fn, get_mmimdb_labels, get_image_transforms
-
 from transformers import (
    WEIGHTS_NAME,
+    AdamW,
+    AlbertConfig,
+    AlbertModel,
+    AlbertTokenizer,
    BertConfig,
    BertModel,
    BertTokenizer,
+    DistilBertConfig,
+    DistilBertModel,
+    DistilBertTokenizer,
+    MMBTConfig,
+    MMBTForClassification,
    RobertaConfig,
    RobertaModel,
    RobertaTokenizer,
@ -54,17 +55,16 @@ from transformers import (
    XLNetConfig,
    XLNetModel,
    XLNetTokenizer,
-    DistilBertConfig,
-    DistilBertModel,
-    DistilBertTokenizer,
-    AlbertConfig,
-    AlbertModel,
-    AlbertTokenizer,
-    MMBTForClassification,
-    MMBTConfig,
+    get_linear_schedule_with_warmup,
 )
+from utils_mmimdb import ImageEncoder, JsonlDataset, collate_fn, get_image_transforms, get_mmimdb_labels
+
+
+try:
+    from torch.utils.tensorboard import SummaryWriter
+except:
+    from tensorboardX import SummaryWriter

-from transformers import AdamW, get_linear_schedule_with_warmup

 logger = logging.getLogger(__name__)

--- a/examples/mm-imdb/utils_mmimdb.py
+++ b/examples/mm-imdb/utils_mmimdb.py
@ -17,13 +17,15 @@
 import json
 import os
 from collections import Counter
-from PIL import Image

 import torch
 import torch.nn as nn
+from torch.utils.data import Dataset
+
 import torchvision
 import torchvision.transforms as transforms
-from torch.utils.data import Dataset
+from PIL import Image
+

 POOLING_BREAKDOWN = {1: (1, 1), 2: (2, 1), 3: (3, 1), 4: (2, 2), 5: (5, 1), 6: (3, 2), 7: (7, 1), 8: (4, 2), 9: (3, 3)}

--- a/examples/pplm/run_pplm.py
+++ b/examples/pplm/run_pplm.py
@ -34,10 +34,11 @@ import torch.nn.functional as F
 from torch.autograd import Variable
 from tqdm import trange

+from pplm_classification_head import ClassificationHead
 from transformers import GPT2Tokenizer
 from transformers.file_utils import cached_path
 from transformers.modeling_gpt2 import GPT2LMHeadModel
-from pplm_classification_head import ClassificationHead
+

 PPLM_BOW = 1
 PPLM_DISCRIM = 2
--- a/examples/pplm/run_pplm_discrim_train.py
+++ b/examples/pplm/run_pplm_discrim_train.py
@ -24,16 +24,16 @@ import time
 import numpy as np
 import torch
 import torch.nn.functional as F
-import torch.optim
 import torch.optim as optim
 import torch.utils.data as data
-from nltk.tokenize.treebank import TreebankWordDetokenizer
-from torchtext import data as torchtext_data
-from torchtext import datasets
 from tqdm import tqdm, trange

-from transformers import GPT2Tokenizer, GPT2LMHeadModel
+from nltk.tokenize.treebank import TreebankWordDetokenizer
 from pplm_classification_head import ClassificationHead
+from torchtext import data as torchtext_data
+from torchtext import datasets
+from transformers import GPT2LMHeadModel, GPT2Tokenizer
+

 torch.manual_seed(0)
 np.random.seed(0)
--- a/examples/run_bertology.py
+++ b/examples/run_bertology.py
@ -19,19 +19,19 @@
    Some parts of this script are adapted from the code of Michel et al. (http://arxiv.org/abs/1905.10650)
    which is available at https://github.com/pmichel31415/are-16-heads-really-better-than-1
 """
-import os
 import argparse
 import logging
-from datetime import timedelta, datetime
-from tqdm import tqdm
+import os
+from datetime import datetime, timedelta

 import numpy as np
-
 import torch
-from torch.utils.data import DataLoader, SequentialSampler, TensorDataset, Subset
-from torch.utils.data.distributed import DistributedSampler
 from torch.nn import CrossEntropyLoss, MSELoss
+from torch.utils.data import DataLoader, SequentialSampler, Subset, TensorDataset
+from torch.utils.data.distributed import DistributedSampler
+from tqdm import tqdm

+from run_glue import ALL_MODELS, MODEL_CLASSES, load_and_cache_examples, set_seed
 from transformers import (
    WEIGHTS_NAME,
    BertConfig,
@ -44,13 +44,11 @@ from transformers import (
    XLNetForSequenceClassification,
    XLNetTokenizer,
 )
-
-from run_glue import set_seed, load_and_cache_examples, ALL_MODELS, MODEL_CLASSES
-
 from transformers import glue_compute_metrics as compute_metrics
 from transformers import glue_output_modes as output_modes
 from transformers import glue_processors as processors

+
 logger = logging.getLogger(__name__)


--- a/examples/run_generation.py
+++ b/examples/run_generation.py
@ -21,15 +21,23 @@ from __future__ import absolute_import, division, print_function, unicode_litera
 import argparse
 import logging

-import torch
 import numpy as np
+import torch

-from transformers import GPT2LMHeadModel, GPT2Tokenizer
-from transformers import OpenAIGPTLMHeadModel, OpenAIGPTTokenizer
-from transformers import XLNetLMHeadModel, XLNetTokenizer
-from transformers import TransfoXLLMHeadModel, TransfoXLTokenizer
-from transformers import CTRLLMHeadModel, CTRLTokenizer
-from transformers import XLMWithLMHeadModel, XLMTokenizer
+from transformers import (
+    CTRLLMHeadModel,
+    CTRLTokenizer,
+    GPT2LMHeadModel,
+    GPT2Tokenizer,
+    OpenAIGPTLMHeadModel,
+    OpenAIGPTTokenizer,
+    TransfoXLLMHeadModel,
+    TransfoXLTokenizer,
+    XLMTokenizer,
+    XLMWithLMHeadModel,
+    XLNetLMHeadModel,
+    XLNetTokenizer,
+)


 logging.basicConfig(
--- a/examples/run_glue.py
+++ b/examples/run_glue.py
@ -19,54 +19,54 @@ from __future__ import absolute_import, division, print_function

 import argparse
 import glob
+import json
 import logging
 import os
 import random
-import json

 import numpy as np
 import torch
 from torch.utils.data import DataLoader, RandomSampler, SequentialSampler, TensorDataset
 from torch.utils.data.distributed import DistributedSampler
+from tqdm import tqdm, trange
+
+from transformers import (
+    WEIGHTS_NAME,
+    AdamW,
+    AlbertConfig,
+    AlbertForSequenceClassification,
+    AlbertTokenizer,
+    BertConfig,
+    BertForSequenceClassification,
+    BertTokenizer,
+    DistilBertConfig,
+    DistilBertForSequenceClassification,
+    DistilBertTokenizer,
+    RobertaConfig,
+    RobertaForSequenceClassification,
+    RobertaTokenizer,
+    XLMConfig,
+    XLMForSequenceClassification,
+    XLMRobertaConfig,
+    XLMRobertaForSequenceClassification,
+    XLMRobertaTokenizer,
+    XLMTokenizer,
+    XLNetConfig,
+    XLNetForSequenceClassification,
+    XLNetTokenizer,
+    get_linear_schedule_with_warmup,
+)
+from transformers import glue_compute_metrics as compute_metrics
+from transformers import glue_convert_examples_to_features as convert_examples_to_features
+from transformers import glue_output_modes as output_modes
+from transformers import glue_processors as processors
+

 try:
    from torch.utils.tensorboard import SummaryWriter
 except:
    from tensorboardX import SummaryWriter

-from tqdm import tqdm, trange
-
-from transformers import (
-    WEIGHTS_NAME,
-    BertConfig,
-    BertForSequenceClassification,
-    BertTokenizer,
-    RobertaConfig,
-    RobertaForSequenceClassification,
-    RobertaTokenizer,
-    XLMConfig,
-    XLMForSequenceClassification,
-    XLMTokenizer,
-    XLNetConfig,
-    XLNetForSequenceClassification,
-    XLNetTokenizer,
-    DistilBertConfig,
-    DistilBertForSequenceClassification,
-    DistilBertTokenizer,
-    AlbertConfig,
-    AlbertForSequenceClassification,
-    AlbertTokenizer,
-    XLMRobertaConfig,
-    XLMRobertaForSequenceClassification,
-    XLMRobertaTokenizer,
-)
-
-from transformers import AdamW, get_linear_schedule_with_warmup
-
-from transformers import glue_compute_metrics as compute_metrics
-from transformers import glue_output_modes as output_modes
-from transformers import glue_processors as processors
-from transformers import glue_convert_examples_to_features as convert_examples_to_features

 logger = logging.getLogger(__name__)

--- a/examples/run_lm_finetuning.py
+++ b/examples/run_lm_finetuning.py
@ -32,23 +32,22 @@ import shutil

 import numpy as np
 import torch
-from torch.utils.data import DataLoader, Dataset, SequentialSampler, RandomSampler
+from torch.utils.data import DataLoader, Dataset, RandomSampler, SequentialSampler
 from torch.utils.data.distributed import DistributedSampler
-
-try:
-    from torch.utils.tensorboard import SummaryWriter
-except:
-    from tensorboardX import SummaryWriter
-
 from tqdm import tqdm, trange

 from transformers import (
    WEIGHTS_NAME,
    AdamW,
-    get_linear_schedule_with_warmup,
    BertConfig,
    BertForMaskedLM,
    BertTokenizer,
+    CamembertConfig,
+    CamembertForMaskedLM,
+    CamembertTokenizer,
+    DistilBertConfig,
+    DistilBertForMaskedLM,
+    DistilBertTokenizer,
    GPT2Config,
    GPT2LMHeadModel,
    GPT2Tokenizer,
@ -58,15 +57,16 @@ from transformers import (
    RobertaConfig,
    RobertaForMaskedLM,
    RobertaTokenizer,
-    DistilBertConfig,
-    DistilBertForMaskedLM,
-    DistilBertTokenizer,
-    CamembertConfig,
-    CamembertForMaskedLM,
-    CamembertTokenizer,
+    get_linear_schedule_with_warmup,
 )


+try:
+    from torch.utils.tensorboard import SummaryWriter
+except:
+    from tensorboardX import SummaryWriter
+
+
 logger = logging.getLogger(__name__)


--- a/examples/run_multiple_choice.py
+++ b/examples/run_multiple_choice.py
@ -23,35 +23,34 @@ import logging
 import os
 import random

-
 import numpy as np
 import torch
 from torch.utils.data import DataLoader, RandomSampler, SequentialSampler, TensorDataset
 from torch.utils.data.distributed import DistributedSampler
+from tqdm import tqdm, trange
+
+from transformers import (
+    WEIGHTS_NAME,
+    AdamW,
+    BertConfig,
+    BertForMultipleChoice,
+    BertTokenizer,
+    RobertaConfig,
+    RobertaForMultipleChoice,
+    RobertaTokenizer,
+    XLNetConfig,
+    XLNetForMultipleChoice,
+    XLNetTokenizer,
+    get_linear_schedule_with_warmup,
+)
+from utils_multiple_choice import convert_examples_to_features, processors
+

 try:
    from torch.utils.tensorboard import SummaryWriter
 except:
    from tensorboardX import SummaryWriter

-from tqdm import tqdm, trange
-
-from transformers import (
-    WEIGHTS_NAME,
-    BertConfig,
-    BertForMultipleChoice,
-    BertTokenizer,
-    XLNetConfig,
-    XLNetForMultipleChoice,
-    XLNetTokenizer,
-    RobertaConfig,
-    RobertaForMultipleChoice,
-    RobertaTokenizer,
-)
-
-from transformers import AdamW, get_linear_schedule_with_warmup
-
-from utils_multiple_choice import convert_examples_to_features, processors

 logger = logging.getLogger(__name__)

--- a/examples/run_ner.py
+++ b/examples/run_ner.py
@ -25,20 +25,35 @@ import random

 import numpy as np
 import torch
-from seqeval.metrics import precision_score, recall_score, f1_score
 from tensorboardX import SummaryWriter
 from torch.nn import CrossEntropyLoss
 from torch.utils.data import DataLoader, RandomSampler, SequentialSampler, TensorDataset
 from torch.utils.data.distributed import DistributedSampler
 from tqdm import tqdm, trange
+
+from seqeval.metrics import f1_score, precision_score, recall_score
+from transformers import (
+    WEIGHTS_NAME,
+    AdamW,
+    BertConfig,
+    BertForTokenClassification,
+    BertTokenizer,
+    CamembertConfig,
+    CamembertForTokenClassification,
+    CamembertTokenizer,
+    DistilBertConfig,
+    DistilBertForTokenClassification,
+    DistilBertTokenizer,
+    RobertaConfig,
+    RobertaForTokenClassification,
+    RobertaTokenizer,
+    XLMRobertaConfig,
+    XLMRobertaForTokenClassification,
+    XLMRobertaTokenizer,
+    get_linear_schedule_with_warmup,
+)
 from utils_ner import convert_examples_to_features, get_labels, read_examples_from_file

-from transformers import AdamW, get_linear_schedule_with_warmup
-from transformers import WEIGHTS_NAME, BertConfig, BertForTokenClassification, BertTokenizer
-from transformers import RobertaConfig, RobertaForTokenClassification, RobertaTokenizer
-from transformers import DistilBertConfig, DistilBertForTokenClassification, DistilBertTokenizer
-from transformers import CamembertConfig, CamembertForTokenClassification, CamembertTokenizer
-from transformers import XLMRobertaConfig, XLMRobertaForTokenClassification, XLMRobertaTokenizer

 logger = logging.getLogger(__name__)

--- a/examples/run_squad.py
+++ b/examples/run_squad.py
@ -16,57 +16,57 @@
 """ Finetuning the library models for question-answering on SQuAD (DistilBERT, Bert, XLM, XLNet)."""

 from __future__ import absolute_import, division, print_function
-from transformers.data.processors.squad import SquadV1Processor, SquadV2Processor, SquadResult
-from transformers.data.metrics.squad_metrics import (
-    compute_predictions_logits,
-    compute_predictions_log_probs,
-    squad_evaluate,
-)

 import argparse
+import glob
 import logging
 import os
 import random
-import glob
 import timeit
+
 import numpy as np
 import torch
 from torch.utils.data import DataLoader, RandomSampler, SequentialSampler, TensorDataset
 from torch.utils.data.distributed import DistributedSampler
-
-try:
-    from torch.utils.tensorboard import SummaryWriter
-except:
-    from tensorboardX import SummaryWriter
-
 from tqdm import tqdm, trange

 from transformers import (
    WEIGHTS_NAME,
+    AdamW,
+    AlbertConfig,
+    AlbertForQuestionAnswering,
+    AlbertTokenizer,
    BertConfig,
    BertForQuestionAnswering,
    BertTokenizer,
+    DistilBertConfig,
+    DistilBertForQuestionAnswering,
+    DistilBertTokenizer,
+    RobertaConfig,
    RobertaForQuestionAnswering,
    RobertaTokenizer,
-    RobertaConfig,
    XLMConfig,
    XLMForQuestionAnswering,
    XLMTokenizer,
    XLNetConfig,
    XLNetForQuestionAnswering,
    XLNetTokenizer,
-    DistilBertConfig,
-    DistilBertForQuestionAnswering,
-    DistilBertTokenizer,
-    AlbertConfig,
-    AlbertForQuestionAnswering,
-    AlbertTokenizer,
-    XLMConfig,
-    XLMForQuestionAnswering,
-    XLMTokenizer,
+    get_linear_schedule_with_warmup,
+    squad_convert_examples_to_features,
 )
+from transformers.data.metrics.squad_metrics import (
+    compute_predictions_log_probs,
+    compute_predictions_logits,
+    squad_evaluate,
+)
+from transformers.data.processors.squad import SquadResult, SquadV1Processor, SquadV2Processor
+
+
+try:
+    from torch.utils.tensorboard import SummaryWriter
+except:
+    from tensorboardX import SummaryWriter

-from transformers import AdamW, get_linear_schedule_with_warmup, squad_convert_examples_to_features

 logger = logging.getLogger(__name__)

--- a/examples/run_tf_glue.py
+++ b/examples/run_tf_glue.py
@ -1,15 +1,18 @@
 import os
+
 import tensorflow as tf
+
 import tensorflow_datasets
 from transformers import (
+    BertConfig,
+    BertForSequenceClassification,
    BertTokenizer,
    TFBertForSequenceClassification,
-    BertConfig,
    glue_convert_examples_to_features,
-    BertForSequenceClassification,
    glue_processors,
 )

+
 # script parameters
 BATCH_SIZE = 32
 EVAL_BATCH_SIZE = BATCH_SIZE * 2
--- a/examples/run_tf_ner.py
+++ b/examples/run_tf_ner.py
@ -1,23 +1,33 @@
 # coding=utf-8
-import datetime
-import os
-import math
-import glob
-import re
-import tensorflow as tf
-import collections
-import numpy as np
-from seqeval import metrics
 import _pickle as pickle
-from absl import logging
-from transformers import TF2_WEIGHTS_NAME, BertConfig, BertTokenizer, TFBertForTokenClassification
-from transformers import RobertaConfig, RobertaTokenizer, TFRobertaForTokenClassification
-from transformers import DistilBertConfig, DistilBertTokenizer, TFDistilBertForTokenClassification
-from transformers import create_optimizer, GradientAccumulator
-from utils_ner import convert_examples_to_features, get_labels, read_examples_from_file
+import collections
+import datetime
+import glob
+import math
+import os
+import re
+
+import numpy as np
+import tensorflow as tf
+from absl import app, flags, logging
+
 from fastprogress import master_bar, progress_bar
-from absl import flags
-from absl import app
+from seqeval import metrics
+from transformers import (
+    TF2_WEIGHTS_NAME,
+    BertConfig,
+    BertTokenizer,
+    DistilBertConfig,
+    DistilBertTokenizer,
+    GradientAccumulator,
+    RobertaConfig,
+    RobertaTokenizer,
+    TFBertForTokenClassification,
+    TFDistilBertForTokenClassification,
+    TFRobertaForTokenClassification,
+    create_optimizer,
+)
+from utils_ner import convert_examples_to_features, get_labels, read_examples_from_file


 ALL_MODELS = sum(
--- a/examples/run_xnli.py
+++ b/examples/run_xnli.py
@ -28,34 +28,33 @@ import numpy as np
 import torch
 from torch.utils.data import DataLoader, RandomSampler, SequentialSampler, TensorDataset
 from torch.utils.data.distributed import DistributedSampler
+from tqdm import tqdm, trange
+
+from transformers import (
+    WEIGHTS_NAME,
+    AdamW,
+    BertConfig,
+    BertForSequenceClassification,
+    BertTokenizer,
+    DistilBertConfig,
+    DistilBertForSequenceClassification,
+    DistilBertTokenizer,
+    XLMConfig,
+    XLMForSequenceClassification,
+    XLMTokenizer,
+    get_linear_schedule_with_warmup,
+)
+from transformers import glue_convert_examples_to_features as convert_examples_to_features
+from transformers import xnli_compute_metrics as compute_metrics
+from transformers import xnli_output_modes as output_modes
+from transformers import xnli_processors as processors
+

 try:
    from torch.utils.tensorboard import SummaryWriter
 except:
    from tensorboardX import SummaryWriter

-from tqdm import tqdm, trange
-
-from transformers import (
-    WEIGHTS_NAME,
-    BertConfig,
-    BertForSequenceClassification,
-    BertTokenizer,
-    XLMConfig,
-    XLMForSequenceClassification,
-    XLMTokenizer,
-    DistilBertConfig,
-    DistilBertForSequenceClassification,
-    DistilBertTokenizer,
-)
-
-from transformers import AdamW, get_linear_schedule_with_warmup
-
-from transformers import xnli_compute_metrics as compute_metrics
-from transformers import xnli_output_modes as output_modes
-from transformers import xnli_processors as processors
-
-from transformers import glue_convert_examples_to_features as convert_examples_to_features

 logger = logging.getLogger(__name__)

--- a/examples/summarization/convert_bertabs_original_pytorch_checkpoint.py
+++ b/examples/summarization/convert_bertabs_original_pytorch_checkpoint.py
@ -20,13 +20,13 @@ the model within the original codebase to be able to only save its `state_dict`.
 """

 import argparse
-from collections import namedtuple
 import logging
+from collections import namedtuple
+
 import torch

-from models.model_builder import AbsSummarizer  # The authors' implementation
 from model_bertabs import BertAbsSummarizer
-
+from models.model_builder import AbsSummarizer  # The authors' implementation
 from transformers import BertTokenizer


--- a/examples/summarization/modeling_bertabs.py
+++ b/examples/summarization/modeling_bertabs.py
@ -27,9 +27,8 @@ import torch
 from torch import nn
 from torch.nn.init import xavier_uniform_

-from transformers import BertModel, BertConfig, PreTrainedModel
-
 from configuration_bertabs import BertAbsConfig
+from transformers import BertConfig, BertModel, PreTrainedModel


 MAX_SIZE = 5000
--- a/examples/summarization/run_summarization.py
+++ b/examples/summarization/run_summarization.py
@ -1,26 +1,25 @@
 #! /usr/bin/python3
 import argparse
-from collections import namedtuple
 import logging
 import os
 import sys
+from collections import namedtuple

 import torch
 from torch.utils.data import DataLoader, SequentialSampler
 from tqdm import tqdm

-from transformers import BertTokenizer
-
 from modeling_bertabs import BertAbs, build_predictor
-
+from transformers import BertTokenizer
 from utils_summarization import (
    SummarizationDataset,
-    encode_for_summarization,
    build_mask,
-    fit_to_block_size,
    compute_token_type_ids,
+    encode_for_summarization,
+    fit_to_block_size,
 )

+
 logger = logging.getLogger(__name__)
 logging.basicConfig(stream=sys.stdout, level=logging.INFO)

--- a/examples/summarization/utils_summarization.py
+++ b/examples/summarization/utils_summarization.py
@ -1,5 +1,5 @@
-from collections import deque
 import os
+from collections import deque

 import torch
 from torch.utils.data import Dataset
--- a/examples/summarization/utils_summarization_test.py
+++ b/examples/summarization/utils_summarization_test.py
@ -17,12 +17,7 @@ import unittest
 import numpy as np
 import torch

-from utils_summarization import (
-    compute_token_type_ids,
-    fit_to_block_size,
-    build_mask,
-    process_story,
-)
+from utils_summarization import build_mask, compute_token_type_ids, fit_to_block_size, process_story


 class SummarizationDataProcessingTest(unittest.TestCase):
--- a/examples/test_examples.py
+++ b/examples/test_examples.py
@ -12,14 +12,17 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
-from __future__ import absolute_import
-from __future__ import division
-from __future__ import print_function
+from __future__ import absolute_import, division, print_function

-import sys
-import unittest
 import argparse
 import logging
+import sys
+import unittest
+
+import run_generation
+import run_glue
+import run_squad
+

 try:
    # python 3.4+ can use builtin unittest.mock instead of mock package
@ -27,9 +30,6 @@ try:
 except ImportError:
    from mock import patch

-import run_glue
-import run_squad
-import run_generation

 logging.basicConfig(level=logging.DEBUG)

--- a/examples/utils_multiple_choice.py
+++ b/examples/utils_multiple_choice.py
@ -17,16 +17,17 @@

 from __future__ import absolute_import, division, print_function

-
+import csv
+import glob
+import json
 import logging
 import os
 import sys
 from io import open
-import json
-import csv
-import glob
-import tqdm
 from typing import List
+
+import tqdm
+
 from transformers import PreTrainedTokenizer


--- a/examples/utils_ner.py
+++ b/examples/utils_ner.py
@ -21,6 +21,7 @@ import logging
 import os
 from io import open

+
 logger = logging.getLogger(__name__)


--- a/hubconf.py
+++ b/hubconf.py
@ -1,13 +1,14 @@
 from transformers import (
-    AutoTokenizer,
    AutoConfig,
    AutoModel,
-    AutoModelWithLMHead,
-    AutoModelForSequenceClassification,
    AutoModelForQuestionAnswering,
+    AutoModelForSequenceClassification,
+    AutoModelWithLMHead,
+    AutoTokenizer,
 )
 from transformers.file_utils import add_start_docstrings

+
 dependencies = ["torch", "tqdm", "boto3", "requests", "regex", "sentencepiece", "sacremoses"]


--- a/setup.py
+++ b/setup.py
@ -34,6 +34,7 @@ To create the package for pypi.

 """
 from io import open
+
 from setuptools import find_packages, setup


--- a/templates/adding_a_new_example_script/run_xxx.py
+++ b/templates/adding_a_new_example_script/run_xxx.py
@ -17,54 +17,55 @@
 from __future__ import absolute_import, division, print_function

 import argparse
+import glob
 import logging
 import os
 import random
-import glob

 import numpy as np
 import torch
 from torch.utils.data import DataLoader, RandomSampler, SequentialSampler, TensorDataset
 from torch.utils.data.distributed import DistributedSampler
-
-try:
-    from torch.utils.tensorboard import SummaryWriter
-except:
-    from tensorboardX import SummaryWriter
-
 from tqdm import tqdm, trange

 from transformers import (
    WEIGHTS_NAME,
+    AdamW,
    BertConfig,
    BertForQuestionAnswering,
    BertTokenizer,
+    DistilBertConfig,
+    DistilBertForQuestionAnswering,
+    DistilBertTokenizer,
    XLMConfig,
    XLMForQuestionAnswering,
    XLMTokenizer,
    XLNetConfig,
    XLNetForQuestionAnswering,
    XLNetTokenizer,
-    DistilBertConfig,
-    DistilBertForQuestionAnswering,
-    DistilBertTokenizer,
+    get_linear_schedule_with_warmup,
 )
-
-from transformers import AdamW, get_linear_schedule_with_warmup
-
 from utils_squad import (
-    read_squad_examples,
-    convert_examples_to_features,
    RawResult,
-    write_predictions,
    RawResultExtended,
+    convert_examples_to_features,
+    read_squad_examples,
+    write_predictions,
    write_predictions_extended,
 )

 # The follwing import is the official SQuAD evaluation script (2.0).
 # You can remove it from the dependencies if you are using this script outside of the library
 # We've added it here for automated tests (see examples/test_examples.py file)
-from utils_squad_evaluate import EVAL_OPTS, main as evaluate_on_squad
+from utils_squad_evaluate import EVAL_OPTS
+from utils_squad_evaluate import main as evaluate_on_squad
+
+
+try:
+    from torch.utils.tensorboard import SummaryWriter
+except:
+    from tensorboardX import SummaryWriter
+

 logger = logging.getLogger(__name__)

--- a/templates/adding_a_new_example_script/utils_xxx.py
+++ b/templates/adding_a_new_example_script/utils_xxx.py
@ -16,16 +16,17 @@

 from __future__ import absolute_import, division, print_function

+import collections
 import json
 import logging
 import math
-import collections
 from io import open

 from transformers.tokenization_bert import BasicTokenizer, whitespace_tokenize

 # Required by XLNet evaluation method to compute optimal threshold (see write_predictions_extended() method)
-from utils_squad_evaluate import find_all_best_thresh_v2, make_qid_to_has_ans, get_raw_scores
+from utils_squad_evaluate import find_all_best_thresh_v2, get_raw_scores, make_qid_to_has_ans
+

 logger = logging.getLogger(__name__)

--- a/templates/adding_a_new_model/configuration_xxx.py
+++ b/templates/adding_a_new_model/configuration_xxx.py
@ -19,11 +19,13 @@ from __future__ import absolute_import, division, print_function, unicode_litera
 import json
 import logging
 import sys
-import six
 from io import open

+import six
+
 from .configuration_utils import PretrainedConfig

+
 logger = logging.getLogger(__name__)

 XXX_PRETRAINED_CONFIG_ARCHIVE_MAP = {
--- a/templates/adding_a_new_model/convert_xxx_original_tf_checkpoint_to_pytorch.py
+++ b/templates/adding_a_new_model/convert_xxx_original_tf_checkpoint_to_pytorch.py
@ -14,16 +14,15 @@
 # limitations under the License.
 """Convert XXX checkpoint."""

-from __future__ import absolute_import
-from __future__ import division
-from __future__ import print_function
+from __future__ import absolute_import, division, print_function

 import argparse
+import logging
+
 import torch

 from transformers import XxxConfig, XxxForPreTraining, load_tf_weights_in_xxx

-import logging

 logging.basicConfig(level=logging.INFO)

--- a/templates/adding_a_new_model/modeling_tf_xxx.py
+++ b/templates/adding_a_new_model/modeling_tf_xxx.py
@ -21,21 +21,22 @@

 from __future__ import absolute_import, division, print_function, unicode_literals

+import copy
+import itertools
 import json
 import logging
 import math
 import os
 import sys
-import copy
-import itertools
 from io import open

 import numpy as np
 import tensorflow as tf

 from .configuration_xxx import XxxConfig
-from .modeling_tf_utils import TFPreTrainedModel, get_initializer, shape_list
 from .file_utils import add_start_docstrings
+from .modeling_tf_utils import TFPreTrainedModel, get_initializer, shape_list
+

 logger = logging.getLogger(__name__)

--- a/templates/adding_a_new_model/modeling_xxx.py
+++ b/templates/adding_a_new_model/modeling_xxx.py
@ -20,22 +20,23 @@

 from __future__ import absolute_import, division, print_function, unicode_literals

+import copy
+import itertools
 import json
 import logging
 import math
 import os
 import sys
-import copy
-import itertools
 from io import open

 import torch
 from torch import nn
 from torch.nn import CrossEntropyLoss, MSELoss

-from .modeling_utils import PreTrainedModel, prune_linear_layer
 from .configuration_xxx import XxxConfig
 from .file_utils import add_start_docstrings
+from .modeling_utils import PreTrainedModel, prune_linear_layer
+

 logger = logging.getLogger(__name__)

--- a/templates/adding_a_new_model/tests/modeling_tf_xxx_test.py
+++ b/templates/adding_a_new_model/tests/modeling_tf_xxx_test.py
@ -12,19 +12,18 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
-from __future__ import absolute_import
-from __future__ import division
-from __future__ import print_function
+from __future__ import absolute_import, division, print_function

-import unittest
 import sys
-
-from .modeling_tf_common_test import TFCommonTestCases, ids_tensor
-from .configuration_common_test import ConfigTester
-from .utils import CACHE_DIR, require_tf, slow
+import unittest

 from transformers import XxxConfig, is_tf_available

+from .configuration_common_test import ConfigTester
+from .modeling_tf_common_test import TFCommonTestCases, ids_tensor
+from .utils import CACHE_DIR, require_tf, slow
+
+
 if is_tf_available():
    import tensorflow as tf
    from transformers.modeling_tf_xxx import (
--- a/templates/adding_a_new_model/tests/modeling_xxx_test.py
+++ b/templates/adding_a_new_model/tests/modeling_xxx_test.py
@ -12,18 +12,17 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
-from __future__ import absolute_import
-from __future__ import division
-from __future__ import print_function
+from __future__ import absolute_import, division, print_function

 import unittest

 from transformers import is_torch_available

-from .modeling_common_test import CommonTestCases, ids_tensor
 from .configuration_common_test import ConfigTester
+from .modeling_common_test import CommonTestCases, ids_tensor
 from .utils import CACHE_DIR, require_torch, slow, torch_device

+
 if is_torch_available():
    from transformers import (
        XxxConfig,
--- a/templates/adding_a_new_model/tests/tokenization_xxx_test.py
+++ b/templates/adding_a_new_model/tests/tokenization_xxx_test.py
@ -18,7 +18,7 @@ import os
 import unittest
 from io import open

-from transformers.tokenization_bert import XxxTokenizer, VOCAB_FILES_NAMES
+from transformers.tokenization_bert import VOCAB_FILES_NAMES, XxxTokenizer

 from .tokenization_tests_commons import CommonTestCases

--- a/templates/adding_a_new_model/tokenization_xxx.py
+++ b/templates/adding_a_new_model/tokenization_xxx.py
@ -24,6 +24,7 @@ from io import open

 from .tokenization_utils import PreTrainedTokenizer

+
 logger = logging.getLogger(__name__)

 ####################################################
--- a/transformers/init.py
+++ b/transformers/init.py
@ -15,86 +15,114 @@ except:

 import logging

-logger = logging.getLogger(__name__)  # pylint: disable=invalid-name
+from .configuration_albert import ALBERT_PRETRAINED_CONFIG_ARCHIVE_MAP, AlbertConfig
+from .configuration_auto import ALL_PRETRAINED_CONFIG_ARCHIVE_MAP, AutoConfig
+from .configuration_bert import BERT_PRETRAINED_CONFIG_ARCHIVE_MAP, BertConfig
+from .configuration_camembert import CAMEMBERT_PRETRAINED_CONFIG_ARCHIVE_MAP, CamembertConfig
+from .configuration_ctrl import CTRL_PRETRAINED_CONFIG_ARCHIVE_MAP, CTRLConfig
+from .configuration_distilbert import DISTILBERT_PRETRAINED_CONFIG_ARCHIVE_MAP, DistilBertConfig
+from .configuration_gpt2 import GPT2_PRETRAINED_CONFIG_ARCHIVE_MAP, GPT2Config
+from .configuration_mmbt import MMBTConfig
+from .configuration_openai import OPENAI_GPT_PRETRAINED_CONFIG_ARCHIVE_MAP, OpenAIGPTConfig
+from .configuration_roberta import ROBERTA_PRETRAINED_CONFIG_ARCHIVE_MAP, RobertaConfig
+from .configuration_t5 import T5_PRETRAINED_CONFIG_ARCHIVE_MAP, T5Config
+from .configuration_transfo_xl import TRANSFO_XL_PRETRAINED_CONFIG_ARCHIVE_MAP, TransfoXLConfig
+
+# Configurations
+from .configuration_utils import PretrainedConfig
+from .configuration_xlm import XLM_PRETRAINED_CONFIG_ARCHIVE_MAP, XLMConfig
+from .configuration_xlm_roberta import XLM_ROBERTA_PRETRAINED_CONFIG_ARCHIVE_MAP, XLMRobertaConfig
+from .configuration_xlnet import XLNET_PRETRAINED_CONFIG_ARCHIVE_MAP, XLNetConfig
+from .data import (
+    DataProcessor,
+    InputExample,
+    InputFeatures,
+    SingleSentenceClassificationProcessor,
+    SquadExample,
+    SquadFeatures,
+    SquadV1Processor,
+    SquadV2Processor,
+    glue_convert_examples_to_features,
+    glue_output_modes,
+    glue_processors,
+    glue_tasks_num_labels,
+    is_sklearn_available,
+    squad_convert_examples_to_features,
+    xnli_output_modes,
+    xnli_processors,
+    xnli_tasks_num_labels,
+)

 # Files and general utilities
 from .file_utils import (
-    TRANSFORMERS_CACHE,
-    PYTORCH_TRANSFORMERS_CACHE,
-    PYTORCH_PRETRAINED_BERT_CACHE,
-    cached_path,
-    add_start_docstrings,
-    add_end_docstrings,
-    WEIGHTS_NAME,
-    TF2_WEIGHTS_NAME,
-    TF_WEIGHTS_NAME,
    CONFIG_NAME,
    MODEL_CARD_NAME,
+    PYTORCH_PRETRAINED_BERT_CACHE,
+    PYTORCH_TRANSFORMERS_CACHE,
+    TF2_WEIGHTS_NAME,
+    TF_WEIGHTS_NAME,
+    TRANSFORMERS_CACHE,
+    WEIGHTS_NAME,
+    add_end_docstrings,
+    add_start_docstrings,
+    cached_path,
    is_tf_available,
    is_torch_available,
 )

-from .data import (
-    is_sklearn_available,
-    InputExample,
-    InputFeatures,
-    DataProcessor,
-    SingleSentenceClassificationProcessor,
-    glue_output_modes,
-    glue_convert_examples_to_features,
-    glue_processors,
-    glue_tasks_num_labels,
-    xnli_output_modes,
-    xnli_processors,
-    xnli_tasks_num_labels,
-    squad_convert_examples_to_features,
-    SquadFeatures,
-    SquadExample,
-    SquadV1Processor,
-    SquadV2Processor,
+# Model Cards
+from .modelcard import ModelCard
+
+# TF 2.0 <=> PyTorch conversion utilities
+from .modeling_tf_pytorch_utils import (
+    convert_tf_weight_name_to_pt_weight_name,
+    load_pytorch_checkpoint_in_tf2_model,
+    load_pytorch_model_in_tf2_model,
+    load_pytorch_weights_in_tf2_model,
+    load_tf2_checkpoint_in_pytorch_model,
+    load_tf2_model_in_pytorch_model,
+    load_tf2_weights_in_pytorch_model,
 )

+# Pipelines
+from .pipelines import (
+    CsvPipelineDataFormat,
+    FeatureExtractionPipeline,
+    JsonPipelineDataFormat,
+    NerPipeline,
+    PipedPipelineDataFormat,
+    Pipeline,
+    PipelineDataFormat,
+    QuestionAnsweringPipeline,
+    TextClassificationPipeline,
+    pipeline,
+)
+from .tokenization_albert import AlbertTokenizer
+from .tokenization_auto import AutoTokenizer
+from .tokenization_bert import BasicTokenizer, BertTokenizer, WordpieceTokenizer
+from .tokenization_bert_japanese import BertJapaneseTokenizer, CharacterTokenizer, MecabTokenizer
+from .tokenization_camembert import CamembertTokenizer
+from .tokenization_ctrl import CTRLTokenizer
+from .tokenization_distilbert import DistilBertTokenizer
+from .tokenization_gpt2 import GPT2Tokenizer
+from .tokenization_openai import OpenAIGPTTokenizer
+from .tokenization_roberta import RobertaTokenizer
+from .tokenization_t5 import T5Tokenizer
+from .tokenization_transfo_xl import TransfoXLCorpus, TransfoXLTokenizer
+
+# Tokenizers
+from .tokenization_utils import PreTrainedTokenizer
+from .tokenization_xlm import XLMTokenizer
+from .tokenization_xlm_roberta import XLMRobertaTokenizer
+from .tokenization_xlnet import SPIECE_UNDERLINE, XLNetTokenizer
+
+
+logger = logging.getLogger(__name__)  # pylint: disable=invalid-name
+
+
 if is_sklearn_available():
    from .data import glue_compute_metrics, xnli_compute_metrics

-# Model Cards
-from .modelcard import ModelCard
-
-# Tokenizers
-from .tokenization_utils import PreTrainedTokenizer
-from .tokenization_auto import AutoTokenizer
-from .tokenization_bert import BertTokenizer, BasicTokenizer, WordpieceTokenizer
-from .tokenization_bert_japanese import BertJapaneseTokenizer, MecabTokenizer, CharacterTokenizer
-from .tokenization_openai import OpenAIGPTTokenizer
-from .tokenization_transfo_xl import TransfoXLTokenizer, TransfoXLCorpus
-from .tokenization_gpt2 import GPT2Tokenizer
-from .tokenization_ctrl import CTRLTokenizer
-from .tokenization_xlnet import XLNetTokenizer, SPIECE_UNDERLINE
-from .tokenization_xlm import XLMTokenizer
-from .tokenization_roberta import RobertaTokenizer
-from .tokenization_distilbert import DistilBertTokenizer
-from .tokenization_albert import AlbertTokenizer
-from .tokenization_camembert import CamembertTokenizer
-from .tokenization_t5 import T5Tokenizer
-from .tokenization_xlm_roberta import XLMRobertaTokenizer
-
-# Configurations
-from .configuration_utils import PretrainedConfig
-from .configuration_auto import AutoConfig, ALL_PRETRAINED_CONFIG_ARCHIVE_MAP
-from .configuration_bert import BertConfig, BERT_PRETRAINED_CONFIG_ARCHIVE_MAP
-from .configuration_openai import OpenAIGPTConfig, OPENAI_GPT_PRETRAINED_CONFIG_ARCHIVE_MAP
-from .configuration_transfo_xl import TransfoXLConfig, TRANSFO_XL_PRETRAINED_CONFIG_ARCHIVE_MAP
-from .configuration_gpt2 import GPT2Config, GPT2_PRETRAINED_CONFIG_ARCHIVE_MAP
-from .configuration_ctrl import CTRLConfig, CTRL_PRETRAINED_CONFIG_ARCHIVE_MAP
-from .configuration_xlnet import XLNetConfig, XLNET_PRETRAINED_CONFIG_ARCHIVE_MAP
-from .configuration_xlm import XLMConfig, XLM_PRETRAINED_CONFIG_ARCHIVE_MAP
-from .configuration_roberta import RobertaConfig, ROBERTA_PRETRAINED_CONFIG_ARCHIVE_MAP
-from .configuration_distilbert import DistilBertConfig, DISTILBERT_PRETRAINED_CONFIG_ARCHIVE_MAP
-from .configuration_albert import AlbertConfig, ALBERT_PRETRAINED_CONFIG_ARCHIVE_MAP
-from .configuration_camembert import CamembertConfig, CAMEMBERT_PRETRAINED_CONFIG_ARCHIVE_MAP
-from .configuration_t5 import T5Config, T5_PRETRAINED_CONFIG_ARCHIVE_MAP
-from .configuration_xlm_roberta import XLMRobertaConfig, XLM_ROBERTA_PRETRAINED_CONFIG_ARCHIVE_MAP
-from .configuration_mmbt import MMBTConfig

 # Modeling
 if is_torch_available():
@ -345,30 +373,6 @@ if is_tf_available():
    # Optimization
    from .optimization_tf import WarmUp, create_optimizer, AdamWeightDecay, GradientAccumulator

-# TF 2.0 <=> PyTorch conversion utilities
-from .modeling_tf_pytorch_utils import (
-    convert_tf_weight_name_to_pt_weight_name,
-    load_pytorch_checkpoint_in_tf2_model,
-    load_pytorch_weights_in_tf2_model,
-    load_pytorch_model_in_tf2_model,
-    load_tf2_checkpoint_in_pytorch_model,
-    load_tf2_weights_in_pytorch_model,
-    load_tf2_model_in_pytorch_model,
-)
-
-# Pipelines
-from .pipelines import (
-    pipeline,
-    PipelineDataFormat,
-    CsvPipelineDataFormat,
-    JsonPipelineDataFormat,
-    PipedPipelineDataFormat,
-    Pipeline,
-    FeatureExtractionPipeline,
-    QuestionAnsweringPipeline,
-    NerPipeline,
-    TextClassificationPipeline,
-)

 if not is_tf_available() and not is_torch_available():
    logger.warning(
--- a/transformers/commands/convert.py
+++ b/transformers/commands/convert.py
@ -1,5 +1,4 @@
 from argparse import ArgumentParser, Namespace
-
 from logging import getLogger

 from transformers import AutoModel, AutoTokenizer
--- a/transformers/commands/run.py
+++ b/transformers/commands/run.py
@ -2,7 +2,7 @@ import logging
 from argparse import ArgumentParser

 from transformers.commands import BaseTransformersCLICommand
-from transformers.pipelines import pipeline, Pipeline, PipelineDataFormat, SUPPORTED_TASKS
+from transformers.pipelines import SUPPORTED_TASKS, Pipeline, PipelineDataFormat, pipeline


 logger = logging.getLogger(__name__)  # pylint: disable=invalid-name
--- a/transformers/commands/serving.py
+++ b/transformers/commands/serving.py
@ -1,7 +1,11 @@
-from argparse import ArgumentParser, Namespace
-from typing import List, Optional, Union, Any
-
 import logging
+from argparse import ArgumentParser, Namespace
+from typing import Any, List, Optional, Union
+
+from transformers import Pipeline
+from transformers.commands import BaseTransformersCLICommand
+from transformers.pipelines import SUPPORTED_TASKS, pipeline
+

 try:
    from uvicorn import run
@ -14,9 +18,6 @@ except (ImportError, AttributeError):
    Body = lambda *x, **y: None
    _serve_dependancies_installed = False

-from transformers import Pipeline
-from transformers.commands import BaseTransformersCLICommand
-from transformers.pipelines import SUPPORTED_TASKS, pipeline

 logger = logging.getLogger("transformers-cli/serving")

--- a/transformers/commands/train.py
+++ b/transformers/commands/train.py
@ -2,13 +2,10 @@ import os
 from argparse import ArgumentParser, Namespace
 from logging import getLogger

+from transformers import SingleSentenceClassificationProcessor as Processor
+from transformers import TextClassificationPipeline, is_tf_available, is_torch_available
 from transformers.commands import BaseTransformersCLICommand
-from transformers import (
-    is_tf_available,
-    is_torch_available,
-    TextClassificationPipeline,
-    SingleSentenceClassificationProcessor as Processor,
-)
+

 if not is_tf_available() and not is_torch_available():
    raise ImportError("At least one of PyTorch or TensorFlow 2.0+ should be installed to use CLI training")
--- a/transformers/commands/user.py
+++ b/transformers/commands/user.py
@ -1,6 +1,6 @@
+import os
 from argparse import ArgumentParser
 from getpass import getpass
-import os

 from transformers.commands import BaseTransformersCLICommand
 from transformers.hf_api import HfApi, HfFolder, HTTPError
--- a/transformers/configuration_albert.py
+++ b/transformers/configuration_albert.py
@ -17,6 +17,7 @@

 from .configuration_utils import PretrainedConfig

+
 ALBERT_PRETRAINED_CONFIG_ARCHIVE_MAP = {
    "albert-base-v1": "https://s3.amazonaws.com/models.huggingface.co/bert/albert-base-config.json",
    "albert-large-v1": "https://s3.amazonaws.com/models.huggingface.co/bert/albert-large-config.json",
--- a/transformers/configuration_auto.py
+++ b/transformers/configuration_auto.py
@ -18,19 +18,20 @@ from __future__ import absolute_import, division, print_function, unicode_litera

 import logging

-from .configuration_bert import BertConfig, BERT_PRETRAINED_CONFIG_ARCHIVE_MAP
-from .configuration_openai import OpenAIGPTConfig, OPENAI_GPT_PRETRAINED_CONFIG_ARCHIVE_MAP
-from .configuration_transfo_xl import TransfoXLConfig, TRANSFO_XL_PRETRAINED_CONFIG_ARCHIVE_MAP
-from .configuration_gpt2 import GPT2Config, GPT2_PRETRAINED_CONFIG_ARCHIVE_MAP
-from .configuration_ctrl import CTRLConfig, CTRL_PRETRAINED_CONFIG_ARCHIVE_MAP
-from .configuration_xlnet import XLNetConfig, XLNET_PRETRAINED_CONFIG_ARCHIVE_MAP
-from .configuration_xlm import XLMConfig, XLM_PRETRAINED_CONFIG_ARCHIVE_MAP
-from .configuration_roberta import RobertaConfig, ROBERTA_PRETRAINED_CONFIG_ARCHIVE_MAP
-from .configuration_distilbert import DistilBertConfig, DISTILBERT_PRETRAINED_CONFIG_ARCHIVE_MAP
-from .configuration_albert import AlbertConfig, ALBERT_PRETRAINED_CONFIG_ARCHIVE_MAP
-from .configuration_camembert import CamembertConfig, CAMEMBERT_PRETRAINED_CONFIG_ARCHIVE_MAP
-from .configuration_t5 import T5Config, T5_PRETRAINED_CONFIG_ARCHIVE_MAP
-from .configuration_xlm_roberta import XLMRobertaConfig, XLM_ROBERTA_PRETRAINED_CONFIG_ARCHIVE_MAP
+from .configuration_albert import ALBERT_PRETRAINED_CONFIG_ARCHIVE_MAP, AlbertConfig
+from .configuration_bert import BERT_PRETRAINED_CONFIG_ARCHIVE_MAP, BertConfig
+from .configuration_camembert import CAMEMBERT_PRETRAINED_CONFIG_ARCHIVE_MAP, CamembertConfig
+from .configuration_ctrl import CTRL_PRETRAINED_CONFIG_ARCHIVE_MAP, CTRLConfig
+from .configuration_distilbert import DISTILBERT_PRETRAINED_CONFIG_ARCHIVE_MAP, DistilBertConfig
+from .configuration_gpt2 import GPT2_PRETRAINED_CONFIG_ARCHIVE_MAP, GPT2Config
+from .configuration_openai import OPENAI_GPT_PRETRAINED_CONFIG_ARCHIVE_MAP, OpenAIGPTConfig
+from .configuration_roberta import ROBERTA_PRETRAINED_CONFIG_ARCHIVE_MAP, RobertaConfig
+from .configuration_t5 import T5_PRETRAINED_CONFIG_ARCHIVE_MAP, T5Config
+from .configuration_transfo_xl import TRANSFO_XL_PRETRAINED_CONFIG_ARCHIVE_MAP, TransfoXLConfig
+from .configuration_xlm import XLM_PRETRAINED_CONFIG_ARCHIVE_MAP, XLMConfig
+from .configuration_xlm_roberta import XLM_ROBERTA_PRETRAINED_CONFIG_ARCHIVE_MAP, XLMRobertaConfig
+from .configuration_xlnet import XLNET_PRETRAINED_CONFIG_ARCHIVE_MAP, XLNetConfig
+

 logger = logging.getLogger(__name__)

--- a/transformers/configuration_bert.py
+++ b/transformers/configuration_bert.py
@ -24,6 +24,7 @@ from io import open

 from .configuration_utils import PretrainedConfig

+
 logger = logging.getLogger(__name__)

 BERT_PRETRAINED_CONFIG_ARCHIVE_MAP = {
--- a/transformers/configuration_camembert.py
+++ b/transformers/configuration_camembert.py
@ -21,6 +21,7 @@ import logging

 from .configuration_roberta import RobertaConfig

+
 logger = logging.getLogger(__name__)

 CAMEMBERT_PRETRAINED_CONFIG_ARCHIVE_MAP = {
--- a/transformers/configuration_ctrl.py
+++ b/transformers/configuration_ctrl.py
@ -23,6 +23,7 @@ from io import open

 from .configuration_utils import PretrainedConfig

+
 logger = logging.getLogger(__name__)

 CTRL_PRETRAINED_CONFIG_ARCHIVE_MAP = {"ctrl": "https://storage.googleapis.com/sf-ctrl/pytorch/ctrl-config.json"}
--- a/transformers/configuration_distilbert.py
+++ b/transformers/configuration_distilbert.py
@ -15,13 +15,14 @@
 """ DistilBERT model configuration """
 from __future__ import absolute_import, division, print_function, unicode_literals

-import sys
 import json
 import logging
+import sys
 from io import open

 from .configuration_utils import PretrainedConfig

+
 logger = logging.getLogger(__name__)

 DISTILBERT_PRETRAINED_CONFIG_ARCHIVE_MAP = {
--- a/transformers/configuration_gpt2.py
+++ b/transformers/configuration_gpt2.py
@ -24,6 +24,7 @@ from io import open

 from .configuration_utils import PretrainedConfig

+
 logger = logging.getLogger(__name__)

 GPT2_PRETRAINED_CONFIG_ARCHIVE_MAP = {
--- a/transformers/configuration_mmbt.py
+++ b/transformers/configuration_mmbt.py
@ -19,6 +19,7 @@ from __future__ import absolute_import, division, print_function, unicode_litera

 import logging

+
 logger = logging.getLogger(__name__)


--- a/transformers/configuration_openai.py
+++ b/transformers/configuration_openai.py
@ -24,6 +24,7 @@ from io import open

 from .configuration_utils import PretrainedConfig

+
 logger = logging.getLogger(__name__)

 OPENAI_GPT_PRETRAINED_CONFIG_ARCHIVE_MAP = {
--- a/transformers/configuration_roberta.py
+++ b/transformers/configuration_roberta.py
@ -21,6 +21,7 @@ import logging

 from .configuration_bert import BertConfig

+
 logger = logging.getLogger(__name__)

 ROBERTA_PRETRAINED_CONFIG_ARCHIVE_MAP = {
--- a/transformers/configuration_t5.py
+++ b/transformers/configuration_t5.py
@ -19,11 +19,13 @@ from __future__ import absolute_import, division, print_function, unicode_litera
 import json
 import logging
 import sys
-import six
 from io import open

+import six
+
 from .configuration_utils import PretrainedConfig

+
 logger = logging.getLogger(__name__)

 T5_PRETRAINED_CONFIG_ARCHIVE_MAP = {
--- a/transformers/configuration_transfo_xl.py
+++ b/transformers/configuration_transfo_xl.py
@ -24,6 +24,7 @@ from io import open

 from .configuration_utils import PretrainedConfig

+
 logger = logging.getLogger(__name__)

 TRANSFO_XL_PRETRAINED_CONFIG_ARCHIVE_MAP = {
--- a/transformers/configuration_utils.py
+++ b/transformers/configuration_utils.py
@ -23,7 +23,8 @@ import logging
 import os
 from io import open

-from .file_utils import CONFIG_NAME, cached_path, is_remote_url, hf_bucket_url
+from .file_utils import CONFIG_NAME, cached_path, hf_bucket_url, is_remote_url
+

 logger = logging.getLogger(__name__)

--- a/transformers/configuration_xlm.py
+++ b/transformers/configuration_xlm.py
@ -22,6 +22,7 @@ from io import open

 from .configuration_utils import PretrainedConfig

+
 logger = logging.getLogger(__name__)

 XLM_PRETRAINED_CONFIG_ARCHIVE_MAP = {
--- a/transformers/configuration_xlm_roberta.py
+++ b/transformers/configuration_xlm_roberta.py
@ -21,6 +21,7 @@ import logging

 from .configuration_roberta import RobertaConfig

+
 logger = logging.getLogger(__name__)

 XLM_ROBERTA_PRETRAINED_CONFIG_ARCHIVE_MAP = {
--- a/transformers/configuration_xlnet.py
+++ b/transformers/configuration_xlnet.py
@ -23,6 +23,7 @@ from io import open

 from .configuration_utils import PretrainedConfig

+
 logger = logging.getLogger(__name__)

 XLNET_PRETRAINED_CONFIG_ARCHIVE_MAP = {
--- a/transformers/convert_albert_original_tf_checkpoint_to_pytorch.py
+++ b/transformers/convert_albert_original_tf_checkpoint_to_pytorch.py
@ -14,16 +14,15 @@
 # limitations under the License.
 """Convert ALBERT checkpoint."""

-from __future__ import absolute_import
-from __future__ import division
-from __future__ import print_function
+from __future__ import absolute_import, division, print_function

 import argparse
+import logging
+
 import torch

 from transformers import AlbertConfig, AlbertForMaskedLM, load_tf_weights_in_albert

-import logging

 logging.basicConfig(level=logging.INFO)

--- a/transformers/convert_bert_original_tf_checkpoint_to_pytorch.py
+++ b/transformers/convert_bert_original_tf_checkpoint_to_pytorch.py
@ -14,16 +14,15 @@
 # limitations under the License.
 """Convert BERT checkpoint."""

-from __future__ import absolute_import
-from __future__ import division
-from __future__ import print_function
+from __future__ import absolute_import, division, print_function

 import argparse
+import logging
+
 import torch

 from transformers import BertConfig, BertForPreTraining, load_tf_weights_in_bert

-import logging

 logging.basicConfig(level=logging.INFO)

--- a/transformers/convert_bert_pytorch_checkpoint_to_original_tf.py
+++ b/transformers/convert_bert_pytorch_checkpoint_to_original_tf.py
@ -15,11 +15,13 @@

 """Convert Huggingface Pytorch checkpoint to Tensorflow checkpoint."""

-import os
 import argparse
-import torch
+import os
+
 import numpy as np
 import tensorflow as tf
+import torch
+
 from transformers import BertModel


--- a/transformers/convert_gpt2_original_tf_checkpoint_to_pytorch.py
+++ b/transformers/convert_gpt2_original_tf_checkpoint_to_pytorch.py
@ -17,13 +17,13 @@
 from __future__ import absolute_import, division, print_function

 import argparse
+import logging
 from io import open

 import torch

 from transformers import CONFIG_NAME, WEIGHTS_NAME, GPT2Config, GPT2Model, load_tf_weights_in_gpt2

-import logging

 logging.basicConfig(level=logging.INFO)

--- a/transformers/convert_openai_original_tf_checkpoint_to_pytorch.py
+++ b/transformers/convert_openai_original_tf_checkpoint_to_pytorch.py
@ -17,13 +17,13 @@
 from __future__ import absolute_import, division, print_function

 import argparse
+import logging
 from io import open

 import torch

 from transformers import CONFIG_NAME, WEIGHTS_NAME, OpenAIGPTConfig, OpenAIGPTModel, load_tf_weights_in_openai_gpt

-import logging

 logging.basicConfig(level=logging.INFO)

--- a/transformers/convert_pytorch_checkpoint_to_tf2.py
+++ b/transformers/convert_pytorch_checkpoint_to_tf2.py
@ -14,58 +14,59 @@
 # limitations under the License.
 """ Convert pytorch checkpoints to TensorFlow """

-from __future__ import absolute_import
-from __future__ import division
-from __future__ import print_function
+from __future__ import absolute_import, division, print_function

-import os
 import argparse
+import logging
+import os
+
 import tensorflow as tf

-from transformers import is_torch_available, cached_path
-
 from transformers import (
-    load_pytorch_checkpoint_in_tf2_model,
+    ALBERT_PRETRAINED_CONFIG_ARCHIVE_MAP,
+    BERT_PRETRAINED_CONFIG_ARCHIVE_MAP,
+    CTRL_PRETRAINED_CONFIG_ARCHIVE_MAP,
+    DISTILBERT_PRETRAINED_CONFIG_ARCHIVE_MAP,
+    GPT2_PRETRAINED_CONFIG_ARCHIVE_MAP,
+    OPENAI_GPT_PRETRAINED_CONFIG_ARCHIVE_MAP,
+    ROBERTA_PRETRAINED_CONFIG_ARCHIVE_MAP,
+    T5_PRETRAINED_CONFIG_ARCHIVE_MAP,
+    TRANSFO_XL_PRETRAINED_CONFIG_ARCHIVE_MAP,
+    XLM_PRETRAINED_CONFIG_ARCHIVE_MAP,
+    XLNET_PRETRAINED_CONFIG_ARCHIVE_MAP,
+    AlbertConfig,
    BertConfig,
+    CTRLConfig,
+    DistilBertConfig,
+    GPT2Config,
+    OpenAIGPTConfig,
+    RobertaConfig,
+    T5Config,
+    TFAlbertForMaskedLM,
    TFBertForPreTraining,
    TFBertForQuestionAnswering,
    TFBertForSequenceClassification,
-    BERT_PRETRAINED_CONFIG_ARCHIVE_MAP,
-    GPT2Config,
-    TFGPT2LMHeadModel,
-    GPT2_PRETRAINED_CONFIG_ARCHIVE_MAP,
-    XLNetConfig,
-    TFXLNetLMHeadModel,
-    XLNET_PRETRAINED_CONFIG_ARCHIVE_MAP,
-    XLMConfig,
-    TFXLMWithLMHeadModel,
-    XLM_PRETRAINED_CONFIG_ARCHIVE_MAP,
-    TransfoXLConfig,
-    TFTransfoXLLMHeadModel,
-    TRANSFO_XL_PRETRAINED_CONFIG_ARCHIVE_MAP,
-    OpenAIGPTConfig,
-    TFOpenAIGPTLMHeadModel,
-    OPENAI_GPT_PRETRAINED_CONFIG_ARCHIVE_MAP,
-    RobertaConfig,
-    TFRobertaForMaskedLM,
-    TFRobertaForSequenceClassification,
-    ROBERTA_PRETRAINED_CONFIG_ARCHIVE_MAP,
-    DistilBertConfig,
+    TFCTRLLMHeadModel,
    TFDistilBertForMaskedLM,
    TFDistilBertForQuestionAnswering,
    TFDistilBertForSequenceClassification,
-    DISTILBERT_PRETRAINED_CONFIG_ARCHIVE_MAP,
-    CTRLConfig,
-    TFCTRLLMHeadModel,
-    CTRL_PRETRAINED_CONFIG_ARCHIVE_MAP,
-    AlbertConfig,
-    TFAlbertForMaskedLM,
-    ALBERT_PRETRAINED_CONFIG_ARCHIVE_MAP,
-    T5Config,
+    TFGPT2LMHeadModel,
+    TFOpenAIGPTLMHeadModel,
+    TFRobertaForMaskedLM,
+    TFRobertaForSequenceClassification,
    TFT5WithLMHeadModel,
-    T5_PRETRAINED_CONFIG_ARCHIVE_MAP,
+    TFTransfoXLLMHeadModel,
+    TFXLMWithLMHeadModel,
+    TFXLNetLMHeadModel,
+    TransfoXLConfig,
+    XLMConfig,
+    XLNetConfig,
+    cached_path,
+    is_torch_available,
+    load_pytorch_checkpoint_in_tf2_model,
 )

+
 if is_torch_available():
    import torch
    import numpy as np
@ -158,8 +159,6 @@ else:
    )


-import logging
-
 logging.basicConfig(level=logging.INFO)

 MODEL_CLASSES = {
--- a/transformers/convert_roberta_original_pytorch_checkpoint_to_pytorch.py
+++ b/transformers/convert_roberta_original_pytorch_checkpoint_to_pytorch.py
@ -18,16 +18,13 @@ from __future__ import absolute_import, division, print_function

 import argparse
 import logging
-import numpy as np
-import torch
 import pathlib

-import fairseq
+import numpy as np
+import torch
 from packaging import version

-if version.parse(fairseq.__version__) < version.parse("0.9.0"):
-    raise Exception("requires fairseq >= 0.9.0")
-
+import fairseq
 from fairseq.models.roberta import RobertaModel as FairseqRobertaModel
 from fairseq.modules import TransformerSentenceEncoderLayer
 from transformers.modeling_bert import (
@ -47,6 +44,11 @@ from transformers.modeling_roberta import (
    RobertaModel,
 )

+
+if version.parse(fairseq.__version__) < version.parse("0.9.0"):
+    raise Exception("requires fairseq >= 0.9.0")
+
+
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)

--- a/transformers/convert_t5_original_tf_checkpoint_to_pytorch.py
+++ b/transformers/convert_t5_original_tf_checkpoint_to_pytorch.py
@ -14,16 +14,15 @@
 # limitations under the License.
 """Convert T5 checkpoint."""

-from __future__ import absolute_import
-from __future__ import division
-from __future__ import print_function
+from __future__ import absolute_import, division, print_function

 import argparse
+import logging
+
 import torch

 from transformers import T5Config, T5Model, load_tf_weights_in_t5

-import logging

 logging.basicConfig(level=logging.INFO)

--- a/transformers/convert_transfo_xl_original_tf_checkpoint_to_pytorch.py
+++ b/transformers/convert_transfo_xl_original_tf_checkpoint_to_pytorch.py
@ -17,6 +17,7 @@
 from __future__ import absolute_import, division, print_function

 import argparse
+import logging
 import os
 import sys
 from io import open
@ -24,17 +25,21 @@ from io import open
 import torch

 import transformers.tokenization_transfo_xl as data_utils
-
-from transformers import CONFIG_NAME, WEIGHTS_NAME
-from transformers import TransfoXLConfig, TransfoXLLMHeadModel, load_tf_weights_in_transfo_xl
+from transformers import (
+    CONFIG_NAME,
+    WEIGHTS_NAME,
+    TransfoXLConfig,
+    TransfoXLLMHeadModel,
+    load_tf_weights_in_transfo_xl,
+)
 from transformers.tokenization_transfo_xl import CORPUS_NAME, VOCAB_FILES_NAMES

+
 if sys.version_info[0] == 2:
    import cPickle as pickle
 else:
    import pickle

-import logging

 logging.basicConfig(level=logging.INFO)

--- a/transformers/convert_xlm_original_pytorch_checkpoint_to_pytorch.py
+++ b/transformers/convert_xlm_original_pytorch_checkpoint_to_pytorch.py
@ -18,15 +18,15 @@ from __future__ import absolute_import, division, print_function

 import argparse
 import json
+import logging
 from io import open

-import torch
 import numpy
+import torch

 from transformers import CONFIG_NAME, WEIGHTS_NAME
 from transformers.tokenization_xlm import VOCAB_FILES_NAMES

-import logging

 logging.basicConfig(level=logging.INFO)

--- a/transformers/convert_xlnet_original_tf_checkpoint_to_pytorch.py
+++ b/transformers/convert_xlnet_original_tf_checkpoint_to_pytorch.py
@ -14,24 +14,25 @@
 # limitations under the License.
 """Convert BERT checkpoint."""

-from __future__ import absolute_import
-from __future__ import division
-from __future__ import print_function
+from __future__ import absolute_import, division, print_function

-import os
 import argparse
+import logging
+import os
+
 import torch

 from transformers import (
    CONFIG_NAME,
    WEIGHTS_NAME,
    XLNetConfig,
-    XLNetLMHeadModel,
    XLNetForQuestionAnswering,
    XLNetForSequenceClassification,
+    XLNetLMHeadModel,
    load_tf_weights_in_xlnet,
 )

+
 GLUE_TASKS_NUM_LABELS = {
    "cola": 2,
    "mnli": 3,
@ -44,7 +45,6 @@ GLUE_TASKS_NUM_LABELS = {
    "wnli": 2,
 }

-import logging

 logging.basicConfig(level=logging.INFO)

--- a/transformers/data/init.py
+++ b/transformers/data/init.py
@ -1,15 +1,23 @@
+from .metrics import is_sklearn_available
 from .processors import (
+    DataProcessor,
    InputExample,
    InputFeatures,
-    DataProcessor,
-    SquadFeatures,
    SingleSentenceClassificationProcessor,
+    SquadExample,
+    SquadFeatures,
+    SquadV1Processor,
+    SquadV2Processor,
+    glue_convert_examples_to_features,
+    glue_output_modes,
+    glue_processors,
+    glue_tasks_num_labels,
+    squad_convert_examples_to_features,
+    xnli_output_modes,
+    xnli_processors,
+    xnli_tasks_num_labels,
 )
-from .processors import glue_output_modes, glue_processors, glue_tasks_num_labels, glue_convert_examples_to_features
-from .processors import squad_convert_examples_to_features, SquadExample, SquadV1Processor, SquadV2Processor
-from .processors import xnli_output_modes, xnli_processors, xnli_tasks_num_labels

-from .metrics import is_sklearn_available

 if is_sklearn_available():
    from .metrics import glue_compute_metrics, xnli_compute_metrics
--- a/transformers/data/metrics/init.py
+++ b/transformers/data/metrics/init.py
@ -15,8 +15,9 @@
 # limitations under the License.

 import csv
-import sys
 import logging
+import sys
+

 logger = logging.getLogger(__name__)

--- a/transformers/data/metrics/squad_metrics.py
+++ b/transformers/data/metrics/squad_metrics.py
@ -8,17 +8,19 @@ that a question is unanswerable.
 """


+import collections
 import json
 import logging
 import math
-import collections
-from io import open
-from tqdm import tqdm
-import string
 import re
+import string
+from io import open
+
+from tqdm import tqdm

 from transformers.tokenization_bert import BasicTokenizer, whitespace_tokenize

+
 logger = logging.getLogger(__name__)


--- a/transformers/data/processors/init.py
+++ b/transformers/data/processors/init.py
@ -1,4 +1,4 @@
-from .utils import InputExample, InputFeatures, DataProcessor, SingleSentenceClassificationProcessor
-from .glue import glue_output_modes, glue_processors, glue_tasks_num_labels, glue_convert_examples_to_features
-from .squad import squad_convert_examples_to_features, SquadFeatures, SquadExample, SquadV1Processor, SquadV2Processor
+from .glue import glue_convert_examples_to_features, glue_output_modes, glue_processors, glue_tasks_num_labels
+from .squad import SquadExample, SquadFeatures, SquadV1Processor, SquadV2Processor, squad_convert_examples_to_features
+from .utils import DataProcessor, InputExample, InputFeatures, SingleSentenceClassificationProcessor
 from .xnli import xnli_output_modes, xnli_processors, xnli_tasks_num_labels
--- a/transformers/data/processors/glue.py
+++ b/transformers/data/processors/glue.py
@ -18,8 +18,9 @@
 import logging
 import os

-from .utils import DataProcessor, InputExample, InputFeatures
 from ...file_utils import is_tf_available
+from .utils import DataProcessor, InputExample, InputFeatures
+

 if is_tf_available():
    import tensorflow as tf
--- a/transformers/data/processors/squad.py
+++ b/transformers/data/processors/squad.py
@ -1,16 +1,17 @@
-from tqdm import tqdm
 import collections
+import json
 import logging
 import os
-import json
-import numpy as np
-from multiprocessing import Pool
-from multiprocessing import cpu_count
 from functools import partial
+from multiprocessing import Pool, cpu_count

+import numpy as np
+from tqdm import tqdm
+
+from ...file_utils import is_tf_available, is_torch_available
 from ...tokenization_bert import BasicTokenizer, whitespace_tokenize
 from .utils import DataProcessor, InputExample, InputFeatures
-from ...file_utils import is_tf_available, is_torch_available
+

 if is_torch_available():
    import torch
--- a/transformers/data/processors/utils.py
+++ b/transformers/data/processors/utils.py
@ -14,14 +14,15 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.

-import csv
-import sys
 import copy
+import csv
 import json
 import logging
+import sys

 from ...file_utils import is_tf_available, is_torch_available

+
 logger = logging.getLogger(__name__)


--- a/transformers/data/processors/xnli.py
+++ b/transformers/data/processors/xnli.py
@ -22,6 +22,7 @@ import os

 from .utils import DataProcessor, InputExample

+
 logger = logging.getLogger(__name__)


--- a/transformers/file_utils.py
+++ b/transformers/file_utils.py
@ -5,26 +5,27 @@ Copyright by the AllenNLP authors.
 """
 from __future__ import absolute_import, division, print_function, unicode_literals

-import sys
+import fnmatch
 import json
 import logging
 import os
-import six
+import sys
 import tempfile
-import fnmatch
+from contextlib import contextmanager
 from functools import partial, wraps
 from hashlib import sha256
 from io import open

 import boto3
+import requests
+import six
 from botocore.config import Config
 from botocore.exceptions import ClientError
-import requests
+from filelock import FileLock
 from tqdm.auto import tqdm
-from contextlib import contextmanager
+
 from . import __version__

-from filelock import FileLock

 logger = logging.getLogger(__name__)  # pylint: disable=invalid-name

--- a/transformers/hf_api.py
+++ b/transformers/hf_api.py
@ -22,6 +22,7 @@ import six
 from requests.exceptions import HTTPError
 from tqdm import tqdm

+
 ENDPOINT = "https://huggingface.co"


--- a/transformers/modelcard.py
+++ b/transformers/modelcard.py
@ -23,15 +23,14 @@ import os
 from io import open

 from .configuration_auto import ALL_PRETRAINED_CONFIG_ARCHIVE_MAP
-
 from .file_utils import (
    CONFIG_NAME,
    MODEL_CARD_NAME,
-    WEIGHTS_NAME,
    TF2_WEIGHTS_NAME,
+    WEIGHTS_NAME,
    cached_path,
-    is_remote_url,
    hf_bucket_url,
+    is_remote_url,
 )


--- a/transformers/modeling_albert.py
+++ b/transformers/modeling_albert.py
@ -14,17 +14,21 @@
 # limitations under the License.
 """PyTorch ALBERT model. """

-import os
-import math
 import logging
+import math
+import os
+
 import torch
 import torch.nn as nn
 from torch.nn import CrossEntropyLoss, MSELoss
-from transformers.modeling_utils import PreTrainedModel
+
 from transformers.configuration_albert import AlbertConfig
-from transformers.modeling_bert import BertEmbeddings, BertSelfAttention, prune_linear_layer, ACT2FN
+from transformers.modeling_bert import ACT2FN, BertEmbeddings, BertSelfAttention, prune_linear_layer
+from transformers.modeling_utils import PreTrainedModel
+
 from .file_utils import add_start_docstrings

+
 logger = logging.getLogger(__name__)


--- a/transformers/modeling_auto.py
+++ b/transformers/modeling_auto.py
@ -29,80 +29,78 @@ from .configuration_auto import (
    RobertaConfig,
    TransfoXLConfig,
    XLMConfig,
-    XLNetConfig,
    XLMRobertaConfig,
+    XLNetConfig,
+)
+from .file_utils import add_start_docstrings
+from .modeling_albert import (
+    ALBERT_PRETRAINED_MODEL_ARCHIVE_MAP,
+    AlbertForMaskedLM,
+    AlbertForQuestionAnswering,
+    AlbertForSequenceClassification,
+    AlbertModel,
 )
-
 from .modeling_bert import (
-    BertModel,
-    BertForMaskedLM,
-    BertForSequenceClassification,
-    BertForQuestionAnswering,
-    BertForTokenClassification,
    BERT_PRETRAINED_MODEL_ARCHIVE_MAP,
+    BertForMaskedLM,
+    BertForQuestionAnswering,
+    BertForSequenceClassification,
+    BertForTokenClassification,
+    BertModel,
 )
-from .modeling_openai import OpenAIGPTModel, OpenAIGPTLMHeadModel, OPENAI_GPT_PRETRAINED_MODEL_ARCHIVE_MAP
-from .modeling_gpt2 import GPT2Model, GPT2LMHeadModel, GPT2_PRETRAINED_MODEL_ARCHIVE_MAP
-from .modeling_ctrl import CTRLModel, CTRLLMHeadModel, CTRL_PRETRAINED_MODEL_ARCHIVE_MAP
-from .modeling_transfo_xl import TransfoXLModel, TransfoXLLMHeadModel, TRANSFO_XL_PRETRAINED_MODEL_ARCHIVE_MAP
-from .modeling_xlnet import (
-    XLNetModel,
-    XLNetLMHeadModel,
-    XLNetForSequenceClassification,
-    XLNetForQuestionAnswering,
-    XLNetForTokenClassification,
-    XLNET_PRETRAINED_MODEL_ARCHIVE_MAP,
+from .modeling_camembert import (
+    CAMEMBERT_PRETRAINED_MODEL_ARCHIVE_MAP,
+    CamembertForMaskedLM,
+    CamembertForMultipleChoice,
+    CamembertForSequenceClassification,
+    CamembertForTokenClassification,
+    CamembertModel,
 )
-from .modeling_xlm import (
-    XLMModel,
-    XLMWithLMHeadModel,
-    XLMForSequenceClassification,
-    XLMForQuestionAnswering,
-    XLM_PRETRAINED_MODEL_ARCHIVE_MAP,
+from .modeling_ctrl import CTRL_PRETRAINED_MODEL_ARCHIVE_MAP, CTRLLMHeadModel, CTRLModel
+from .modeling_distilbert import (
+    DISTILBERT_PRETRAINED_MODEL_ARCHIVE_MAP,
+    DistilBertForMaskedLM,
+    DistilBertForQuestionAnswering,
+    DistilBertForSequenceClassification,
+    DistilBertForTokenClassification,
+    DistilBertModel,
 )
+from .modeling_gpt2 import GPT2_PRETRAINED_MODEL_ARCHIVE_MAP, GPT2LMHeadModel, GPT2Model
+from .modeling_openai import OPENAI_GPT_PRETRAINED_MODEL_ARCHIVE_MAP, OpenAIGPTLMHeadModel, OpenAIGPTModel
 from .modeling_roberta import (
-    RobertaModel,
+    ROBERTA_PRETRAINED_MODEL_ARCHIVE_MAP,
    RobertaForMaskedLM,
    RobertaForSequenceClassification,
    RobertaForTokenClassification,
-    ROBERTA_PRETRAINED_MODEL_ARCHIVE_MAP,
+    RobertaModel,
 )
-from .modeling_distilbert import (
-    DistilBertModel,
-    DistilBertForQuestionAnswering,
-    DistilBertForMaskedLM,
-    DistilBertForSequenceClassification,
-    DistilBertForTokenClassification,
-    DISTILBERT_PRETRAINED_MODEL_ARCHIVE_MAP,
-)
-from .modeling_camembert import (
-    CamembertModel,
-    CamembertForMaskedLM,
-    CamembertForSequenceClassification,
-    CamembertForMultipleChoice,
-    CamembertForTokenClassification,
-    CAMEMBERT_PRETRAINED_MODEL_ARCHIVE_MAP,
-)
-from .modeling_albert import (
-    AlbertModel,
-    AlbertForMaskedLM,
-    AlbertForSequenceClassification,
-    AlbertForQuestionAnswering,
-    ALBERT_PRETRAINED_MODEL_ARCHIVE_MAP,
-)
-from .modeling_t5 import T5Model, T5WithLMHeadModel, T5_PRETRAINED_MODEL_ARCHIVE_MAP
-from .modeling_xlm_roberta import (
-    XLMRobertaModel,
-    XLMRobertaForMaskedLM,
-    XLMRobertaForSequenceClassification,
-    XLMRobertaForMultipleChoice,
-    XLMRobertaForTokenClassification,
-    XLM_ROBERTA_PRETRAINED_MODEL_ARCHIVE_MAP,
-)
-
+from .modeling_t5 import T5_PRETRAINED_MODEL_ARCHIVE_MAP, T5Model, T5WithLMHeadModel
+from .modeling_transfo_xl import TRANSFO_XL_PRETRAINED_MODEL_ARCHIVE_MAP, TransfoXLLMHeadModel, TransfoXLModel
 from .modeling_utils import PreTrainedModel, SequenceSummary
+from .modeling_xlm import (
+    XLM_PRETRAINED_MODEL_ARCHIVE_MAP,
+    XLMForQuestionAnswering,
+    XLMForSequenceClassification,
+    XLMModel,
+    XLMWithLMHeadModel,
+)
+from .modeling_xlm_roberta import (
+    XLM_ROBERTA_PRETRAINED_MODEL_ARCHIVE_MAP,
+    XLMRobertaForMaskedLM,
+    XLMRobertaForMultipleChoice,
+    XLMRobertaForSequenceClassification,
+    XLMRobertaForTokenClassification,
+    XLMRobertaModel,
+)
+from .modeling_xlnet import (
+    XLNET_PRETRAINED_MODEL_ARCHIVE_MAP,
+    XLNetForQuestionAnswering,
+    XLNetForSequenceClassification,
+    XLNetForTokenClassification,
+    XLNetLMHeadModel,
+    XLNetModel,
+)

-from .file_utils import add_start_docstrings

 logger = logging.getLogger(__name__)

--- a/transformers/modeling_bert.py
+++ b/transformers/modeling_bert.py
@ -26,9 +26,10 @@ import torch
 from torch import nn
 from torch.nn import CrossEntropyLoss, MSELoss

-from .modeling_utils import PreTrainedModel, prune_linear_layer
 from .configuration_bert import BertConfig
 from .file_utils import add_start_docstrings
+from .modeling_utils import PreTrainedModel, prune_linear_layer
+

 logger = logging.getLogger(__name__)

--- a/transformers/modeling_camembert.py
+++ b/transformers/modeling_camembert.py
@ -19,15 +19,16 @@ from __future__ import absolute_import, division, print_function, unicode_litera

 import logging

-from .modeling_roberta import (
-    RobertaModel,
-    RobertaForMaskedLM,
-    RobertaForSequenceClassification,
-    RobertaForMultipleChoice,
-    RobertaForTokenClassification,
-)
 from .configuration_camembert import CamembertConfig
 from .file_utils import add_start_docstrings
+from .modeling_roberta import (
+    RobertaForMaskedLM,
+    RobertaForMultipleChoice,
+    RobertaForSequenceClassification,
+    RobertaForTokenClassification,
+    RobertaModel,
+)
+

 logger = logging.getLogger(__name__)

--- a/transformers/modeling_ctrl.py
+++ b/transformers/modeling_ctrl.py
@ -24,15 +24,17 @@ import math
 import os
 import sys
 from io import open
+
 import numpy as np
 import torch
 import torch.nn as nn
 from torch.nn import CrossEntropyLoss
 from torch.nn.parameter import Parameter

-from .modeling_utils import PreTrainedModel, Conv1D, prune_conv1d_layer, SequenceSummary
 from .configuration_ctrl import CTRLConfig
 from .file_utils import add_start_docstrings
+from .modeling_utils import Conv1D, PreTrainedModel, SequenceSummary, prune_conv1d_layer
+

 logger = logging.getLogger(__name__)

--- a/transformers/modeling_distilbert.py
+++ b/transformers/modeling_distilbert.py
@ -18,25 +18,23 @@
 """
 from __future__ import absolute_import, division, print_function, unicode_literals

+import copy
+import itertools
 import json
 import logging
 import math
-import copy
 import sys
 from io import open

-import itertools
 import numpy as np
-
 import torch
 import torch.nn as nn
 from torch.nn import CrossEntropyLoss

-from .modeling_utils import PreTrainedModel, prune_linear_layer
 from .configuration_distilbert import DistilBertConfig
 from .file_utils import add_start_docstrings
+from .modeling_utils import PreTrainedModel, prune_linear_layer

-import logging

 logger = logging.getLogger(__name__)

--- a/transformers/modeling_encoder_decoder.py
+++ b/transformers/modeling_encoder_decoder.py
@ -26,6 +26,7 @@ from tqdm import trange

 from .modeling_auto import AutoModel, AutoModelWithLMHead

+
 logger = logging.getLogger(__name__)


--- a/Show More
+++ b/Show More