introduce logger.warning_once and use it for grad checkpointing code (#21804)

* logger.warning_once * style
2025-07-31 02:02:21 +06:00 · 2023-02-27 13:25:06 -08:00 · 2023-02-27 13:25:06 -08:00 · c7f3abc257
commit c7f3abc257
parent f95f60c829
58 changed files with 74 additions and 57 deletions
--- a/src/transformers/models/altclip/modeling_altclip.py
+++ b/src/transformers/models/altclip/modeling_altclip.py
@ -638,7 +638,7 @@ class AltRobertaEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/bart/modeling_bart.py
+++ b/src/transformers/models/bart/modeling_bart.py
@ -1085,7 +1085,7 @@ class BartDecoder(BartPretrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/bert/modeling_bert.py
+++ b/src/transformers/models/bert/modeling_bert.py
@ -585,7 +585,7 @@ class BertEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/bert_generation/modeling_bert_generation.py
+++ b/src/transformers/models/bert_generation/modeling_bert_generation.py
@ -395,7 +395,7 @@ class BertEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/big_bird/modeling_big_bird.py
+++ b/src/transformers/models/big_bird/modeling_big_bird.py
@ -1606,7 +1606,7 @@ class BigBirdEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/bigbird_pegasus/modeling_bigbird_pegasus.py
+++ b/src/transformers/models/bigbird_pegasus/modeling_bigbird_pegasus.py
@ -2265,7 +2265,7 @@ class BigBirdPegasusDecoder(BigBirdPegasusPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/biogpt/modeling_biogpt.py
+++ b/src/transformers/models/biogpt/modeling_biogpt.py
@ -557,7 +557,7 @@ class BioGptModel(BioGptPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/blenderbot/modeling_blenderbot.py
+++ b/src/transformers/models/blenderbot/modeling_blenderbot.py
@ -1016,7 +1016,7 @@ class BlenderbotDecoder(BlenderbotPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/blenderbot_small/modeling_blenderbot_small.py
+++ b/src/transformers/models/blenderbot_small/modeling_blenderbot_small.py
@ -1012,7 +1012,7 @@ class BlenderbotSmallDecoder(BlenderbotSmallPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/bloom/modeling_bloom.py
+++ b/src/transformers/models/bloom/modeling_bloom.py
@ -757,7 +757,7 @@ class BloomModel(BloomPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/bridgetower/modeling_bridgetower.py
+++ b/src/transformers/models/bridgetower/modeling_bridgetower.py
@ -769,7 +769,7 @@ class BridgeTowerTextEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/camembert/modeling_camembert.py
+++ b/src/transformers/models/camembert/modeling_camembert.py
@ -516,7 +516,7 @@ class CamembertEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/chinese_clip/modeling_chinese_clip.py
+++ b/src/transformers/models/chinese_clip/modeling_chinese_clip.py
@ -901,7 +901,7 @@ class ChineseCLIPTextEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/clap/modeling_clap.py
+++ b/src/transformers/models/clap/modeling_clap.py
@ -1588,7 +1588,7 @@ class ClapTextEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/codegen/modeling_codegen.py
+++ b/src/transformers/models/codegen/modeling_codegen.py
@ -548,7 +548,7 @@ class CodeGenModel(CodeGenPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with `config.gradient_checkpointing=True`. Setting "
                        "`use_cache=False`..."
                    )
--- a/src/transformers/models/data2vec/modeling_data2vec_text.py
+++ b/src/transformers/models/data2vec/modeling_data2vec_text.py
@ -502,7 +502,7 @@ class Data2VecTextEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/decision_transformer/modeling_decision_transformer.py
+++ b/src/transformers/models/decision_transformer/modeling_decision_transformer.py
@ -609,7 +609,7 @@ class DecisionTransformerGPT2Model(DecisionTransformerGPT2PreTrainedModel):

        if self.gradient_checkpointing and self.training:
            if use_cache:
-                logger.warning(
+                logger.warning_once(
                    "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                )
                use_cache = False
--- a/src/transformers/models/electra/modeling_electra.py
+++ b/src/transformers/models/electra/modeling_electra.py
@ -563,7 +563,7 @@ class ElectraEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/ernie/modeling_ernie.py
+++ b/src/transformers/models/ernie/modeling_ernie.py
@ -498,7 +498,7 @@ class ErnieEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/esm/modeling_esm.py
+++ b/src/transformers/models/esm/modeling_esm.py
@ -597,7 +597,7 @@ class EsmEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with `config.gradient_checkpointing=True`. Setting "
                        "`use_cache=False`..."
                    )
--- a/src/transformers/models/git/modeling_git.py
+++ b/src/transformers/models/git/modeling_git.py
@ -444,7 +444,7 @@ class GitEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/gpt2/modeling_gpt2.py
+++ b/src/transformers/models/gpt2/modeling_gpt2.py
@ -853,7 +853,7 @@ class GPT2Model(GPT2PreTrainedModel):

        if self.gradient_checkpointing and self.training:
            if use_cache:
-                logger.warning(
+                logger.warning_once(
                    "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                )
                use_cache = False
--- a/src/transformers/models/gpt_neo/modeling_gpt_neo.py
+++ b/src/transformers/models/gpt_neo/modeling_gpt_neo.py
@ -589,7 +589,7 @@ class GPTNeoModel(GPTNeoPreTrainedModel):

        if self.gradient_checkpointing and self.training:
            if use_cache:
-                logger.warning(
+                logger.warning_once(
                    "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                )
                use_cache = False
--- a/src/transformers/models/gptj/modeling_gptj.py
+++ b/src/transformers/models/gptj/modeling_gptj.py
@ -653,7 +653,7 @@ class GPTJModel(GPTJPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/imagegpt/modeling_imagegpt.py
+++ b/src/transformers/models/imagegpt/modeling_imagegpt.py
@ -812,7 +812,7 @@ class ImageGPTModel(ImageGPTPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/layoutlm/modeling_layoutlm.py
+++ b/src/transformers/models/layoutlm/modeling_layoutlm.py
@ -479,7 +479,7 @@ class LayoutLMEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/led/modeling_led.py
+++ b/src/transformers/models/led/modeling_led.py
@ -2136,7 +2136,7 @@ class LEDDecoder(LEDPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/m2m_100/modeling_m2m_100.py
+++ b/src/transformers/models/m2m_100/modeling_m2m_100.py
@ -1055,7 +1055,7 @@ class M2M100Decoder(M2M100PreTrainedModel):

                if self.gradient_checkpointing and self.training:
                    if use_cache:
-                        logger.warning(
+                        logger.warning_once(
                            "`use_cache=True` is incompatible with gradient checkpointing. Setting"
                            " `use_cache=False`..."
                        )
--- a/src/transformers/models/marian/modeling_marian.py
+++ b/src/transformers/models/marian/modeling_marian.py
@ -1020,7 +1020,7 @@ class MarianDecoder(MarianPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/markuplm/modeling_markuplm.py
+++ b/src/transformers/models/markuplm/modeling_markuplm.py
@ -641,7 +641,7 @@ class MarkupLMEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/mbart/modeling_mbart.py
+++ b/src/transformers/models/mbart/modeling_mbart.py
@ -1069,7 +1069,7 @@ class MBartDecoder(MBartPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing`. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/megatron_bert/modeling_megatron_bert.py
+++ b/src/transformers/models/megatron_bert/modeling_megatron_bert.py
@ -544,7 +544,7 @@ class MegatronBertEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/mt5/modeling_mt5.py
+++ b/src/transformers/models/mt5/modeling_mt5.py
@ -1008,7 +1008,7 @@ class MT5Stack(MT5PreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/mvp/modeling_mvp.py
+++ b/src/transformers/models/mvp/modeling_mvp.py
@ -1212,7 +1212,7 @@ class MvpDecoder(MvpPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/nezha/modeling_nezha.py
+++ b/src/transformers/models/nezha/modeling_nezha.py
@ -571,7 +571,7 @@ class NezhaEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/opt/modeling_opt.py
+++ b/src/transformers/models/opt/modeling_opt.py
@ -671,7 +671,7 @@ class OPTDecoder(OPTPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/pegasus/modeling_pegasus.py
+++ b/src/transformers/models/pegasus/modeling_pegasus.py
@ -1070,7 +1070,7 @@ class PegasusDecoder(PegasusPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/pegasus_x/modeling_pegasus_x.py
+++ b/src/transformers/models/pegasus_x/modeling_pegasus_x.py
@ -1311,7 +1311,7 @@ class PegasusXDecoder(PegasusXPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/plbart/modeling_plbart.py
+++ b/src/transformers/models/plbart/modeling_plbart.py
@ -1048,7 +1048,7 @@ class PLBartDecoder(PLBartPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/prophetnet/modeling_prophetnet.py
+++ b/src/transformers/models/prophetnet/modeling_prophetnet.py
@ -1572,7 +1572,7 @@ class ProphetNetDecoder(ProphetNetPreTrainedModel):

        if self.gradient_checkpointing and self.training:
            if use_cache:
-                logger.warning(
+                logger.warning_once(
                    "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                )
                use_cache = False
--- a/src/transformers/models/qdqbert/modeling_qdqbert.py
+++ b/src/transformers/models/qdqbert/modeling_qdqbert.py
@ -575,7 +575,7 @@ class QDQBertEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/realm/modeling_realm.py
+++ b/src/transformers/models/realm/modeling_realm.py
@ -578,7 +578,7 @@ class RealmEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/rembert/modeling_rembert.py
+++ b/src/transformers/models/rembert/modeling_rembert.py
@ -536,7 +536,7 @@ class RemBertEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/roberta/modeling_roberta.py
+++ b/src/transformers/models/roberta/modeling_roberta.py
@ -502,7 +502,7 @@ class RobertaEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/roberta_prelayernorm/modeling_roberta_prelayernorm.py
+++ b/src/transformers/models/roberta_prelayernorm/modeling_roberta_prelayernorm.py
@ -504,7 +504,7 @@ class RobertaPreLayerNormEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/roc_bert/modeling_roc_bert.py
+++ b/src/transformers/models/roc_bert/modeling_roc_bert.py
@ -636,7 +636,7 @@ class RoCBertEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/roformer/modeling_roformer.py
+++ b/src/transformers/models/roformer/modeling_roformer.py
@ -573,7 +573,7 @@ class RoFormerEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/speecht5/modeling_speecht5.py
+++ b/src/transformers/models/speecht5/modeling_speecht5.py
@ -1692,7 +1692,7 @@ class SpeechT5Decoder(SpeechT5PreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/splinter/modeling_splinter.py
+++ b/src/transformers/models/splinter/modeling_splinter.py
@ -451,7 +451,7 @@ class SplinterEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/switch_transformers/modeling_switch_transformers.py
+++ b/src/transformers/models/switch_transformers/modeling_switch_transformers.py
@ -1057,7 +1057,7 @@ class SwitchTransformersStack(SwitchTransformersPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/t5/modeling_t5.py
+++ b/src/transformers/models/t5/modeling_t5.py
@ -1037,7 +1037,7 @@ class T5Stack(T5PreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/time_series_transformer/modeling_time_series_transformer.py
+++ b/src/transformers/models/time_series_transformer/modeling_time_series_transformer.py
@ -1471,7 +1471,7 @@ class TimeSeriesTransformerDecoder(TimeSeriesTransformerPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/trajectory_transformer/modeling_trajectory_transformer.py
+++ b/src/transformers/models/trajectory_transformer/modeling_trajectory_transformer.py
@ -543,7 +543,7 @@ class TrajectoryTransformerModel(TrajectoryTransformerPreTrainedModel):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/xlm_prophetnet/modeling_xlm_prophetnet.py
+++ b/src/transformers/models/xlm_prophetnet/modeling_xlm_prophetnet.py
@ -1595,7 +1595,7 @@ class XLMProphetNetDecoder(XLMProphetNetPreTrainedModel):

        if self.gradient_checkpointing and self.training:
            if use_cache:
-                logger.warning(
+                logger.warning_once(
                    "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                )
                use_cache = False
--- a/src/transformers/models/xlm_roberta/modeling_xlm_roberta.py
+++ b/src/transformers/models/xlm_roberta/modeling_xlm_roberta.py
@ -503,7 +503,7 @@ class XLMRobertaEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/xlm_roberta_xl/modeling_xlm_roberta_xl.py
+++ b/src/transformers/models/xlm_roberta_xl/modeling_xlm_roberta_xl.py
@ -492,7 +492,7 @@ class XLMRobertaXLEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/models/xmod/modeling_xmod.py
+++ b/src/transformers/models/xmod/modeling_xmod.py
@ -566,7 +566,7 @@ class XmodEncoder(nn.Module):

            if self.gradient_checkpointing and self.training:
                if use_cache:
-                    logger.warning(
+                    logger.warning_once(
                        "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
                    )
                    use_cache = False
--- a/src/transformers/utils/logging.py
+++ b/src/transformers/utils/logging.py
@ -14,6 +14,8 @@
 # limitations under the License.
 """ Logging utilities."""

+
+import functools
 import logging
 import os
 import sys
@ -281,6 +283,21 @@ def warning_advice(self, *args, **kwargs):
 logging.Logger.warning_advice = warning_advice


+@functools.lru_cache(None)
+def warning_once(self, *args, **kwargs):
+    """
+    This method is identical to `logger.warning()`, but will emit the warning with the same message only once
+
+    Note: The cache is for the function arguments, so 2 different callers using the same arguments will hit the cache.
+    The assumption here is that all warning messages are unique across the code. If they aren't then need to switch to
+    another type of cache that includes the caller frame information in the hashing function.
+    """
+    self.warning(*args, **kwargs)
+
+
+logging.Logger.warning_once = warning_once
+
+
 class EmptyTqdm:
    """Dummy tqdm which doesn't do anything."""