[core / modeling] Fix training bug with PEFT + GC (#28031)

fix trainign bug
2025-07-31 02:02:21 +06:00 · 2023-12-14 12:19:45 +01:00 · 2023-12-14 12:19:45 +01:00 · 73de5108e1
commit 73de5108e1
parent 2788f8d8d5
5 changed files with 35 additions and 35 deletions
--- a/src/transformers/models/deprecated/open_llama/modeling_open_llama.py
+++ b/src/transformers/models/deprecated/open_llama/modeling_open_llama.py
@ -578,6 +578,13 @@ class OpenLlamaModel(OpenLlamaPreTrainedModel):
        seq_length_with_past = seq_length
        past_key_values_length = 0

+        if self.gradient_checkpointing and self.training:
+            if use_cache:
+                logger.warning_once(
+                    "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
+                )
+                use_cache = False
+
        if past_key_values is not None:
            past_key_values_length = past_key_values[0][0].shape[2]
            seq_length_with_past = seq_length_with_past + past_key_values_length
@ -608,13 +615,6 @@ class OpenLlamaModel(OpenLlamaPreTrainedModel):

        hidden_states = inputs_embeds

-        if self.gradient_checkpointing and self.training:
-            if use_cache:
-                logger.warning_once(
-                    "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
-                )
-                use_cache = False
-
        # decoder layers
        all_hidden_states = () if output_hidden_states else None
        all_self_attns = () if output_attentions else None
--- a/src/transformers/models/llama/modeling_llama.py
+++ b/src/transformers/models/llama/modeling_llama.py
@ -1000,6 +1000,13 @@ class LlamaModel(LlamaPreTrainedModel):
        else:
            raise ValueError("You have to specify either input_ids or inputs_embeds")

+        if self.gradient_checkpointing and self.training:
+            if use_cache:
+                logger.warning_once(
+                    "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
+                )
+                use_cache = False
+
        past_key_values_length = 0
        if use_cache:
            use_legacy_cache = not isinstance(past_key_values, Cache)
@ -1038,13 +1045,6 @@ class LlamaModel(LlamaPreTrainedModel):
        # embed positions
        hidden_states = inputs_embeds

-        if self.gradient_checkpointing and self.training:
-            if use_cache:
-                logger.warning_once(
-                    "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
-                )
-                use_cache = False
-
        # decoder layers
        all_hidden_states = () if output_hidden_states else None
        all_self_attns = () if output_attentions else None
--- a/src/transformers/models/mistral/modeling_mistral.py
+++ b/src/transformers/models/mistral/modeling_mistral.py
@ -855,6 +855,13 @@ class MistralModel(MistralPreTrainedModel):
        else:
            raise ValueError("You have to specify either decoder_input_ids or decoder_inputs_embeds")

+        if self.gradient_checkpointing and self.training:
+            if use_cache:
+                logger.warning_once(
+                    "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
+                )
+                use_cache = False
+
        past_key_values_length = 0

        if use_cache:
@ -899,13 +906,6 @@ class MistralModel(MistralPreTrainedModel):

        hidden_states = inputs_embeds

-        if self.gradient_checkpointing and self.training:
-            if use_cache:
-                logger.warning_once(
-                    "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
-                )
-                use_cache = False
-
        # decoder layers
        all_hidden_states = () if output_hidden_states else None
        all_self_attns = () if output_attentions else None
--- a/src/transformers/models/persimmon/modeling_persimmon.py
+++ b/src/transformers/models/persimmon/modeling_persimmon.py
@ -608,6 +608,13 @@ class PersimmonModel(PersimmonPreTrainedModel):
        seq_length_with_past = seq_length
        past_key_values_length = 0

+        if self.gradient_checkpointing and self.training:
+            if use_cache:
+                logger.warning_once(
+                    "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
+                )
+                use_cache = False
+
        if use_cache:
            use_legacy_cache = not isinstance(past_key_values, Cache)
            if use_legacy_cache:
@ -635,13 +642,6 @@ class PersimmonModel(PersimmonPreTrainedModel):

        hidden_states = inputs_embeds

-        if self.gradient_checkpointing and self.training:
-            if use_cache:
-                logger.warning_once(
-                    "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
-                )
-                use_cache = False
-
        # decoder layers
        all_hidden_states = () if output_hidden_states else None
        all_self_attns = () if output_attentions else None
--- a/src/transformers/models/phi/modeling_phi.py
+++ b/src/transformers/models/phi/modeling_phi.py
@ -860,6 +860,13 @@ class PhiModel(PhiPreTrainedModel):

        past_key_values_length = 0

+        if self.gradient_checkpointing and self.training:
+            if use_cache:
+                logger.warning_once(
+                    "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
+                )
+                use_cache = False
+
        if use_cache:
            use_legacy_cache = not isinstance(past_key_values, Cache)
            if use_legacy_cache:
@ -890,13 +897,6 @@ class PhiModel(PhiPreTrainedModel):

        hidden_states = inputs_embeds

-        if self.gradient_checkpointing and self.training:
-            if use_cache:
-                logger.warning_once(
-                    "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
-                )
-                use_cache = False
-
        # decoder layers
        all_hidden_states = () if output_hidden_states else None
        all_self_attns = () if output_attentions else None