CI: more models wo cache support (#30780)

2025-08-01 02:31:11 +06:00 · 2024-05-14 10:43:03 +01:00 · 2024-05-14 10:43:03 +01:00 · d8f8a9cd61
commit d8f8a9cd61
parent 5ad960f1f4
7 changed files with 0 additions and 7 deletions
--- a/src/transformers/models/mistral/modeling_mistral.py
+++ b/src/transformers/models/mistral/modeling_mistral.py
@ -810,7 +810,6 @@ class MistralPreTrainedModel(PreTrainedModel):
    _skip_keys_device_placement = "past_key_values"
    _supports_flash_attn_2 = True
    _supports_sdpa = True
    _supports_cache_class = True
    def _init_weights(self, module):
        std = self.config.initializer_range
--- a/src/transformers/models/mixtral/modeling_mixtral.py
+++ b/src/transformers/models/mixtral/modeling_mixtral.py
@ -989,7 +989,6 @@ class MixtralPreTrainedModel(PreTrainedModel):
    _skip_keys_device_placement = "past_key_values"
    _supports_flash_attn_2 = True
    _supports_sdpa = True
    _supports_cache_class = True
    def _init_weights(self, module):
        std = self.config.initializer_range
--- a/src/transformers/models/persimmon/modeling_persimmon.py
+++ b/src/transformers/models/persimmon/modeling_persimmon.py
@ -457,7 +457,6 @@ class PersimmonPreTrainedModel(PreTrainedModel):
    supports_gradient_checkpointing = True
    _no_split_modules = ["PersimmonDecoderLayer"]
    _skip_keys_device_placement = "past_key_values"
    _supports_cache_class = True
    def _init_weights(self, module):
        std = self.config.initializer_range
--- a/src/transformers/models/phi/modeling_phi.py
+++ b/src/transformers/models/phi/modeling_phi.py
@ -825,7 +825,6 @@ class PhiPreTrainedModel(PreTrainedModel):
    _skip_keys_device_placement = "past_key_values"
    _supports_flash_attn_2 = True
    _supports_sdpa = True
    _supports_cache_class = True
    def _init_weights(self, module):
        std = self.config.initializer_range
--- a/src/transformers/models/phi3/modeling_phi3.py
+++ b/src/transformers/models/phi3/modeling_phi3.py
@ -921,7 +921,6 @@ class Phi3PreTrainedModel(PreTrainedModel):
    _skip_keys_device_placement = "past_key_values"
    _supports_flash_attn_2 = True
    _supports_sdpa = False
    _supports_cache_class = True
    _version = "0.0.5"
--- a/src/transformers/models/qwen2_moe/modeling_qwen2_moe.py
+++ b/src/transformers/models/qwen2_moe/modeling_qwen2_moe.py
@ -975,7 +975,6 @@ class Qwen2MoePreTrainedModel(PreTrainedModel):
    _skip_keys_device_placement = "past_key_values"
    _supports_flash_attn_2 = True
    _supports_sdpa = True
    _supports_cache_class = True
    def _init_weights(self, module):
        std = self.config.initializer_range
--- a/src/transformers/models/starcoder2/modeling_starcoder2.py
+++ b/src/transformers/models/starcoder2/modeling_starcoder2.py
@ -799,7 +799,6 @@ class Starcoder2PreTrainedModel(PreTrainedModel):
    _skip_keys_device_placement = "past_key_values"
    _supports_flash_attn_2 = True
    _supports_sdpa = True
    _supports_cache_class = True
    def _init_weights(self, module):
        std = self.config.initializer_range