PegasusX add _no_split_modules (#25933)

* no_split_modules * no_split_modules * inputs_embeds+pos same device * update _no_split_modules * update _no_split_modules
2025-08-02 03:01:07 +06:00 · 2023-09-05 16:34:34 +01:00 · 2023-09-05 16:34:34 +01:00 · da1af21dbb
commit da1af21dbb
parent 70a98024b1
1 changed files with 3 additions and 0 deletions
--- a/src/transformers/models/pegasus_x/modeling_pegasus_x.py
+++ b/src/transformers/models/pegasus_x/modeling_pegasus_x.py
@ -769,6 +769,7 @@ class PegasusXPreTrainedModel(PreTrainedModel):
    config_class = PegasusXConfig
    base_model_prefix = "model"
    supports_gradient_checkpointing = True
    _no_split_modules = [r"PegasusXEncoderLayer", r"PegasusXDecoderLayer"]
    def _init_weights(self, module):
        std = self.config.init_std
@ -1299,6 +1300,8 @@ class PegasusXDecoder(PegasusXPreTrainedModel):
        # embed positions
        positions = self.embed_positions(inputs_embeds, past_key_values_length)
        positions = positions.to(inputs_embeds.device)
        hidden_states = inputs_embeds + positions
        hidden_states = nn.functional.dropout(hidden_states, p=self.dropout, training=self.training)