[ViTHybrid] fix last accelerate slow test (#20705)

* fix last slow test * revert deletion * Update src/transformers/models/vit_hybrid/modeling_vit_hybrid.py
2025-08-03 03:31:05 +06:00 · 2022-12-09 16:46:32 +01:00 · 2022-12-09 16:46:32 +01:00 · 74330083b5
commit 74330083b5
parent 7319850902
1 changed files with 2 additions and 2 deletions
--- a/src/transformers/models/vit_hybrid/modeling_vit_hybrid.py
+++ b/src/transformers/models/vit_hybrid/modeling_vit_hybrid.py
@ -358,7 +358,6 @@ class ViTHybridOutput(nn.Module):
        return hidden_states


-# Copied from transformers.models.vit.modeling_vit.ViTLayer with ViT->ViTHybrid
 class ViTHybridLayer(nn.Module):
    """This corresponds to the Block class in the timm implementation."""

@ -387,7 +386,8 @@ class ViTHybridLayer(nn.Module):
        outputs = self_attention_outputs[1:]  # add self attentions if we output attention weights

        # first residual connection
-        hidden_states = attention_output + hidden_states
+        # We assign to correct device for `accelerate`, check: https://github.com/huggingface/transformers/pull/20705/
+        hidden_states = attention_output + hidden_states.to(attention_output.device)

        # in ViTHybrid, layernorm is also applied after self-attention
        layer_output = self.layernorm_after(hidden_states)