fix(qwen3_moe): pass kwargs to self_attn (#38691)

This is needed to avoid `.item()` calls in `_flash_attention_forward`.
2025-07-03 12:50:06 +06:00 · 2025-06-11 10:26:08 -07:00 · 2025-06-11 10:26:08 -07:00 · b84ebb7f3c
commit b84ebb7f3c
parent 9f563ada70
2 changed files with 2 additions and 0 deletions
--- a/src/transformers/models/qwen3_moe/modeling_qwen3_moe.py
+++ b/src/transformers/models/qwen3_moe/modeling_qwen3_moe.py
@ -355,6 +355,7 @@ class Qwen3MoeDecoderLayer(nn.Module):
            use_cache=use_cache,
            cache_position=cache_position,
            position_embeddings=position_embeddings,
            **kwargs,
        )
        hidden_states = residual + hidden_states
--- a/src/transformers/models/qwen3_moe/modular_qwen3_moe.py
+++ b/src/transformers/models/qwen3_moe/modular_qwen3_moe.py
@ -189,6 +189,7 @@ class Qwen3MoeDecoderLayer(Qwen2MoeDecoderLayer, nn.Module):
            use_cache=use_cache,
            cache_position=cache_position,
            position_embeddings=position_embeddings,
            **kwargs,
        )
        hidden_states = residual + hidden_states