Fix num_hidden_layers in initialization of new model in Mamba (#30403)

Fix num_hidden_layers in initialization Originally, the initialization was using config.num_layers instead of config.num_hidden_layers. This fixes that.
2025-07-31 02:02:21 +06:00 · 2024-05-20 11:18:09 +02:00 · 2024-05-20 11:18:09 +02:00 · 1834916481
commit 1834916481
parent 1c2bb3ac54
1 changed files with 1 additions and 1 deletions
--- a/src/transformers/models/mamba/modeling_mamba.py
+++ b/src/transformers/models/mamba/modeling_mamba.py
@ -399,7 +399,7 @@ class MambaPreTrainedModel(PreTrainedModel):
                    # Having just p *= scale would repeatedly scale it down
                    nn.init.kaiming_uniform_(p, a=math.sqrt(5))
                    with torch.no_grad():
-                        p /= math.sqrt(self.config.num_layers)
+                        p /= math.sqrt(self.config.num_hidden_layers)


@dataclass