fix galore layerwise with frozen params (#29743)

2025-08-02 19:21:31 +06:00 · 2024-03-20 18:06:52 +08:00 · 2024-03-20 18:06:52 +08:00 · a1a7454107
commit a1a7454107
parent 8692aa88e2
2 changed files with 4 additions and 2 deletions
--- a/src/transformers/optimization.py
+++ b/src/transformers/optimization.py
@ -385,7 +385,8 @@ def get_scheduler(
                scheduler_dict[param].step()

        for param in optimizer_dict.keys():
-            param.register_post_accumulate_grad_hook(scheduler_hook)
+            if param.requires_grad:
+                param.register_post_accumulate_grad_hook(scheduler_hook)

        return LayerWiseDummyScheduler()

--- a/src/transformers/trainer.py
+++ b/src/transformers/trainer.py
@ -1303,7 +1303,8 @@ class Trainer:
                        optimizer_dict[param].zero_grad()

                for param in model.parameters():
-                    param.register_post_accumulate_grad_hook(optimizer_hook)
+                    if param.requires_grad:
+                        param.register_post_accumulate_grad_hook(optimizer_hook)

                optimizer_cls = LayerWiseDummyOptimizer
                optimizer_kwargs.update({"optimizer_dict": optimizer_dict})