Scale loss before backward (#35207)

2025-07-31 10:12:23 +06:00 · 2024-12-23 16:16:38 +01:00 · 2024-12-23 16:16:38 +01:00 · 3cd3cd50ac
commit 3cd3cd50ac
parent f5264a86ee
1 changed files with 4 additions and 2 deletions
--- a/src/transformers/trainer.py
+++ b/src/transformers/trainer.py
@ -3698,10 +3698,12 @@ class Trainer:
            with amp.scale_loss(loss, self.optimizer) as scaled_loss:
                scaled_loss.backward()
        else:
-            self.accelerator.backward(loss, **kwargs)
            # Finally we need to normalize the loss for reporting
            if num_items_in_batch is None:
-                return loss.detach() / self.args.gradient_accumulation_steps
+                loss /= self.args.gradient_accumulation_steps
+
+            self.accelerator.backward(loss, **kwargs)
+
            return loss.detach()

    def compute_loss(self, model, inputs, return_outputs=False, num_items_in_batch=None):