Move torch.nn.utils.clip_grad_norm_

2025-07-31 02:02:21 +06:00 · 2020-01-08 15:47:53 -05:00 · 2020-01-08 15:47:53 -05:00 · af1ee9e648
commit af1ee9e648
parent 164c794eb3
1 changed files with 5 additions and 2 deletions
--- a/examples/distillation/run_squad_w_distillation.py
+++ b/examples/distillation/run_squad_w_distillation.py
@ -204,13 +204,16 @@ def train(args, train_dataset, model, tokenizer, teacher=None):
            if args.fp16:
                with amp.scale_loss(loss, optimizer) as scaled_loss:
                    scaled_loss.backward()
-                torch.nn.utils.clip_grad_norm_(amp.master_params(optimizer), args.max_grad_norm)
            else:
                loss.backward()
-                torch.nn.utils.clip_grad_norm_(model.parameters(), args.max_grad_norm)

            tr_loss += loss.item()
            if (step + 1) % args.gradient_accumulation_steps == 0:
+                if args.fp16:
+                    torch.nn.utils.clip_grad_norm_(amp.master_params(optimizer), args.max_grad_norm)
+                else:
+                    torch.nn.utils.clip_grad_norm_(model.parameters(), args.max_grad_norm)
+
                optimizer.step()
                scheduler.step()  # Update learning rate schedule
                model.zero_grad()