Extend Trainer to enable Ascend NPU to use the fused Adamw optimizer when training (#26194)

2025-07-03 12:50:06 +06:00 · 2023-10-04 20:57:11 +08:00 · 2023-10-04 20:57:11 +08:00 · 4fdf47cd3c
commit 4fdf47cd3c
parent fc296f419e
2 changed files with 9 additions and 0 deletions
--- a/src/transformers/trainer.py
+++ b/src/transformers/trainer.py
@ -1068,6 +1068,14 @@ class Trainer:
                optimizer_kwargs.update(adam_kwargs)
            except ImportError:
                raise ValueError("Trainer failed to import syncfree AdamW from torch_xla.")
+        elif args.optim == OptimizerNames.ADAMW_TORCH_NPU_FUSED:
+            try:
+                from torch_npu.optim import NpuFusedAdamW
+
+                optimizer_cls = NpuFusedAdamW
+                optimizer_kwargs.update(adam_kwargs)
+            except ImportError:
+                raise ValueError("Trainer failed to import FusedAdamW from torch_npu.")
        elif args.optim == OptimizerNames.ADAMW_APEX_FUSED:
            try:
                from apex.optimizers import FusedAdam
--- a/src/transformers/training_args.py
+++ b/src/transformers/training_args.py
@ -140,6 +140,7 @@ class OptimizerNames(ExplicitEnum):
    ADAMW_TORCH = "adamw_torch"
    ADAMW_TORCH_FUSED = "adamw_torch_fused"
    ADAMW_TORCH_XLA = "adamw_torch_xla"
+    ADAMW_TORCH_NPU_FUSED = "adamw_torch_npu_fused"
    ADAMW_APEX_FUSED = "adamw_apex_fused"
    ADAFACTOR = "adafactor"
    ADAMW_ANYPRECISION = "adamw_anyprecision"