FIX / OPT: Fix OPT multi-GPU training for OPTForQuestionAnswering (#31092)

Update modeling_opt.py
2025-07-31 02:02:21 +06:00 · 2024-05-28 17:06:00 +02:00 · 2024-05-28 17:06:00 +02:00 · ab19f907fd
commit ab19f907fd
parent 94d416f018
1 changed files with 2 additions and 2 deletions
--- a/src/transformers/models/opt/modeling_opt.py
+++ b/src/transformers/models/opt/modeling_opt.py
@ -1427,8 +1427,8 @@ class OPTForQuestionAnswering(OPTPreTrainedModel):
                end_positions = end_positions.squeeze(-1)
            # sometimes the start/end positions are outside our model inputs, we ignore these terms
            ignored_index = start_logits.size(1)
-            start_positions = start_positions.clamp(0, ignored_index)
-            end_positions = end_positions.clamp(0, ignored_index)
+            start_positions = start_positions.clamp(0, ignored_index).to(logits.device)
+            end_positions = end_positions.clamp(0, ignored_index).to(logits.device)

            loss_fct = CrossEntropyLoss(ignore_index=ignored_index)
            start_loss = loss_fct(start_logits, start_positions)