updating loss computation

2025-08-01 02:31:11 +06:00 · 2019-04-12 12:12:33 +02:00 · 2019-04-12 12:12:33 +02:00 · b509bf7655
commit b509bf7655
parent 1d203a34c0
1 changed files with 5 additions and 7 deletions
--- a/pytorch_pretrained_bert/modeling_openai.py
+++ b/pytorch_pretrained_bert/modeling_openai.py
@ -716,9 +716,8 @@ class OpenAIGPTLMHeadModel(OpenAIGPTPreTrainedModel):
        lm_logits = self.lm_head(hidden_states)
        if lm_labels is not None:
            # Shift so that tokens < n predict n
-            shift_logits = lm_logits[:, :-1].contiguous()
+            shift_logits = lm_logits[..., :-1, :].contiguous()
-            shift_labels = lm_labels[:, 1:].contiguous()
+            shift_labels = lm_labels[..., 1:].contiguous()
            # Flatten the tokens
            loss_fct = CrossEntropyLoss(ignore_index=-1)
            loss = loss_fct(shift_logits.view(-1, shift_logits.size(-1)),
@ -808,11 +807,10 @@ class OpenAIGPTDoubleHeadsModel(OpenAIGPTPreTrainedModel):
        mc_logits = self.multiple_choice_head(hidden_states, mc_token_ids)
        losses = []
        if lm_labels is not None:
-            shift_logits = lm_logits[:, :-1].contiguous()
+            shift_logits = lm_logits[..., :-1, :].contiguous()
-            shift_labels = lm_labels[:, 1:].contiguous()
+            shift_labels = lm_labels[..., 1:].contiguous()
            loss_fct = CrossEntropyLoss(ignore_index=-1)
-            losses.append(loss_fct(shift_logits.view(-1,
+            losses.append(loss_fct(shift_logits.view(-1, shift_logits.size(-1)), shift_labels.view(-1)))
                          shift_logits.size(-1)), shift_labels.view(-1)))
        if mc_labels is not None:
            loss_fct = CrossEntropyLoss()
            losses.append(loss_fct(mc_logits.view(-1, mc_logits.size(-1)), mc_labels.view(-1)))