Fix for non-contiguous label tensors in VisonEncoderDecoder (#21582)

* add prints * add shape * add reshape * clean up
2025-07-31 10:12:23 +06:00 · 2023-02-20 08:23:46 +00:00 · 2023-02-20 08:23:46 +00:00 · 011cc17a81
commit 011cc17a81
parent 2840272c5f
1 changed files with 1 additions and 1 deletions
--- a/src/transformers/models/vision_encoder_decoder/modeling_vision_encoder_decoder.py
+++ b/src/transformers/models/vision_encoder_decoder/modeling_vision_encoder_decoder.py
@ -625,7 +625,7 @@ class VisionEncoderDecoderModel(PreTrainedModel):
        if labels is not None:
            logits = decoder_outputs.logits if return_dict else decoder_outputs[0]
            loss_fct = CrossEntropyLoss()
-            loss = loss_fct(logits.reshape(-1, self.decoder.config.vocab_size), labels.view(-1))
+            loss = loss_fct(logits.reshape(-1, self.decoder.config.vocab_size), labels.reshape(-1))

        if not return_dict:
            if loss is not None: