fix variable undefined bug when return_tensors is not specified in llava processing (#34953)

* fix variable undefined bug when return_tensors is not specified in llava processor * improve readability
2025-07-31 02:02:21 +06:00 · 2024-12-02 18:44:42 +08:00 · 2024-12-02 18:44:42 +08:00 · 9ab8c5b503
commit 9ab8c5b503
parent 3480cbb97e
3 changed files with 6 additions and 3 deletions
--- a/src/transformers/models/llava_next/processing_llava_next.py
+++ b/src/transformers/models/llava_next/processing_llava_next.py
@ -165,7 +165,8 @@ class LlavaNextProcessor(ProcessorMixin):
                        image_size = next(image_sizes)
                        if not isinstance(image_size, (list, tuple)):
                            # cast to list to avoid numerical precision errors when calculating unpadding
-                            orig_height, orig_width = image_size.tolist()
+                            image_size = image_size.tolist()
+                        orig_height, orig_width = image_size
                        num_image_tokens = self._get_number_of_features(orig_height, orig_width, height, width)
                        if self.vision_feature_select_strategy == "default":
                            num_image_tokens -= self.num_additional_image_tokens
--- a/src/transformers/models/llava_next_video/processing_llava_next_video.py
+++ b/src/transformers/models/llava_next_video/processing_llava_next_video.py
@ -192,7 +192,8 @@ class LlavaNextVideoProcessor(ProcessorMixin):
                        image_size = next(image_sizes)
                        if not isinstance(image_size, (list, tuple)):
                            # cast to list to avoid numerical precision errors when calculating unpadding
-                            orig_height, orig_width = image_size.tolist()
+                            image_size = image_size.tolist()
+                        orig_height, orig_width = image_size
                        num_image_tokens = self._get_number_of_features(orig_height, orig_width, height, width)
                        if self.vision_feature_select_strategy == "default":
                            num_image_tokens -= self.num_additional_image_tokens
--- a/src/transformers/models/llava_onevision/processing_llava_onevision.py
+++ b/src/transformers/models/llava_onevision/processing_llava_onevision.py
@ -191,7 +191,8 @@ class LlavaOnevisionProcessor(ProcessorMixin):
                original_size = image_size_list[0] if num_frames != 1 else image_size_list
                if not isinstance(original_size, (list, tuple)):
                    # cast to list to avoid numerical precision errors when calculating unpadding
-                    orig_height, orig_width = original_size.tolist()
+                    original_size = original_size.tolist()
+                orig_height, orig_width = original_size
                num_image_tokens = self._get_number_of_features(orig_height, orig_width, height, width)
                if self.vision_feature_select_strategy == "default":
                    num_image_tokens -= 1