Fix naming issue with ImageToText pipeline (#18864)

Co-authored-by: Olivier Dehaene <olivier@huggingface.co>
2025-08-02 19:21:31 +06:00 · 2022-09-02 13:55:30 +02:00 · 2022-09-02 13:55:30 +02:00 · 129d73294e
commit 129d73294e
parent 9b3eb81014
5 changed files with 18 additions and 19 deletions
--- a/docs/source/en/main_classes/pipelines.mdx
+++ b/docs/source/en/main_classes/pipelines.mdx
@ -29,7 +29,7 @@ There are two categories of pipeline abstractions to be aware about:
  - [`FillMaskPipeline`]
  - [`ImageClassificationPipeline`]
  - [`ImageSegmentationPipeline`]
-  - [`Image2TextGenerationPipeline`]
+  - [`ImageToTextPipeline`]
  - [`ObjectDetectionPipeline`]
  - [`QuestionAnsweringPipeline`]
  - [`SummarizationPipeline`]
@ -366,9 +366,9 @@ That should enable you to do all the custom code you want.
    - __call__
    - all

-### Image2TextGenerationPipeline
+### ImageToTextPipeline

-[[autodoc]] Image2TextGenerationPipeline
+[[autodoc]] ImageToTextPipeline
    - __call__
    - all

--- a/src/transformers/init.py
+++ b/src/transformers/init.py
@ -384,9 +384,9 @@ _import_structure = {
        "CsvPipelineDataFormat",
        "FeatureExtractionPipeline",
        "FillMaskPipeline",
-        "Image2TextGenerationPipeline",
        "ImageClassificationPipeline",
        "ImageSegmentationPipeline",
+        "ImageToTextPipeline",
        "JsonPipelineDataFormat",
        "NerPipeline",
        "ObjectDetectionPipeline",
@ -3192,9 +3192,9 @@ if TYPE_CHECKING:
        CsvPipelineDataFormat,
        FeatureExtractionPipeline,
        FillMaskPipeline,
-        Image2TextGenerationPipeline,
        ImageClassificationPipeline,
        ImageSegmentationPipeline,
+        ImageToTextPipeline,
        JsonPipelineDataFormat,
        NerPipeline,
        ObjectDetectionPipeline,
--- a/src/transformers/pipelines/init.py
+++ b/src/transformers/pipelines/init.py
@ -53,9 +53,9 @@ from .base import (
 from .conversational import Conversation, ConversationalPipeline
 from .feature_extraction import FeatureExtractionPipeline
 from .fill_mask import FillMaskPipeline
-from .image2text_generation import Image2TextGenerationPipeline
 from .image_classification import ImageClassificationPipeline
 from .image_segmentation import ImageSegmentationPipeline
+from .image_to_text import ImageToTextPipeline
 from .object_detection import ObjectDetectionPipeline
 from .question_answering import QuestionAnsweringArgumentHandler, QuestionAnsweringPipeline
 from .table_question_answering import TableQuestionAnsweringArgumentHandler, TableQuestionAnsweringPipeline
@ -305,8 +305,8 @@ SUPPORTED_TASKS = {
        "default": {"model": {"pt": ("facebook/detr-resnet-50-panoptic", "fc15262")}},
        "type": "image",
    },
-    "image2text-generation": {
-        "impl": Image2TextGenerationPipeline,
+    "image-to-text": {
+        "impl": ImageToTextPipeline,
        "tf": (TFAutoModelForVision2Seq,) if is_tf_available() else (),
        "pt": (AutoModelForVision2Seq,) if is_torch_available() else (),
        "default": {
--- a/src/transformers/pipelines/image2text_generation.py
+++ b/src/transformers/pipelines/image2text_generation.py
@ -26,13 +26,12 @@ logger = logging.get_logger(__name__)


@add_end_docstrings(PIPELINE_INIT_ARGS)
-class Image2TextGenerationPipeline(Pipeline):
+class ImageToTextPipeline(Pipeline):
    """
-    Image2Text Generation pipeline using a `AutoModelForVision2Seq`. This pipeline predicts a caption for a given
-    image.
+    Image To Text pipeline using a `AutoModelForVision2Seq`. This pipeline predicts a caption for a given image.

-    This image to text generation pipeline can currently be loaded from pipeline() using the following task identifier:
-    "image2text-generation".
+    This image to text pipeline can currently be loaded from pipeline() using the following task identifier:
+    "image-to-text".

    See the list of available models on
    [huggingface.co/models](https://huggingface.co/models?pipeline_tag=image-to-text).
--- a/tests/pipelines/test_pipelines_image2text_generation.py
+++ b/tests/pipelines/test_pipelines_image2text_generation.py
@ -33,12 +33,12 @@ else:

@is_pipeline_test
@require_vision
-class Image2TextGenerationPipelineTests(unittest.TestCase, metaclass=PipelineTestCaseMeta):
+class ImageToTextPipelineTests(unittest.TestCase, metaclass=PipelineTestCaseMeta):
    model_mapping = MODEL_FOR_VISION_2_SEQ_MAPPING
    tf_model_mapping = TF_MODEL_FOR_VISION_2_SEQ_MAPPING

    def get_test_pipeline(self, model, tokenizer, feature_extractor):
-        pipe = pipeline("image2text-generation", model=model, tokenizer=tokenizer, feature_extractor=feature_extractor)
+        pipe = pipeline("image-to-text", model=model, tokenizer=tokenizer, feature_extractor=feature_extractor)
        examples = [
            Image.open("./tests/fixtures/tests_samples/COCO/000000039769.png"),
            "./tests/fixtures/tests_samples/COCO/000000039769.png",
@ -57,7 +57,7 @@ class Image2TextGenerationPipelineTests(unittest.TestCase, metaclass=PipelineTes

    @require_tf
    def test_small_model_tf(self):
-        pipe = pipeline("image2text-generation", model="hf-internal-testing/tiny-random-vit-gpt2")
+        pipe = pipeline("image-to-text", model="hf-internal-testing/tiny-random-vit-gpt2")
        image = "./tests/fixtures/tests_samples/COCO/000000039769.png"

        outputs = pipe(image)
@ -104,7 +104,7 @@ class Image2TextGenerationPipelineTests(unittest.TestCase, metaclass=PipelineTes

    @require_torch
    def test_small_model_pt(self):
-        pipe = pipeline("image2text-generation", model="hf-internal-testing/tiny-random-vit-gpt2")
+        pipe = pipeline("image-to-text", model="hf-internal-testing/tiny-random-vit-gpt2")
        image = "./tests/fixtures/tests_samples/COCO/000000039769.png"

        outputs = pipe(image)
@ -137,7 +137,7 @@ class Image2TextGenerationPipelineTests(unittest.TestCase, metaclass=PipelineTes
    @slow
    @require_torch
    def test_large_model_pt(self):
-        pipe = pipeline("image2text-generation", model="ydshieh/vit-gpt2-coco-en")
+        pipe = pipeline("image-to-text", model="ydshieh/vit-gpt2-coco-en")
        image = "./tests/fixtures/tests_samples/COCO/000000039769.png"

        outputs = pipe(image)
@ -155,7 +155,7 @@ class Image2TextGenerationPipelineTests(unittest.TestCase, metaclass=PipelineTes
    @slow
    @require_tf
    def test_large_model_tf(self):
-        pipe = pipeline("image2text-generation", model="ydshieh/vit-gpt2-coco-en")
+        pipe = pipeline("image-to-text", model="ydshieh/vit-gpt2-coco-en")
        image = "./tests/fixtures/tests_samples/COCO/000000039769.png"

        outputs = pipe(image)