transformers/docs/source/ko/model_doc/blip.md
Chulhwa (Evan) Han 109b1e7591
🌐 [i18n-KO] Translated blip.md to Korean (#33515)
* docs: ko:  model_doc/blip

* feat: nmt darft

* Apply suggestions from code review

Co-authored-by: Jiwook Han <33192762+mreraser@users.noreply.github.com>

* Update docs/source/ko/model_doc/blip.md

Co-authored-by: Woojun Jung <46880056+jungnerd@users.noreply.github.com>

---------

Co-authored-by: Jiwook Han <33192762+mreraser@users.noreply.github.com>
Co-authored-by: Woojun Jung <46880056+jungnerd@users.noreply.github.com>
2024-10-08 17:59:31 -07:00

5.2 KiB

BLIPblip

개요overview

BLIP 모델은 Junnan Li, Dongxu Li, Caiming Xiong, Steven Hoi의 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation 논문에서 제안되었습니다.

BLIP은 여러 멀티모달 작업을 수행할 수 있는 모델입니다:

  • 시각 질문 응답 (Visual Question Answering, VQA)
  • 이미지-텍스트 검색 (이미지-텍스트 매칭)
  • 이미지 캡셔닝

논문의 초록은 다음과 같습니다:

비전-언어 사전 학습(Vision-Language Pre-training, VLP)은 다양한 비전-언어 작업의 성능을 크게 향상시켰습니다. 하지만, 대부분의 기존 사전 학습 모델들은 이해 기반 작업이나 생성 기반 작업 중 하나에서만 뛰어난 성능을 발휘합니다. 또한 성능 향상은 주로 웹에서 수집한 노이즈가 많은 이미지-텍스트 쌍으로 데이터셋의 규모를 키우는 방식으로 이루어졌는데, 이는 최적의 지도 학습 방식이라고 보기 어렵습니다. 본 논문에서는 BLIP이라는 새로운 VLP 프레임워크를 제안합니다. 이 프레임워크는 비전-언어 이해 및 생성 작업 모두에 유연하게 적용될 수 있습니다. BLIP는 캡셔너가 합성 캡션을 생성하고 필터가 노이즈 캡션을 제거하는 부트스트래핑 방법을 통해 웹 데이터의 노이즈를 효과적으로 활용합니다. 우리는 이미지-텍스트 검색(Recall@1에서 +2.7%), 이미지 캡셔닝(CIDEr에서 +2.8%), 그리고 VQA(VQA 점수에서 +1.6%)와 같은 다양한 비전-언어 작업에서 최신 성과를 달성했습니다. 또한 BLIP은 제로샷 방식으로 비디오-언어 작업에 직접 전이될 때도 강력한 일반화 능력을 보여줍니다. 이 논문의 코드, 모델, 데이터셋은 공개되었습니다.

BLIP.gif

이 모델은 ybelkada가 기여했습니다. 원본 코드는 여기에서 찾을 수 있습니다.

자료resources

  • Jupyter notebook: 사용자 정의 데이터셋에서 BLIP를 이미지 캡셔닝으로 미세 조정하는 방법

BlipConfigtransformers.BlipConfig

autodoc BlipConfig - from_text_vision_configs

BlipTextConfigtransformers.BlipTextConfig

autodoc BlipTextConfig

BlipVisionConfigtransformers.BlipVisionConfig

autodoc BlipVisionConfig

BlipProcessortransformers.BlipProcessor

autodoc BlipProcessor

BlipImageProcessortransformers.BlipImageProcessor

autodoc BlipImageProcessor - preprocess

BlipModeltransformers.BlipModel

BlipModel은 향후 버전에서 더 이상 지원되지 않을 예정입니다. 목적에 따라 BlipForConditionalGeneration, BlipForImageTextRetrieval 또는 BlipForQuestionAnswering을 사용하십시오.

autodoc BlipModel - forward - get_text_features - get_image_features

BlipTextModeltransformers.BlipTextModel

autodoc BlipTextModel - forward

BlipVisionModeltransformers.BlipVisionModel

autodoc BlipVisionModel - forward

BlipForConditionalGenerationtransformers.BlipForConditionalGeneration

autodoc BlipForConditionalGeneration - forward

BlipForImageTextRetrievaltransformers.BlipForImageTextRetrieval

autodoc BlipForImageTextRetrieval - forward

BlipForQuestionAnsweringtransformers.BlipForQuestionAnswering

autodoc BlipForQuestionAnswering - forward

TFBlipModeltransformers.TFBlipModel

autodoc TFBlipModel - call - get_text_features - get_image_features

TFBlipTextModeltransformers.TFBlipTextModel

autodoc TFBlipTextModel - call

TFBlipVisionModeltransformers.TFBlipVisionModel

autodoc TFBlipVisionModel - call

TFBlipForConditionalGenerationtransformers.TFBlipForConditionalGeneration

autodoc TFBlipForConditionalGeneration - call

TFBlipForImageTextRetrievaltransformers.TFBlipForImageTextRetrieval

autodoc TFBlipForImageTextRetrieval - call

TFBlipForQuestionAnsweringtransformers.TFBlipForQuestionAnswering

autodoc TFBlipForQuestionAnswering - call