mirror of https://github.com/huggingface/transformers.git synced 2025-07-05 22:00:09 +06:00

🌐 [i18n-KO] Translated swin.md to Korean (#33510 )

* ko: doc: model_doc/swin.md

* feat: nmt draft

* fix: manual edits

* fix: manual edits

* fix: manual edits

* fix: manual edits

* fix: manual edits

* Update docs/source/ko/model_doc/swin.md

Co-authored-by: Yijun Lee <119404328+yijun-lee@users.noreply.github.com>

* resolve conflicts

* resolve conflicts - 2

---------

Co-authored-by: Yijun Lee <119404328+yijun-lee@users.noreply.github.com>

2024-10-08 17:57:03 -07:00

Swin Transformer swin-transformer

개요 overview

Swin Transformer는 Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo가 제안한 논문 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows에서 소개되었습니다.

논문의 초록은 다음과 같습니다:

이 논문은 Swin Transformer라는 새로운 비전 트랜스포머를 소개합니다. 이 모델은 컴퓨터 비전에서 범용 백본(backbone)으로 사용될 수 있습니다. 트랜스포머를 언어에서 비전으로 적용할 때의 어려움은 두 분야 간의 차이에서 비롯되는데, 예를 들어 시각적 객체의 크기가 크게 변동하며, 이미지의 픽셀 해상도가 텍스트의 단어에 비해 매우 높다는 점이 있습니다. 이러한 차이를 해결하기 위해, 우리는 'Shifted Windows'를 이용해 표현을 계산하는 계층적 트랜스포머를 제안합니다. Shifted Windows 방식은 겹치지 않는 로컬 윈도우에서 self-attention 계산을 제한하여 효율성을 높이는 동시에 윈도우 간 연결을 가능하게 합니다. 이 계층적 구조는 다양한 크기의 패턴을 모델링할 수 있는 유연성을 제공하며, 이미지 크기에 비례한 선형 계산 복잡성을 가지고 있습니다. Swin Transformer의 이러한 특징들은 이미지 분류(Imagenet-1K에서 87.3의 top-1 정확도) 및 객체 검출(COCO test-dev에서 58.7의 박스 AP, 51.1의 마스크 AP)과 같은 밀집 예측 작업, 의미적 분할(ADE20K val에서 53.5의 mIoU)과 같은 광범위한 비전 작업에 적합합니다. 이 모델은 COCO에서 이전 최고 성능을 박스 AP에서 +2.7, 마스크 AP에서 +2.6, ADE20K에서 mIoU에서 +3.2를 초과하는 성과를 보여주며, 트랜스포머 기반 모델이 비전 백본으로서의 잠재력을 입증했습니다. 계층적 설계와 Shifted Windows 방식은 순수 MLP 아키텍처에도 유리하게 작용합니다.

drawing

Swin Transformer 아키텍처. 원본 논문에서 발췌.

이 모델은 novice03이 기여하였습니다. Tensorflow 버전은 amyeroberts가 기여했습니다. 원본 코드는 여기에서 확인할 수 있습니다.

사용 팁 usage-tips

Swin은 입력의 높이와 너비가 32로 나누어질 수 있으면 어떤 크기든 지원할 수 있도록 패딩을 추가합니다.
Swin은 백본으로 사용할 수 있습니다. output_hidden_states = True로 설정하면, hidden_states와 reshaped_hidden_states를 모두 출력합니다. reshaped_hidden_states는 (batch, num_channels, height, width) 형식을 가지며, 이는 (batch_size, sequence_length, num_channels) 형식과 다릅니다.