모델/아키텍처고급
Vision Transformer
비전 트랜스포머 · Vision Transformer / ViT
이미지를 패치로 나누어 Transformer 아키텍처로 처리하는 컴퓨터 비전 모델
상세 설명
Vision Transformer (ViT)
NLP의 Transformer를 이미지에 적용한 모델입니다.
작동 원리
- 이미지를 16×16 패치로 분할
- 각 패치를 토큰처럼 임베딩
- Transformer로 패치 간 관계 학습
장점
- 이미지의 전역적 관계 학습 (CNN은 지역적)
- 대규모 데이터에서 CNN보다 우수
- 텍스트/이미지 통합 처리 용이
한계
- 적은 데이터에서는 CNN이 나음
- 계산 비용이 높음
영향
CLIP, DALL-E, GPT-4V 등 멀티모달 AI의 비전 기반
태그
#비전#Transformer#이미지