홈 뉴스 인사이트 AI 도구 용어집 트렌드 가이드

로그인 회원가입

AI 트렌드와 인사이트를 한곳에서. 최신 AI 뉴스, 커뮤니티, 도구 디렉토리.

탐색

뉴스
인사이트
AI 도구

커뮤니티

인사이트 작성
내 프로필

정보

서비스 가이드
개인정보 처리방침
이용약관
문의: hello@ai-kit.org

© 2026 AIKIT. All rights reserved.

Vision Transformer - AI 용어집 | AIKIT | AIKIT

AI 용어집/Vision Transformer

모델/아키텍처고급

Vision Transformer

비전 트랜스포머 · Vision Transformer / ViT

이미지를 패치로 나누어 Transformer 아키텍처로 처리하는 컴퓨터 비전 모델

관리자|2026년 3월 4일

상세 설명

Vision Transformer (ViT)

NLP의 Transformer를 이미지에 적용한 모델입니다.

작동 원리

이미지를 16×16 패치로 분할
각 패치를 토큰처럼 임베딩
Transformer로 패치 간 관계 학습

장점

이미지의 전역적 관계 학습 (CNN은 지역적)
대규모 데이터에서 CNN보다 우수
텍스트/이미지 통합 처리 용이

한계

적은 데이터에서는 CNN이 나음
계산 비용이 높음

영향

CLIP, DALL-E, GPT-4V 등 멀티모달 AI의 비전 기반

태그

#비전#Transformer#이미지

공유

수정 요청 목록으로