트랜스포머1 Vision Transformer(ViT) 공부 및 간단 구현 예제 Vision Transformer (ViT)는 이미지 처리 분야에서 사용되는 트랜스포머 아키텍처에 기반한 모델. 2020년에 Google Research에서 "AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE"이라는 논문을 통해 소개되었습니다. ViT는 주로 자연어 처리에서 매우 성공적이었던 트랜스포머를 이미지 인식에 적용하는 혁신적인 접근법을 제시합니다. ViT의 핵심 아이디어 및 구조는 다음과 같습니다: 이미지 패치: 이미지를 여러 개의 고정 크기 패치로 나눕니다. 예를 들어, 224x224 크기의 이미지를 16x16 크기의 패치로 나누면 14x14=196개의 패치가 생성됩니다. 패치 임베딩: 각 패치를 벡터로 평탄화.. 2023. 8. 20. 이전 1 다음 728x90