논문리뷰 - AN IMAGE IS WORTH 16x16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE (ViT)
·
공부/논문
Transformer가 NLP에서 큰 변화를 일으켰는데, 이 Transformer를 Vision 분야에서 적용하는 방법에 대한 논문이다. ViT는 Vision Transformer의 약자이며, 본 논문리뷰는 Transformer와 CV(Computer Vision)에 대한 기초지식이 있다는 전제하에 설명한다.  Word에서 먼저 정리하고, Tistory 블로그에 다시 한번 정리하는데 Word에서 만든 수식들을 블로그 글에서 인식을 못하기 때문에, 부득이하게 중간에 글을 캡쳐로 넣는 부분이 생겼다. 양해를 바란다. https://arxiv.org/abs/2010.11929 An Image is Worth 16x16 Words: Transformers for Image Recognition at ScaleW..