본문 바로가기

Computer Vision9

CLIP : Learning Transferable Visual Models From Natural Language Supervision 논문 리뷰 CLIP 배경 설명CLIP(Contrastive Language-Image Pre-training)은 OpenAI가 2021년 1월 발표한 멀티모달 AI 모델이다.자연어의 대규모 데이터들을 이용한 학습 방법을 Computer vision 분야에 확장했다는데 그 의의가 있다. AbstractSOTA(그 당시) Computer vision 모델들은 정해진 카테고리 내에서 학습되었고, 새로운 label에 대해 새로운 학습이 필요하다는 일반화의 약점이 있었다. 이미지를 raw text(category화 되지 않은)으로부터 직접 학습하는 것은 일반화의 약점을 극복할 수 있는 방법이다..이미지와 텍스트 쌍들의 데이터 중, 어떤 캡션이 어떤 이미지에 해당하는지를 예측하는 간단한 pre training task를 진행.. 2025. 5. 12.

EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention 논문 리뷰 EfficientViT 배경 설명EfficientViT는 2023년 발표된 논문이다. ViT의 memory 효율성을 개선하기 위해, 샌드위치 구조의 레이아웃과 cascaded group attention을 도입한 EfficientViT model을 제안하였다.model 속도와 accuracy가 매우 좋다. AbstractViT는 성능이 좋지만, 연산 비용이 너무 커서, 실사용에 문제가 있다.이 논문에서는 EfficientViT라는 빠른 속도의 ViT 모델을 소개한다. 기존 transformer 구조의 모델들이 memory를 효과적으로 사용하지 못하는 MHSA(Multi-Head Self-Attention)의 tensor reshaping이나 element-wise function으로 인해 제약이 있음을 .. 2024. 12. 30.

MobileViT v2 논문 리뷰 GPU 없는 환경에서 Image Classification을 해야 할 상황이 되었다. MobileNet으로 실험할까 하다, 성능도 어느 정도 챙기고 싶어, MobileViT 논문을 읽게 되었다. MobileViT v2 배경 설명 MobileVIT v2는 2022년 Apple에서 발표한 "Separable Self-attention for Mobile Vision Transformers" 논문에서 소개된 모델이다. 기존 MobieViT가 model의 parameter 경량화에 성공하면서, CNN 기반의 mobilenet보다 좋은 성능을 보였지만, inference 속도가 느리다는 점을, separable self-attention 개념으로 해결한 논문이다. Abstract MobileVit가 적은 para.. 2024. 1. 8.

Fine-tuning Image Transformers using Learnable Memory 논문 리뷰 논문 배경 설명 Fine-tuning Image Transformers using Learnable Memory은 2022년 CVPR에 제출된 Google 논문이다. memory token 개념을 사용하여, ViT에서 과거 task에 대한 정보를 저장하여, 성능을 유지하고, 새로운 task에 대한 학습을 진행할 수 있는 방법을 소개했다. 저자들은 지속 & 확장 가능한 memory 개념으로 소개하는데, 만약 진짜라면, external memory 개념으로 탈부착 가능한 memory가 될 수도 있지 않을까? 하는 생각이 든다. Abstract 이 논문에서는 Vision Transformer model에 학습 가능한 memory token을 넣은 새로운 ViT 모델을 소개한다. 이 모델의 방법에서는 하나의 t.. 2023. 12. 12.

MobileViT 논문 리뷰 MobileViT 배경 설명MobileViT은 2022년 Apple에서 ICLR 2022에 제출한 논문이다. (Apple이여서, mobile에 대한 CNN이 더욱 필요했을 것이다.)CNN에서 mobilenet이 나왔듯, ViT에서도 light cost에 초점을 맞춘 논문이 등장하였다. Abstractmobile 환경에서 구동 가능할 정도의 가벼운 vision task CNN 모델이 등장하였었다. (mobilenet) 하지만, CNN과 달리 ViT는 최근 많은 vision task에 사용됨에도 불구하고, global representation들을 활용하기 위한 self-attention 구조를 사용하기 때문에, CNN에 비해 모델이 무겁다.이 논문에서는 CNN과 ViT를 결합하여 mobile vision .. 2023. 12. 7.

DETR : End-to-End Object Detection with Transformers 논문 리뷰 DETR 배경 설명 DETR은 2020년 Facebook AI 팀에 의해 발표된 논문이다. Transformer를 Object Detection 분야에 최초로 적용한 논문이다. Abstract 이 논문에서는 한 번에 물체의 위치와 classification을 진행할 수 있는 DETR이라는 새로운 네트워크를 소개한다. 기존에 Object Detection에서 존재하던 NMS(Non-maximum suppression)이나, anchor box 생성 같은 manual 작업들을 제거한 detection pipeline을 구성하였다. DETR의 주요 아이디어는 bipartite matching을 통한 unique predictions를 강제하는 "set-based global loss"와 transformer의.. 2023. 11. 7.

DeepVit: Towards Deeper Vision Transformer 논문 리뷰 DeepViT 배경 설명 DeepVit는 2021년에 ViT에 후속으로 나온 논문이다. ViT의 등장 이후, CNN 처럼 ViT를 깊게 쌓기 위한 방법을 제시한 논문으로, ImageNet classification에서 기존 CNN 기반의 SOTA를 넘어서는 성능을 보였다고 한다. Abstract 이 논문에서는 Image Classification에서 Layer가 깊어질수록 좋은 성능을 내는 CNN과 달리, ViT의 performance는 layer가 깊어질수록 성능이 더 빨리 saturate 되는 것을 발견했다. 이것은 transformer의 사이즈가 커지면서, attention map들이 점점 비슷한 형태를 띠는 "attention collapse issue" 때문이다. 이것은 ViT에 deeper l.. 2023. 10. 11.

NaViT(a Vision Transformer for any Aspect Ratio and Resolution) 논문 리뷰 NaViT 배경 설명NaViT은 Google DeepMind에서 2023년 7월(리뷰 시점에서 1달 전)에 나온 논문이다. Model 크기에 맞게 Input size를 조정하던 기존의 CNN 구조에서 벗어나, ViT로 다양한 resolution의 input을 학습하고자 하였다. Abstactcomputer vision model에서 이미지 처리 전에 고정된 이미지 resoultion은 최적이 아님에도 불구하고, 보편적으로 사용된다.ViT 같은 모델은 flexible한 sequence-based modeling을 제공하기 때문에, input sequence 길이를 가변적으로 사용 가능하다.이 논문에서는 ViT의 특징을 이용한, 학습과정에서 무작위의 resolution과 aspect ratio을 다룰 수 있.. 2023. 8. 16.

ViT (Transformers for image recognition at scale) 논문 리뷰 ViT 배경 설명 ViT는 2021 ICLR에 나온, Google Brain의 논문이다. NLP 분야에서 광범위하게 사용되고 있던, Transformer를 computer vision 분야에 적용해 좋은 성능을 보여주었다. Abstact Transformer가 NLP 분야에서는 standard로 자리 잡았지만, computer vision 분야에서 활용은 아직 한계가 있다. vision 분야에서는 attention은 attention은 CNN과 함께 적용되거나, 그 요소를 바꾸는 데 사용하는 등, 전체적인 구조는 그대로이다. 이 논문에서는 CNN구조의 중심이 불필요하고, image patches를 sequence 형태로 pure transformer에 바로 적용하는 것이 image classificati.. 2023. 7. 13.

이전 1 다음

티스토리툴바