논문: https://proceedings.mlr.press/v139/radford21a
저자: Alec Radford*, Jong Wook Kim*, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever
(OpenAI, San Francisco, CA 94110, USA) *Equal contribution
인용: Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International conference on machine learning. PmLR, 2021.
깃허브: https://github.com/OpenAI/CLIP
0. 초록 (Abstract)
최신(SOTA) 컴퓨터비전 시스템은 미리 정해진 객체 카테고리 (e.g. ImageNet-1k는 1000개의 카테고리) 내에서 예측을 수행하도록 훈련된다. 이와 같은 형태의 지도 학습은 모델의 일반화와 유용성을 제한시키고, 이를 해결하기 위해서는 추가적인 라벨 데이터가 필요하다. 이미지에 대한 자연어 (raw text)로부터 직접적으로 학습하는 것은 위 문제에 대한 해결책이 될 수 있으며 동시에 지도학습의 데이터 범위를 늘릴 수 있다. 저자는 이미지와 캡션(raw text)의 pair를 맞추는 간단한 사전 훈련 방식이 효과적이며 확장성 있는 방식이며 기존 SOTA 성능을 달성함을 보였다. 여기에 사용된 데이터는 인터넷에서 모은 400M 이미지-텍스트 pair 데이터셋이다. 모델의 사전 훈련 후 다른 작업에 적용될 때, 자연어는 참조(reference)로 사용된다.
1. Introduction and Motivation Work
자연어로부터 사전훈련하는 방식은 최근 NLP에서 사용되었다. (ELMo, GPT, BERT, T5) Input-ouput이 text-text로 이루어진 사전 훈련 모델들은 실제 적용될 작업(task)의 종류에 상관없이 zero-shot transfer로 사용되었다. 특히 최신 모델인 GPT-3는 실제 테스크에 상관없이 잘 작동하는 bespoke model이 되었다. 이는 웹에서 모은 텍스트 데이터로 훈련한 최근 모델들이 고품질 라벨링 NLP데이터셋 기반 모델들을 앞지르는 모습을 보인다. 하지만 컴퓨터비전에서는 여전히 라벨링 데이터셋 (ImageNet 등)으로 사전 훈련하는 방식이 주로 사용된다. 저자들은 웹 텍스트에서 직접 학습하는 대규모 사전 훈련 방식이 컴퓨터비전에서도 새로운 돌파구가 될 수 있을지 이번 연구를 통해 살펴보았다.
과거 컴퓨터비전에서도 자연어를 처리하는 유사한 방식이 존재하였다. VirTex는 transformer 기반 언어 모델링을 활용하여 이미지의 표현을 학습하고, ICMLM은 마스크 언어 모델링 (MIM)을, ConVIRT는 text로부터 이미지 표현을 학습하는 대조학습 방식을 사용했다. 하지만 이들은 Big Transfer나 ResNeXt와 같은 컴퓨터비전 SOTA 성능을 달성하지 못했다. 저자들은 이들의 결정적인 차이를 'scale' 로 보았다. 전자(VirTex, ICMLM, ConVIRT)는 10-20만개 이미지 데이터셋을 사용한 반면, 후자(Big Transfer, ResNeXt)는 수백만-수십억 이미지 데이터셋을 사용하였다. 저자는 이들의 차이를 줄이기 위해 대규모의 자연어 데이터셋으로부터 컴퓨터비전 모델을 훈련시켰다. 저자는 ConVIRT의 간단화 버전으로 새롭게 훈련한 CLIP: Contrastive Language-Image Pre-training 을 소개한다. 그리고 저자는 CLIP을 통해 여러 작업들, OCR, 위치 인식, 행동 인식 등을 포함하여 훈련이 가능하며, ImageNet 벤치마크 데이터셋에 대해 SOTA를 달성하였다. 또한 CLIP은 zero-shot에서 지도학습기반 모델의 정확도를 따라잡았다. (equivalent accuracy)
2. Approach
이번 연구의 핵심은 모델이 이미지-텍스트 데이터쌍을 통해 시각적 인식(perception)을 학습하는 것이다.
2.1. Creating a Sufficiently Large Dataset
기존 연구들은 세 가지 데이터셋, MS-COCO, Visual Genome, YFCC100M 을 사용하였다. MS-COCO와 Visual Genome는 고품질 라벨링 데이터이나 약 10만개 이미지로 소규모이다. 대조적으로 다른 컴퓨터비전 모델은 35억장의 Instagram 이미지로 훈련을 진행한다. 이것이 가능한 이유는 hash tag를 레이블로 설정하였기 때문이다. YFCC100M은 1억장으로 대규모이나 품질(라벨)이 불안정하다. YFCC100M에 유의미한 자연어(라벨링) 필터링을 거치면 약 600-1500만개로 줄어든다.
NLP모델의 주요 장점은 인터넷으로부터 얻을 수 있는 대량의 데이터이다. 이를 위해 저자는 인터넷으로부터 얻은 약 4억개의 이미지-텍스트 쌍 데이터셋을 만들었다. 저자의 데이터셋은 다양한 시각적 표현을 위해 약 50만개의 quary(레이블)가 존재하며, 또한 클래스 균형을 위해 각 quary마다 2만 개의 이미지-텍스트 쌍 데이터가 존재한다. 이는 GPT-2 모델의 훈련에 사용된 WebText 데이터셋과 단어 개수가 비슷하다. 저자들은 새로 구성한 데이터셋의 이름을 WIT: WebImageText 라고 부른다.
2.2. Selecting an Efficient Pre-Training Method
저자의 초기 접근법은 이미지의 캡션을 예측하기 위해 VirTex와 비슷한 방법으로 이미지 CNN과 텍스트 transformer를 동시에 훈련시켰다. 하지만 이 방법은 효과적으로 확장하는데 (Scaling) 어려웠다. (역자 주: scaling이란, VirTex와 달리 대규모 데이터셋에서도 모델의 학습이 잘 작동해야 함) 왜냐하면 ImageNet 클래스를 예측하기 위해 저자가 사용한 transformer는 6300만개의 파라미터를 사용하는데 ResNet50보다 계산 비용이 2배나 비싸면서, 속도는 bag-of-words encoding 보다 3배 느렸기 때문이다. 이에 대안으로 저자는 대조 표현 학습 (contrastive representation learning)을 사용했다. 대조 목적함수 (contrastive objective)는 기존 예측 목적함수보다 우수한 성능을 보였다. 저자는 bag-of-words encoding을 기반으로 대조 목적함수를 사용하여 전이학습에 4배 더 효과적임을 발견하였다. (Figure 2.)
배치 내 N개의 이미지-텍스트 쌍 데이터에 대해 CLIP은 N$\times$N의 짝을 맞추도록 훈련되었다. CLIP은 이미지 인코더와 텍스트 인코더를 동시 학습한 다음, 추가로 선형 변환 (linear projection)을 통해 각 embedding을 multi-modal embedding space로 이동시켰다. 그리고 알맞는 embedding 쌍은 유사도를 높이고, 다른 embedding 쌍은 유사도를 낮추는 훈련을 진행하였다. (Figure 3.)
'[논문 리뷰] > 컴퓨터비전' 카테고리의 다른 글
[논문 리뷰] A Simple Framework for Contrastive Learning of Visual Representations (0) | 2025.03.10 |
---|---|
[논문 리뷰] Focal Loss for Dense Object Detection (RetinaNet) (0) | 2024.09.21 |
[논문 리뷰] SupCon: Supervised Constrastive Learning (0) | 2024.09.03 |