[논문 리뷰]/컴퓨터비전

[논문 리뷰] VQ-VAE: Neural Discrete Representation Learning

johyeongseob 2025. 7. 1. 14:46

논문: https://arxiv.org/abs/1711.00937

저자: Aaron van den Oord, Oriol Vinyals, Koray Kavukcuoglu.
DeepMind, {avdnoord, vinyals, korayk} @google.com

인용: Van Den Oord, Aaron, and Oriol Vinyals. "Neural discrete representation learning." Advances in neural information processing systems 30 (2017).

 

0. 초록

지도학습 (supervision) 없이 이미지로부터 유용한 표현을 학습하는건 어렵다. 이번 논문에서 저자들은 이산 표현을 학습하여 간단하지만 강력한 생성형 모델을 제안한다. Vector Quantised-Variational AutoEncoder (VQ-VAE)는 기존 VAE 계열 (VAEs) 과 두 가지 관점에서 다르다. 1. 인코더는 이산 (離散, discrete) 결과값을 만든다. 2. prior (고정된 정규분포, z) 는 학습된다. 이산 잠재표현 (latent representation)을 학습하기 위해, 저자들은 vector quantisation (VQ)에서 영감을 얻었다. VQ모델은 autoregressive decoder가 성능이 뛰어나, 잠재표현이 사용되지 않는 "posterior collapse" ---기존 VAE 모델들에서 관촬--- 문제를 예방한다. 이산 잠재표현과 augoregressive decoder가 합쳐지면, 모델은 높은 퀄리티의 결과를 만들어낸다.

1. 서론

생성형 모델은 다양한 분야에 사용된다. 그 중 fow-shot learning, domain adaptation 와 같은 challenging tasks는 잠재 표현에 크게 의존한다. 하지만 비지도 학습으로 얻은 잠재표현을 사용하는 방식은 크게 주목받지 않았다. 한편, 표현학습에서 연속값을 사용하는게 일반적이지만, 저잗르은 이산 표현을 학습하는데 집중한다. 왜냐하면 이산 표현이 멀티모달에 적합하기 때문이다. 언어나 음성 데이터는 이산값이며, 이미지 또한 언어로 표현할 수 있다. 이산 표현을 학습하는 건 딥러닝에서 어렵지만, 강력한 autoregressive model이 될 수 있다. 저자들은 variational autoencoder (VAE) 프레임 그리고 vector quantised (VQ)를 통해 얻은 이산 잠재표현을 결합한 새로운 생성형 모델, VQ-VAE, 를 제안한다.

3. VQ-VAE