[논문] Designing an Encoder for StyleGAN Image Manipulation (E4E)
https://arxiv.org/abs/2102.02766
본 논문에서는 이미지 조작을 성공적으로 수행하기 위한 인코더를 제안한다.
Introduction
이미지 조작을 위해서는 먼저, 주어진 이미지를 latent space로 변환한다.
고품질 inversion을 위해서는 다음 두 가지 측면을 만족해야한다.
1. 재구성 (generator는 inversion을 통해 얻은 style code를 활용하여 주어진 이미지를 적절하게 재구성해야한다.)
- distortion (이미지당 입출력 유사성)
- perceptual quality (재구성된 이미지가 얼마나 현실적인지)
2. 편집 (주어진 이미지의 편집이 잘 수행되어야한다.)
Terminology
본 논문에서는 latent space를 4가지로 구분한다.
1. W (mapping network를 거쳐 뽑을 때의 분포)
2. Wk (mapping network를 거쳐 뽑은 뒤에 레이어 단위로 cross-over 할 때의 분포)
3. W* (모든 레이어가 같은 값이 되도록 latent codes를 최적화할 때의 분포)
4. Wk* (각 레이어가 개별적이도록 latent codes를 최적화할 때의 분포)
k - 각 레이어의 스타일이 개별적으로 다를 수 있는 경우
* - optimization을 통해 값을 변경하는 경우
The GAN Inversion tradeoffs
다음 두 가지 목표를 지키는 인코더를 설계한다.
1. (빨간색 화살표) 대각선(W* 분포)에 가까워지도록
2. (파란색 화살표) 각 좌표가 독립적으로 W 분포에 가까워지기 때문에 latent codes가 Wk에 가까워진다.
Designing an encoder
1. Minimize Variation
style vector간 variance를 낮추기 위해 E(x) = (w, w + ∆1, ..., w + ∆N−1) 형태로 하나의 w와 w에 더할 offset들을 예측하는 방식을 사용한다.
2. Minimize Deviation From Wk
각 레이어의 스타일 벡터가 개별적으로 W 분포를 따르도록 한다.
Total loss
결과적으로 perceptual quality와 editability를 높이는 효과를 기대할 수 있다.