Notice
Recent Posts
Recent Comments
Link
«   2024/09   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
Tags
more
Archives
Today
Total
관리 메뉴

NY's 개발일기

[논문] Designing an Encoder for StyleGAN Image Manipulation (E4E) 본문

Study/AI

[논문] Designing an Encoder for StyleGAN Image Manipulation (E4E)

developer_ny 2022. 6. 27. 00:39

https://arxiv.org/abs/2102.02766

본 논문에서는 이미지 조작을 성공적으로 수행하기 위한 인코더를 제안한다.

Introduction

이미지 조작을 위해서는 먼저, 주어진 이미지를 latent space로 변환한다.

고품질 inversion을 위해서는 다음 두 가지 측면을 만족해야한다.

1. 재구성 (generator는 inversion을 통해 얻은 style code를 활용하여 주어진 이미지를 적절하게 재구성해야한다.)

- distortion (이미지당 입출력 유사성)

- perceptual quality (재구성된 이미지가 얼마나 현실적인지)

2. 편집 (주어진 이미지의 편집이 잘 수행되어야한다.)

Terminology

본 논문에서는 latent space를 4가지로 구분한다.

1. W (mapping network를 거쳐 뽑을 때의 분포)

2. Wk (mapping network를 거쳐 뽑은 뒤에 레이어 단위로 cross-over 할 때의 분포)

3. W* (모든 레이어가 같은 값이 되도록 latent codes를 최적화할 때의 분포)

4. Wk* (각 레이어가 개별적이도록 latent codes를 최적화할 때의 분포)

 

k - 각 레이어의 스타일이 개별적으로 다를 수 있는 경우

* - optimization을 통해 값을 변경하는 경우

The GAN Inversion tradeoffs

다음 두 가지 목표를 지키는 인코더를 설계한다.

1. (빨간색 화살표) 대각선(W* 분포)에 가까워지도록

2. (파란색 화살표) 각 좌표가 독립적으로 W 분포에 가까워지기 때문에 latent codes가 Wk에 가까워진다.

Designing an encoder

1. Minimize Variation

style vector간 variance를 낮추기 위해 E(x) = (w, w + ∆1, ..., w + ∆N−1) 형태로 하나의 w와 w에 더할 offset들을 예측하는 방식을 사용한다.

2. Minimize Deviation From Wk

각 레이어의 스타일 벡터가 개별적으로 W 분포를 따르도록 한다.

Total loss

결과적으로 perceptual quality와 editability를 높이는 효과를 기대할 수 있다.

 

 

'Study > AI' 카테고리의 다른 글

[labelImg] Anaconda Prompt에서 labelImg 설치 및 실행하기  (0) 2021.11.14