ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [논문 리뷰] A Style-Based Generator Architecture for Generative Adversarial Networks
    Paper Review/Generative Model 2022. 3. 14. 11:15

    Abstract

    이 논문에서는 style transfer를 위한 GAN을 위한 대체 generator architecture 제안한다. 새로운 아키텍처는 자동으로 학습된 높은 수준의 속성(: 사람 얼굴에서 훈련될 자세 정체성) 생성된 이미지(: 주근깨, 머리카락) 확률적 변화를 초래하고, 직관적이고 규모별 합성을 제어할 있다. 이를 위해 generator architecture 적용할 있는 가지 새롭고 자동화된 방법을 제안한다. 또한, 새롭고 다양한 고품질의 인간 얼굴 데이터 세트를 소개한다.

    1. Introduction

    GAN 의해 생성된 이미지의 해상도와 품질 최근 급격한 개선을 보였다. 그러나 generator는 아직도 latent space(잠재 공간)의 특성도 이해되지 않는다.
    StyleGAN은 PGGAN 구조를 기반으로 재구성한다. 기존 PGGAN에서는 내가 원하는 모양으로 생성 이미지 제어가 잘 이뤄지지 않았고 되더라도 노이즈가 끼는 결과를 출력한다.

    더보기

    # PGGAN

    PGGAN은 기존 GAN의 구조에서 training 과정에 변화를 줘 출력의 품질을 높인 모델이다. 이 모델은 저해상도 이미지의 base feature를 학습해 이미지의 기초를 만들고 점점 해상도를 높여가며 더 많은 세부사항을 학습하는 구조를 가진다.

    즉, Latent vector z가 normalization을 거쳐 모델에 입력으로 들어가는 모델이다. 하지만 이 latent vector는 반드시 trainig data의 probabillity density를 따르기 때문에 원하는 feature의 조절이 제한적이다. 즉, latent space가 entanglement(얽혀있음)하게 만들어진다고 볼 수 있다.

    따라서 이미지 합성 프로세스를 제어하는 새로운 방법으로 generator architecture 재설계한다. generator 학습된 상수 입력에서 시작하여 잠재 코드를 기반으로 컨볼루션 레이어에서 이미지의 "Style" 조정하여 다양한 스케일의 이미지 기능의 강도를 직접 제어한다. 즉, 입력 w으로부터 image를 생성하는데 각각의 style(w1, w2....)을 각 conv layer에 조금씩 적용하면서 제어할 수 있다.

    2. Style-based Generator

    일반적으로 잠재 코드는 입력 계층의 번째 레이어 통해 Generator 제공된다. 하지만, Style-based generator에서는 입력 z가 매핑 네트워크(f)에 들어가는 것으로 시작한다. 입력 잠재 공간 Z 잠재 코드 z 주어지면, 비선형 매핑 네트워크를 거치는 f : Z → W 생성한다(두 공간의 차원 : 512, f : 8_layer MLP). 이러한 비선형 매핑 네트워크를 거치면서 직접적으로 training data의 분포를 따라갈 필요가 없으며 feature 간의 편향된 상관관계를 줄여줄 수 있다. 또한 각 레이어에 style을 입혀주므로 첫 레이어의 const(constatnt)는 상수값으로 입력을 대체한다.

    먼저 앞서 매핑 네트워크를 통과한 w는 512개로 AdaIN을 적용하기에 채널 개수와 사이즈가 다르기 때문에 Affine transformation을 사용한다고 한다. 학습된 Affine transformation합성 네트워크 g 컨볼루션 레이어 이후 adative instance normalization(AdaIN) 제어하는 style y = (ys, yb) w 설정한다. 즉, 변형된 w를 이미 학습된 텐서(training data의 style이 전혀 들어가지 않은)에 스타일을 입히는 방법을 사용한다.

    여기서 feature map xi 개별적으로 정규화된 다음 스타일 y 해당 스칼라 구성요소를 사용하여 scaling과 bias(y_si,y_bi)를 적용하여 feature의 통계적인 특징을 변화시킨다. 스타일 전송에 대한 접근 방식을 비교하여 예제 이미지 대신 벡터 w에서 공간적으로 스타일 y 계산한다. x는 컨텐츠 정보로 볼수 있고 y는 세부 스타일로 볼 수 있다.


    앞의 AdaIN이 이미지의 큰 style들(인종, 성별)을 바꿔준다면, 이미지의 세세한 부분(stochastic variation)(머리카락, 주름..)을 제어하기 위해 noise를 추가한다. 이것은 상관 관계가 없는 가우스 노이즈로 구성된 단일 채널 이미지이며, 합성 네트워크의 계층에 전용 노이즈 이미지를 공급한다. 노이즈 이미지는 학습된 형상별 스케일링 요소를 사용하여 모든 feature map에 브로드캐스트된 다음 해당 컨볼루션의 출력에 추가된다.

    2.1 Quality of generated images

    제너레이터의 속성을 연구하기 전에 재설계가 이미지 품질을 손상시키지 않지만 실제로 이미지 품질을 상당히 향상시킨다는 것을 실험적으로 입증한다.

    이 논문에서는 Generator의 구조에 대한 아이디어를 제시하므로 Discriminator나 loss function에 대해서는 변화를 주지 않았다고 한다. 이 결과를 통해 평균적인 품질은 높아지고 안경과 모자 등의 액세서리도 성공적으로 합성되었음을 보여준다.

    3. Properties of the style-based generator

    3.1 Style mixing

    네트워크 정규화 효과를 위해 여러 개의 잠재 코드 z를 사용한다. 훈련 중에 하나의 무작위 잠재 코드 대신 개의 무작위 잠재 코드를 사용하여 주어진 비율의 이미지를 생성하는 혼합 정규화를 사용한다. 이미지를 생성할 , 합성 네트워크의 무작위로 선택된 지점에서 단순히 하나의 잠재 코드에서 다른 코드(style mixing) 전환한다. 즉, 매핑 네트워크를 통해 개의 잠재 코드 z1, z2 실행하고 해당하는 w1, w2 스타일을 제어하도록 한다. 정규화 기술은 네트워크가 인접한 스타일이 상관되어 있다고 가정하는 것을 방지한다.

    두 개의 잠재 코드를 다양한 척도로 혼합하여 합성한 이미지의 예

    위 그림은 두 개의 잠재 코드를 다양한 척도로 혼합한 이미지의 예시이다. Source A 이미지를 기반으로 Source B 이미지의 세부적 특징을 적용한 것으로 볼 수 있으며 이 generator에는 총 18개의 w(잠재 코드)가 들어가는데 앞의 4개의 w는 Coarse style, 이후 4개의 w는 Middle style, 이후 10개의 w는 Fine style을 조정한다고 한다. 앞 쪽에 있는 레이어일수록 결과 이미지에 많은 영향을 미칠 수 있는 스타일이 반영되며 뒤쪽으로 갈수록 conv 과정에 영향을 미칠 수 있는 스타일이 줄어들기 때문에 이러한 결과를 나타낸다.

    이를 통해 스타일의 하위 집합이 이미지의 의미 있는 높은 수준의 속성을 제어한다는 것을 있다.

    3.2 Stochastic variation

    앞서 나온 style mixing은 머리스타일, 안경 등 큰 feature를 생성해낸다. 여기서는 머리카락의 정확한 위치, 주근꺠, 모공 등 세세한 feature의 변화를 주는 방법에 대해 설명한다.

    Fig 4 서로 다른 노이즈를 넣은 generator 사용하여 생성된 이미지를 보여준다. 노이즈가 세세한 부분의 확률적 측면에만 영향을 미치고 전체적인 구성과 정체성과 같은 높은 수준의 측면은 그대로인 것을 있다. (c)에서는 각 픽셀의 표준 편차를 나타내며, 이미지의 어느 부분이 노이즈의 영향을 받는지를 나타낸다.

     

    Fig 5 노이즈 입력을 여러 층에 대입해본 결과이다. 모든 층에 노이즈를 적용한 (a)가 가장 구현이 잘 되었다.


    이를 통해 노이즈의 효과가 네트워크에서 매우 지역적으로 나타난다는 알 수 있다. 이 논문에서는 네트워크가 확률적 변동을 생성하는 가장 쉬운 방법은 제공된 노이즈에 의존하는 것이라고 가정한다. 모든 계층에 대해 새로운 노이즈 세트를 사용할 있으므로 초기 활성화로 인한 확률적 효과를 생성할 동기가 없으므로 localized effect 이어진다.

    3.3 Seperation of global effects from stochasicity

    이렇게 노이즈가 세세한 부분에 영향을 미치는 이유는 다음과 같다.
    Generator에서 전체 피쳐 맵은 동일한 값으로 크기 조정되고 편향되기 때문에 스타일은 전체 이미지에 영향을 미친다. 따라서 포즈, 조명 또는 배경 스타일과 같은 전역적 효과는 일관성 있게 제어될 있다. 하지만 노이즈는 픽셀에 독립적으로 추가되므로 확률적 변동을 제어하는 이상적이다.

     

    예를 들어 네트워크가 노이즈를 사용하여 제어하려고 하면 공간적으로 일관되지 않은 결정이 발생하여 판별자에 의해 불이익을 받게 된다. 따라서 네트워크는 명시적 지침 없이 글로벌 로컬 채널을 적절하게 사용하는 방법을 배운다.

    4. Disentanglement studies

    Disentanglement는 입력으로 들어오는 잠재 분포가 training data의 분포를 따르지 않고 분리되는 것을 의미한다. GAN에서 말하는 disentanglement란 잠재공간이 선형적인 구조를 가지게 되어서, 하나의 팩터를 움직였을 때 정해진 하나의 특성이 바뀌게 만들고자 하는 것을 의미한다.

    기존에는 잠재 분포 z가 training data의 분포에 끼워맞추기 위해 (b)와 같이 변형이 많이 일어나 고품질의 출력을 만들어내지 못한다. (b)의 형태는 가우시안 분포를 따르기 때문에 원형의 분포 안에서 변화가 일어나게 되고 이 변화는 비선형성을 가지게 된다. 따라서 특정 feature를 분리하기 어려운 entanglement의 특징을 가진다. 하지만 매핑 네트워크를 지나 선형성을 가지는 분포가 된다면 (c)와 같은 모양을 가지며 feature를 분리하기 편해진다.

    이 논문의 generator architecture의 주요 이점은 중간 잠재 공간 W training data 분포에 따라 샘플링 필요가 없다는 것이다. 샘플링 밀도는 매핑 네트워크 f(z) 의해 유도된다. 이 논문에서는 얽힌 표현을 기반으로 하는 것보다 분리된 표현을 기반으로 현실적인 이미지를 생성하는 것이 쉬울 것이라는 점을 가정한다. 이를 위해, Disentanglement 정량화하는 가지 새로운 지표를 설명한다.

    4.1 Perceptual path length

    4.2 Linear separability

    5. Conclusion

    중간 잠재 공간의 선형성뿐만 아니라 높은 수준의 속성과 확률적 효과의 disentanglement에 대한 연구가 GAN 합성의 이해와 제어 가능성을 향상시키는 데 도움이 될 것이라고 믿는다.

    이 논문에서 소개한  평균 경로 길이 메트릭이 훈련 중에 정규화로 사용될 수 있으며, 선형 분리 가능성 메트릭의 일부 변형도 하나의 메트릭으로 작용할 수 있다는 것을 주목한다. 일반적으로, 우리는 훈련 중 중간 잠재 공간을 직접 형성하는 방법이 향후 작업을 위한 흥미로운 방법을 제공할 것으로 기대한다.



Designed by Tistory.