ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Talking head Generation Evaluation Measures
    Paper Review/Face 2022. 10. 6. 17:13

    Tallking face generation task에서의 객관적인 지표에 대한 논문 모음 

    # GAN Evaluation Measures (2021)

    Pros and cons of GAN evaluation measures: New developments (2021)

    이전에 나온 평가지표 survey 논문(2019) 업그레이드 버전이며, GAN과 관련된 생성 모델에 대한 평가지표를 정리한 논문이다. 

     

    이전 survey에서는 IS,FID 등 다양한 생성 모델링 작업의 평가 지표들에 설명했으며, 이번에는 새롭게 등장한 지표들에 대해 소개한다. 또한, 이렇게 새롭게 나온 지표들은 GAN 평가는 물론, 딥페이크 작업에도 연관될 수 있다. 

    이미지 수준의 시각적 품질 평가가 주를 이루기 때문에, source 데이터로부터 새로운 영상을 만드는 task에 마땅한 지표는 없는듯... 

     

    # What comprises a good talking-head video generation? (2020)

    What comprises a good talking-head video generation? (2020)

    talking-head video generation 작업에서 기존의 많은 연구들은 사용자들을 대상으로 설문조사 형식의 평가 지표를 활용한다. 혹은, 앞서 정리한 LSE 지표도 주로 사용한다. 이 논문에서는, 이 작업을 평가하기 위해 설계된 벤치마크를 설명한다. 또한, 현재 방법의 장단점, 앞으로의 발전 방향에 대해서 이야기하고 있다. 

     

    talking-head generation의 평가는 시각적 품질만이 아닌 다양한 확률 기준과 지각적으로 의미 있는 비디오 수준의 측정의 문제 때문에 굉장히 까다롭다. 이 논문에서 총 3가지의 요구사항에 대한 평가 지표를 설계하고 접근법에 대해 설명한다. 

    1. Identity Preserving 

    source 데이터의 정체성을 보존하는지에 대한 내용이다. 기존의 identity preserving evaluation metric 2가지를 시각화를 통해 비교하고, ArcFace 모델의  embedding vector 간의 코사인 유사도를 활용하여 identity mismatch를 측정하는 방법을 제안한다. 

     

    일반적으로, deep generative model에서는 깊은 층의 연산 과정에서 공간적 정체성 정보가 손실될 수 있기 때문에 사람이 느끼기에 정체성을 보존하지 못할 수 있다. 

     

    기존 메트릭 중 첫번째(Jamaludin et al.)는 정체성 보존을 측정하기 위해 VGGFaceNet을 사용하였으며, 이를 통해 생성된 비디오 프레임과 ground truth의 embedding distance를 측정한다.     

    두번째 메트릭은 ArcFace이며, 자세한 내용은 해당 논문에서는 자세히 설명하고 있진 않다. 

     

    위의 두 가지 기존 메트릭을 비교하기 위해 t-SNE를 사용하여 VoxCeleb2에서 샘플링된 비디오 프레임에서 추출된 feature vector를 시각화한다. 

    Figure 1.을 보면, ArcFace의 방법이 VGGFaceNet에 비해 noise에 더 강하다고 판단한다. ArcFace의 Additive Angular Margin Loss가 intra-class의 compactness와 inter-class의 discrepancy를 동시에 향상시키기 때문이라고 한다. ArcFace가 더 나은 클래스 간 불일치(inter-class discrepancy) 성능을 가지고 있는 것으로 보이기 때문에, 이 논문에서는 ArcFace가 추출한 두 이미지 특징 사이의 코사인 거리인 ArcSim을 사용하여 두 이미지 간 정체성 유사도를 측정한다.  

    더보기

    t-SNE : 높은 차원의 복잡한 데이터를 2차원으로 차원 축소하여 시각화, 단순한 데이터 사이의 거리가 아닌 확률 분포 사용 

    2. Semantic-level Lip Synchronization 

    생성모델을 통해 생성된 입술 움직임은 비디오 품질에 비해 일반적으로 덜 표현적이며, 오디오 정보와 맞지 않는 결과를 보이기 쉽다. lip sync의 가장 중요한 문제는 시각적 움직임과 오디오 정보의 일치를 비디오에서 유지시키는 것이다. 인간의 경우, 언어를 알고 있을 때, 오디오와 시각적인 것이 일치하는지 판단하는 것이 훨씬 더 쉽다. 따라서, 이러한 lip sync 성능을 지각적으로 평가하기 위한 새로운 Lipreading Similarity Distance(LRSD)를 제안한다. 해당 실험 결과를 통해, LRSD 점수가 비디오에 대한 인간의 평가와 일치함 또한 증명한다. 

     

    합성된 비디오 클립 xˆ와 쌍을 이루는 ground truth 비디오 클립 x 가 주어졌을때, LRSD는 아래와 같이 구할 수 있다. 

    φ 는 spatial-temporal lipreading network 이다. 그동안 제안된 많은 lip reading network가 있지만, 성능이 좋지 않다. 따라서, LRS3-TED 데이터셋에서 학습했지만, 다른 외부 영상에서도 잘 작동하는 간단하고 효과적인 multi-view lipreading network를 제안한다. 

     

    이 네트워크의 visual feature extraction을 입증하기 위해, 테스트 세트에 대한 lip reading 결과를 보여준다. 

    같은 단어에 해당하는 영상은 같은 색을 보인다.

    해당 네트워크 lip reading feature 의 inter-class discrepancy를 입증하기 위해 랜덤으로 20개의 단어를 선택하고 각 테스트 세트에는 각 단어별로 30개의 비디오 클립이 포함되어 있으며 visual feature를 시각화하였다. 이를 통해 비슷한 외형을 가진 단어들의 feature가 다른 feature보다 가깝다는 것을 확인하였다.  

    또한, 학습 데이터(LRS3-TED)와 전혀 다른 테스트 데이터셋(VoxCeleb2)에서 제안 방법의 lipreading accuracy가 가장 높은 분류 정확도를 달성했다. 

    따라서 제안한 lip reading network가 input video sequence로부터 semantic-level의 spatial-temporal feature를 충분히 추출할 수 있으며, 추출한 feature가 단어에 매칭되지 않을때 확실한 차이를 구분할 수 있다는 효과를 입증한다. 

    3. Natural-spontaneous Motion 

    비디오 생성 모델에서 생성된 샘플은 움직임이나 영상의 다양성에 제한을 가진다는 한계가 있다. 이러한 비디오 내 다양성을 조사하기 위해 감정 표현, 깜박임, 머리 움직임을 포함하여 합성된 비디오에서 방출되는 자발적인 움직임(spontaneous motions)을 평가한다. 합성된 비디오와 gt 비디오 사이의 얼굴 감정 표현 거리를 평가하기 위해 새로운 평가 지표인 ESD(Emotion Similarity Distance)를 설계한다. 또한, 합성된 비디오에서 무의식적인 깜박임을 정량적으로 평가하기 위해, 학습 기반 지표인 Blink Similarity Distance(BSD)를 도입하여 합성된 비디오의 눈 영역에서 깜박임 동작의 품질을 평가한다. 

     

    보통 사람들이 말을 할때에는 입술의 움직임뿐만 아니라 내용을 이해할 수 있는 비언어적 정보가 포함된다. 이러한 감정, 깜박임, 모션 등의 비언어적 표현을 생성해내는 모델들도 지속적으로 개발되고 있다. 따라서, 이를 평가할 수 있는 지표 또한 필요성이 있음. 

     

    첫 번째로, 생성된 모션 중 감정 표현의 품질을 평가하기 위한 ESD를 소개한다. 먼저, CREMA-D 학습 세트에서 비디오 클립의 감정을 분류하기 위해 spatial-temporal convolution network를 학습시킨다. 위에 figure 3의 왼쪽 그림에서 비디오의 감정 분류 정확도를 확인할 수 있다. 

     

    CREMA-D 데이터 세트에서 의도된 감정에 대한 인간의 인식은 정확도 58.2%(visual-only), 63.6%(audio-visual)의 결과를 보인다. 제안하는 비디오 감정 분류기는 오디오가 없는 실제 비디오에서 62.9%의 테스트 정확도를 보여준다. 그 다음으로, ArcLoss를 이용한 메트릭 러닝을 통해 네트워크를 학습시킨다. 이 과정을 통해 서로 다른 감정의 feature 사이의 거리를 더 명확하게 나타낼 수 있다.  ArcLoss를 이용한 학습이 끝난 후, 입력 비디오를 표현한 학습 이전의 embedding feature를 활용해 유사도 거리를 다음과 같이 측정한다.  

    i와 j는 각 두 비디오의 인덱스. 결과는 table 3

    table 3과 figure 4를 비교하면, 각 방법론으로 생성된 비디오의 ESD 값은 가장 높은 정확도를 보이는 모델과 일치한다. 

     

    다음은 ArcLoss를 사용하여 각 슬라이스(프레임인듯)마다 blink feature를 추출하기 위해 네트워크를 학습시킨다. 테스트 세트에서 생성된 샘플 슬라이스의 blink feature의 t-SNE 그림은 figure 5에서 볼 수 있다.  

    오른쪽 그림을 보면 깜박임에 대한 혼란이 있긴 하지만, 왼쪽에는 non-blink motion cluster, 오른쪽에는 blink motion cluster를 보여주며 확실히 inter-class discrepancy 성능을 보이는 것을 알 수 있다. 이러한 결과에 기반하여, Blinking Similarity Distance(BSD) 지표를 제안한다. ESD와 비슷하게, 생성된 비디오와 gt 비디오의 blink feature 간의 코사인 유사도를 계산한다. 높은 BSD 점수는 이 두 비디오 간의 blink motion이 유사한 정도를 보여준다. 

    수식은 ESD의 수식과 같다고 한다. 

     

     

    4. Discussion 

    제안된 지표는 인간의 지각적 판단과 일치했으며, 샘플링 및 계산 복잡성이 낮다. 지속적으로 향상되는 talking head 생성 모델의 공정한 평가를 위한 방법론은 꾸준히 발전해야함. 

Designed by Tistory.