ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Face Generative Model Metric - LSE-D, LSE-C
    Paper Review/Face 2022. 9. 28. 10:48

     

     

    생성된 Talking face video에서 lip-sync의 성능 평가 지표 정리. 

    참고 : A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild (2020) 

     

    해당 참고 논문에서는 talking face 생성에서 reference 영상이나 음성의 길이, 수, 어휘 개수 등에 제한되지 않고 더 정확한 lip-sync를 맞추는 모델을 제안하며, 현재 해당 작업에 대해 판단할 수 있는 정확한 지표가 부족하여 새로운 평가 지표를 제안한다. 

    논문에서 제안한 Lip-Sync 생성 모델

     

    해당 논문에서 제안한 LSE-D, LSE-C에 대해 정리한다. 

    이전 lip-sync에 대한 평가 프레임워크에서의 문제점은 아래와 같다. 

     

    1. Does not reflect the real-world usage

    테스트를 위한 생성된 talking face는 프레임에 매끄럽게 보여야하기 때문에 모델이 포즈를 바꾸면 안된다. 하지만 이전 평가 프레임워크에서는 입력에서 임의의 프레임을 받기 때문에 포즈 변경이 불가피하다고 한다. 따라서, 임의로 변경된 포즈는 모델이 결과물이 real-world에서 어떻게 사용되는지를 평가할 수 없다. 

    2. Inconsistent Evaluation 

    평가의 기준이 되는 프레임이 랜덤으로 선택되기 때문에 한 테스트 영상에서도 일관성 없이 평가 결과가 나올 수 있으며, 결과의 재현성 또한 저해한다. 

    3. Does not support checking for temporal consistency

    또한, 프레임이 시간 단위에서도 랜덤으로 선택되므로 포즈 또한 무작위로 생성되어 temporal consistency가 손실될 수 밖에 없다.  

    4. Current metrics are not specific to lip-sync 

    PSNR, SSIM 등과 같은 기존 지표는 전반적인 이미지의 품질을 평가하며 자세한 lip-sync에 대한 평가를 할 수 없다. 또한, LMD 지표에서는 lip region을 탐지하는데 초점을 맞추지만, 생성된 영상에서의 lip landmark는 상당히 부정확하다. 

     

     

    따라서, 이러한 문제점을 해결하기 위해 새로운 lip-sync 평가 지표를 제안하였다.

     

    A Metric to Measure the Lip-Sync Error 

    pre-trained SyncNet을 사용하여 생성된 프레임과 무작위로 선택된 음성 세그먼트 사이의 lip-sync error를 측정하는 지표를 제안한다. 영상에서의 SyncNet의 평균 정확도는 99% 이상이기 때문에, 지표 활용에 사용될 수 있다. 

    SyncNet을 활용함으로써 영상 평가할 때 더 이상 무작위적이고 시간적으로 일관성이 없는 프레임을 샘플링할 필요가 없다. SyncNet에서는 평가과정에서 가까운 시간적 일관성 또한 고려하기 때문이다. 이러한 모델 활용으로 2가지 지표를 만들어냈다.

     

    1. LSE-D (Lip Sync Error - Distance)

    lip과 음성 표현 사이의 거리를 고려한 Average Error Measure. 해당 점수가 낮을수록 음성과 입술 움직임이 동기화되었다는 의미로 볼 수 있다.  

    2. LSE-C (Lip Sync Error - Confidence)

    Average Confidence score. Confidence가 높을수록 음성과 영상의 상관관계가 높다. 

     

     

     

    추가적으로, SyncNet 리뷰가 필요..............................

     

Designed by Tistory.