Paper Review/Face
-
[논문 리뷰] Attention-Based Lip Audio-Visual Synthesis for Talking Face Generation in the Wild (2022)Paper Review/Face 2022. 10. 14. 14:47
1. Introduction Talking Face Generation 분야에서 더 정확한 lip-sync를 맞추기 위해 attention 모듈을 추가한 AttnWav2Lip 모델을 제안하였다. 더 자세히는, spatial attention module과 channel attention module을 통합하여 얼굴 이미지에서 중요한 부분은 입술 영역 생성에 더 많은 관심을 기울이게 된다. 이렇게 Face Generation에서 attention 메커니즘을 도입한 첫 번째 논문이라고 한다. 기존의 Wav2Lip 모델은 네트워크 내에서 lip-sync를 위해서 연속 프레임에서 temporal context 정보를 사용한다. 또한, 생성된 비디오에서 적대적 학습을 할 수 있도록 사전 학습된 lip-sync d..
-
Talking head Generation Evaluation MeasuresPaper Review/Face 2022. 10. 6. 17:13
Tallking face generation task에서의 객관적인 지표에 대한 논문 모음 # GAN Evaluation Measures (2021) Pros and cons of GAN evaluation measures: New developments (2021) 이전에 나온 평가지표 survey 논문(2019) 업그레이드 버전이며, GAN과 관련된 생성 모델에 대한 평가지표를 정리한 논문이다. 이전 survey에서는 IS,FID 등 다양한 생성 모델링 작업의 평가 지표들에 설명했으며, 이번에는 새롭게 등장한 지표들에 대해 소개한다. 또한, 이렇게 새롭게 나온 지표들은 GAN 평가는 물론, 딥페이크 작업에도 연관될 수 있다. 이미지 수준의 시각적 품질 평가가 주를 이루기 때문에, source 데이터로..
-
[논문 리뷰] SyncNet - Out of time: automated lip sync in the wild (2016)Paper Review/Face 2022. 9. 28. 16:34
얼굴 생성 task에서 기존의 PSNR, SSIM 등의 영상 품질 평가 지표와는 다르게 Lip-Sync를 평가하는 프레임워크인 LSE-D, LES-C의 바탕이 된 SyncNet에 대한 논문이다. 해당 논문의 주요 기여점은 ConvNet 아키텍처와 오디오와 입 모양 사이의 공동 임베딩을 레이블링된 데이터 없이 TV 방송으로부터 학습할 수 있도록 하는 end-to-end 데이터 처리 파이프라인이다. 이 솔루션은 크게 3가지로 활용될 수 있으며 거의 100%에 근접한 성능을 보인다. Determining lip-sync error in videos Detecting the speaker in a scene with multiple faces Lip Reading 이전의 audio-video syncronisa..
-
Face Generative Model Metric - LSE-D, LSE-CPaper Review/Face 2022. 9. 28. 10:48
생성된 Talking face video에서 lip-sync의 성능 평가 지표 정리. 참고 : A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild (2020) 해당 참고 논문에서는 talking face 생성에서 reference 영상이나 음성의 길이, 수, 어휘 개수 등에 제한되지 않고 더 정확한 lip-sync를 맞추는 모델을 제안하며, 현재 해당 작업에 대해 판단할 수 있는 정확한 지표가 부족하여 새로운 평가 지표를 제안한다. 해당 논문에서 제안한 LSE-D, LSE-C에 대해 정리한다. 이전 lip-sync에 대한 평가 프레임워크에서의 문제점은 아래와 같다. 1. Does not reflect the real-wor..
-
[DeepFake] 관련 논문 정리Paper Review/Face 2022. 2. 24. 16:40
- 수정 중 - Tools Key Features Link Faceswap_GAN(2018) - Adversarial loss + Perceptual loss - AutoEncoder architecture https://github.com/shaoanlu/faceswap-GAN DeepFaceLab(2020) - Expand from the Faceswap model - Multiple face extraction modes https://github.com/iperov/DeepFaceLab https://arxiv.org/abs/2005.05535 FSGAN(2019) - Adjust to both pose and expression variations https://openaccess.thecvf...
-
[Deepfake] 간단 개념 정리Paper Review/Face 2022. 2. 24. 15:35
- 수정 중 - # Facial Manipulations 사람의 얼굴을 조작하는 기술들은 크게 4가지로 분류할 수 있다. 일반적으로 DeepFake 얼굴 생성이라고 인식되는 카테고리는 3번, 4번의 Facial Expression과 Face Swap이라고 할 수 있다. 1. Face Synthesis 존재하지 않던 얼굴을 생성하여 기존 얼굴과 합성한다. 최근의 StyleGan 같은 GAN 기법을 이용하여 새로운 얼굴을 생성해낸다. 관련 논문 : A Style-Based Generator Architecture for Generative Adversarial Networks https://openaccess.thecvf.com/content_CVPR_2019/html/Karras_A_Style-Based_..