Paper Review
-
[논문 리뷰] Denoising Diffusion Restoration ModelsPaper Review/Generative Model 2023. 1. 31. 15:05
Abstract 기존 Diffusion model을 통해 이미지 복원 작업을 수행하는 DDRM(Denoising Diffusion Restoration Model)을 제안한다. 이미지 복원 작업을 Linear Inverse Problems으로 정의하고 이를 Diffusion 알고리즘을 통해 해결한다. 역문제로 캐스팅될 수 있다. 이러한 문제를 해결하기 위한 최근의 접근법 제품군은 측정값이 주어진 자연 이미지의 사후 분포에서 표본을 추출하는 확률적 알고리듬을 사용한다. 그러나 효율적인 솔루션은 종종 사후를 모델링하기 위해 문제별 감독 교육이 필요한 반면, 문제별이 아닌 감독되지 않은 방법은 일반적으로 비효율적인 반복 방법에 의존한다. 이 연구는 효율적이고 감독되지 않은 사후 샘플링 방법인 노이즈 제거 확산..
-
[논문 정리] Denoising Diffusion Probabilistic Models (2020)Paper Review/Generative Model 2022. 11. 28. 15:37
해당 논문은 물리학의 잠재변수 모델의 클래스인 Diffution Probabilistic Model을 활용하여 고품질의 이미지를 생성한 (Denoising Diffusion Probabilistic Models)DDPM을 처음 제안했다. 첫 논문에서도 기존 생성 모델인 GAN과 비슷한 품질을 달성했으며 이후에는 GAN을 압도하는 모델이 되었다. 더보기 물리학에서의 Diffusion : 특정한 물질이 조금씩 번지며 같은 농도로 바뀌는 현상 Diffusion Models DDPM 은 데이터와 일치하는 샘플을 생성하기 위해 variational inference를 통해 학습된 parameterized Markov chain이다. 학습 과정은 아래 그림처럼 샘플링 반대 방향으로 데이터에 가우시안 노이즈를 점진적..
-
-
[논문 리뷰] Attention-Based Lip Audio-Visual Synthesis for Talking Face Generation in the Wild (2022)Paper Review/Face 2022. 10. 14. 14:47
1. Introduction Talking Face Generation 분야에서 더 정확한 lip-sync를 맞추기 위해 attention 모듈을 추가한 AttnWav2Lip 모델을 제안하였다. 더 자세히는, spatial attention module과 channel attention module을 통합하여 얼굴 이미지에서 중요한 부분은 입술 영역 생성에 더 많은 관심을 기울이게 된다. 이렇게 Face Generation에서 attention 메커니즘을 도입한 첫 번째 논문이라고 한다. 기존의 Wav2Lip 모델은 네트워크 내에서 lip-sync를 위해서 연속 프레임에서 temporal context 정보를 사용한다. 또한, 생성된 비디오에서 적대적 학습을 할 수 있도록 사전 학습된 lip-sync d..
-
Talking head Generation Evaluation MeasuresPaper Review/Face 2022. 10. 6. 17:13
Tallking face generation task에서의 객관적인 지표에 대한 논문 모음 # GAN Evaluation Measures (2021) Pros and cons of GAN evaluation measures: New developments (2021) 이전에 나온 평가지표 survey 논문(2019) 업그레이드 버전이며, GAN과 관련된 생성 모델에 대한 평가지표를 정리한 논문이다. 이전 survey에서는 IS,FID 등 다양한 생성 모델링 작업의 평가 지표들에 설명했으며, 이번에는 새롭게 등장한 지표들에 대해 소개한다. 또한, 이렇게 새롭게 나온 지표들은 GAN 평가는 물론, 딥페이크 작업에도 연관될 수 있다. 이미지 수준의 시각적 품질 평가가 주를 이루기 때문에, source 데이터로..
-
[논문 리뷰] SyncNet - Out of time: automated lip sync in the wild (2016)Paper Review/Face 2022. 9. 28. 16:34
얼굴 생성 task에서 기존의 PSNR, SSIM 등의 영상 품질 평가 지표와는 다르게 Lip-Sync를 평가하는 프레임워크인 LSE-D, LES-C의 바탕이 된 SyncNet에 대한 논문이다. 해당 논문의 주요 기여점은 ConvNet 아키텍처와 오디오와 입 모양 사이의 공동 임베딩을 레이블링된 데이터 없이 TV 방송으로부터 학습할 수 있도록 하는 end-to-end 데이터 처리 파이프라인이다. 이 솔루션은 크게 3가지로 활용될 수 있으며 거의 100%에 근접한 성능을 보인다. Determining lip-sync error in videos Detecting the speaker in a scene with multiple faces Lip Reading 이전의 audio-video syncronisa..
-
Face Generative Model Metric - LSE-D, LSE-CPaper Review/Face 2022. 9. 28. 10:48
생성된 Talking face video에서 lip-sync의 성능 평가 지표 정리. 참고 : A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild (2020) 해당 참고 논문에서는 talking face 생성에서 reference 영상이나 음성의 길이, 수, 어휘 개수 등에 제한되지 않고 더 정확한 lip-sync를 맞추는 모델을 제안하며, 현재 해당 작업에 대해 판단할 수 있는 정확한 지표가 부족하여 새로운 평가 지표를 제안한다. 해당 논문에서 제안한 LSE-D, LSE-C에 대해 정리한다. 이전 lip-sync에 대한 평가 프레임워크에서의 문제점은 아래와 같다. 1. Does not reflect the real-wor..