Paper Review/Computer Vision
-
[논문 리뷰] Slicing Aided Hyper Inference and Fine-tuning for Small Object Detection (2022 ICIP)Paper Review/Computer Vision 2023. 9. 5. 12:51
Abstract 높은 성능의 Object Detection 모델이 제안되고 있는 최근, 멀리 떨어진 작은 객체를 감지하는 것은 주요 challenge 중 하나이다. 작은 객체는 적은 수의 픽셀로 표현되고 충분한 세부 정보를 얻기 어렵기 때문에 기존 탐지 모델로는 높은 성능을 보이기 어렵다. 기존 모델들로 작은 객체 탐지가 어려운 이유에는 CNN 자체의 제한적인 Receptive field, 학습된 객체의 다양한 스케일 변화, 대형 벤치마크 데이터셋의 객체 스케일의 편향 등이 있다. 본 연구는 이러한 작은 객체 탐지를 위해 Slicing Aided Inference와 fine-tuning pipeline을 결합한 SAHI (Slicing Aided Hyper Inference)라는 오픈소스 프레임워크를 제..
-
[논문 리뷰] Optimization for Arbitrary-Oriented Object Detection via Representation Invariance Loss (2021)Paper Review/Computer Vision 2022. 8. 9. 17:33
Abstract Rotation detector를 위한 연구이다. 이전 rotation detector들은 Oriented bounding box(OBB) 또는, Quadrilateral bounding box(QBB)를 사용한다. 하지만 rotating object들의 representation의 모호성 때문에 object를 정확히 잡기 어렵다. 이 논문에서는 rotating object에 대한 bounding box regression을 최적화하기 위한 Representation Invariance Loss(RIL)을 제안한다. 1. Introduction 보통 rotating detector들은 OBB나 QBB의 방법을 사용한다. 이들은 object의 representation의 모호성을 유발하며 ..
-
[논문 리뷰] DeepPose: Human Pose Estimation via Deep Neural NetworksPaper Review/Computer Vision 2022. 2. 7. 16:33
Abstract Convolutional Deep Neural Networks(DNN)을 기반으로 한 human pose 방법을 제안한다. Pose estimation은 body joint(신체 관절)에 대한 DNN 기반 회귀 문제로 해결한다. 이 접근 방식은 전체적인 방식으로 pose에 대해 추론할 수 있는 장점이 있으며 이를 단순하지만 강력하게 공식화했다. 1. Introduction 인체 관절의 localization 문제로 정의되는 human pose estimation 문제를 joint 회귀 문제로 공식화하고 DNN 네트워크에서 캐스팅하는 방법을 보여준다. 이 방법에는 두 가지 장점이 있다. 1. DNN은 각 신체 관절의 전체 context를 캡처할 수 있다. 각 joint regressor는 ..
-
[논문 리뷰] You Only Look Once: Unified, Real-Time Object DetectionPaper Review/Computer Vision 2022. 1. 28. 14:54
Abstract 이 논문에서는 object detection을 공간적으로 분리된 bounding box와 class 확률에 대한 회귀 문제로 설정한다. 단일 신경망을 사용하며 전체 이미지에서 직접 bounding box와 class 확률을 예측한다. 전체 파이프라인이 단일 네트워크이기 때문에 end-to-end로 최적화가 가능하다. 1. Introduction 이전의 detection은 객체를 감지하기 위해 이미지에서 region proposal 방법을 사용하여 bounding box를 생성한 다음 이 box에서 분류를 실행한다. 이후 fine tuning과 중복된 box들을 제거하는 과정을 실행하지만 각 구성요소들을 별도로 훈련시켜야 하기 때문에 속도가 느리고 최적화에 어려움을 겪는다. 이 논문에서는 ..
-
[논문 리뷰] Strong shadow removal of Text Document Images based on Background Estimation and Shading ScalePaper Review/Computer Vision 2022. 1. 11. 17:08
Abstract 이전의 텍스트 문서 이미지에서의 그림자 제거 방법들은 주로 약한 그림자 제거 문제에 초점을 둔다. 또한, 그림자의 경계를 제거하는데 완벽하지 못하다. 이러한 문제를 해결하기 위해 이 논문에서는 Background color estimation과 Shading scale을 사용한다. 먼저, Background color estimation은 주변 픽셀의 전파를 통한 여러 반복에 의해 설계된다. 다음으로, umbra(본영)와 penumbra(음영)는 연산에 의해 분리되고 분할-정복 strategy에 의해 처리된다. Umbra의 경우 그림자가 없는 결과를 얻기 위해 Shading scale이 사용되며, Penumbra의 경우 background replace strategy는 그림자 영역을 제..
-
[논문 리뷰] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal NetworksPaper Review/Computer Vision 2022. 1. 4. 17:57
R-CNN 계열 구조 비교 이전의 R-CNN 모델은 selective search를 통한 2000여 장의 region proposals을 CNN 모델에 넣어 학습시켜 연산량이 매우 많다. 이후 Fast R-CNN에서는 이 부분을 개선시켜 한 장의 이미지를 입력으로 받아 CNN 모델 이후 feature map에 selective search를 적용하고 분류를 위한 fc layer에서 ROI Pooling을 통해 개선했다. 하지만 이전과 마찬가지로 selective search 방법을 사용해 CNN과 별개로 수행된다. 이를 RPN과 Fast R-CNN을 결합한 Faster R-CNN을 통해 개선한다. Faster R-CNN: Towards Real-time Object Detection with Region..
-
[CAM] Class Activation MapPaper Review/Computer Vision 2021. 12. 29. 14:04
# CAM 기존의 CNN 모델은 이미지 내 feature를 통해 classfication을 수행한다. 하지만, CAM을 통해 출력의 결과를 시각화하여 실제 모델이 각 클래스 별로 이미지의 어떤 부분을 보고 classification을 수행했는지 알 수 있다. 이를 Class Activation Map, CAM 이라고 한다. 그림처럼 input의 어느 부분을 통해 분류를 했는지 파악할 수 있다. CAM을 사용하면 주어진 이미지에서 예측된 class score를 시각화하여 CNN이 탐지한 객체를 확인할 수 있다. # Model 기존의 CNN 과정에서 input의 위치 정보를 convolution 과정에서 활용하지만 fully-connected layer를 지나면서 결국 flatten 과정을 거치게 된다. 따..
-
[논문 리뷰] U-Net: Convolutional Networks for Biomedical Image SegmentationPaper Review/Computer Vision 2021. 12. 20. 11:31
1. Introduction classification을 위한 이전의 방법들(DCNN, sliding window를 사용한 IDSIA network)은 여러 문제가 있다. 이전에 검증한 부분을 다음 과정에서 다시 검증하는 중복이 많아 training 속도가 매우 느리다. localization과 context 사이가 trade off 관계이다. U-Net은 적은 데이터를 가지고 정확한 biomedical segmentation을 목적으로 제안된 End-to-End 방식의 Fully-Convolutional Network 기반의 모델이다. 네트워크 구조가 U자 형태이며 이미지의 전반적인 컨텍스트 정보를 얻기 위한 네트워크와 정확한 localization을 위한 네트워크가 대칭 형태로 구성되어 있다. U-N..