[논문 리뷰] Slicing Aided Hyper Inference and Fine-tuning for Small Object Detection (2022 ICIP)

Paper Review/Computer Vision 2023. 9. 5. 12:51

Abstract

높은 성능의 Object Detection 모델이 제안되고 있는 최근, 멀리 떨어진 작은 객체를 감지하는 것은 주요 challenge 중 하나이다. 작은 객체는 적은 수의 픽셀로 표현되고 충분한 세부 정보를 얻기 어렵기 때문에 기존 탐지 모델로는 높은 성능을 보이기 어렵다. 기존 모델들로 작은 객체 탐지가 어려운 이유에는 CNN 자체의 제한적인 Receptive field, 학습된 객체의 다양한 스케일 변화, 대형 벤치마크 데이터셋의 객체 스케일의 편향 등이 있다.

본 연구는 이러한 작은 객체 탐지를 위해 Slicing Aided Inference와 fine-tuning pipeline을 결합한 SAHI (Slicing Aided Hyper Inference)라는 오픈소스 프레임워크를 제안한다. 해당 방법은 각 모델 별로 추가적인 fine-tuning 이 필요없는 효율적인 Inference 방법으로 볼 수 있다.

2. Method

이러한 작은 객체 탐지 문제를 해결하기 위해 fine-tuning 및 inference 단계에서 image slicing에 기초한 프레임워크를 제안한다. 제안하는 방법은 입력 이미지를 패치로 나누면 네트워크에 입력되는 이미지와 관련하여 작은 객체의 픽셀 영역이 상대적으로 더 커질 수 있는 특징을 기반으로 한다.

2.1. Slicing Aided Fine-tuning (SF)

Detectron2, MMDetection, YOLOv5와 같은 객체 탐지 프레임워크는 대형 데이터셋에 사전 학습된 가중치를 제공한다.

이러한 사전학습 모델을 통해 원하는 데이터셋에 대한 fine-tuning 시간을 단축할 수 있다. 이러한 모델은 학습 데이터셋과 유사한 입력 이미지에 대해 높은 탐지 성능을 보이지만, 이에 비해 항공, 드론 이미지 등 고해상도 이미지에서 작은 객체에 대한 정확도는 매우 낮다.

따라서, 본 연구에서는 위 그림과 같이 이미지 fine-tuning 데이터셋에서 이미지 별 패치를 추출하여 augmentation을 수행한다. 각 이미지는 미리 정의된 크기 M, N 의 중첩된 패치로 분할된다. Fine-tuning 중 각 패치는 가로 세로 비율을 유지하며 크기가 조정된다. 이러한 조정된 이미지는 기존 이미지에 비해 객체의 상대적 크기를 증가시키는 것을 목표로 하는 확대된 이미지로 활용된다. 따라서, 조정된 이미지와 기존 이미지를 함께 사용하여 fine-tuning을 수행한다.

2.2. Slicing Aided Hyper Inference (SAHI)

위 그림과 같이 Inference 과정에서도 slicing 기반의 방법을 사용한다. 먼저, M x N 크기의 중첩된 패치로 원본 이미지를 분할하고 각 패치는 종횡비를 유지하며 크기가 조정된다. 이렇게 조정된 패치에 대해 Inference가 수행된다.

또한, 원본 이미지를 사용하여 기존 모델의 full inference도 함께 수행한다. 이를 통해 큰 객체에 대한 탐지도 성공적으로 수행할 수 있다. 마지막으로, 조정된 이미지에 대한 inference와 원본 이미지에 대한 inference의 예측 값이 중첩되는 경우, NMS(Non-Maximum Suppression)를 사용하여 원래 이미지 크기로 다시 병합한다. 여기서 IoU 비율의 임계값으로 신뢰도가 낮은 객체는 탈락한다.

3. Experiments Results

제안된 방법은 실험 평가를 위해 MMDetection 프레임워크를 사용하여 FCOS, VarifocalNet, TOOD의 object detector에 통합시켜 수행하였다.

VisDrone2019-Detection는 드론이 서로 다른 위치와 높이에서 포착한 8599개의 이미지를 가진 객체 검출 데이터셋이며, 대부분의 객체는 작고, 촘촘하게 분포되어 있으며, 부분적으로 가려져 있다. xView는 위성 이미지에서 객체 탐지를 위해 공개된 벤치마크 데이터셋이다. 두 데이터셋 모두 작은 객체(객체 너비가 영상 너비의 1% 미만)를 포함한다.

정성적 결과를 통해서도 SAHI inference 방식의 높은 효율을 확인할 수 있다.

오픈 소스 프레임워크로 소스코드가 공개되어있으며 실제 프로젝트에 적용해본 결과, 굉장히 높은 성능 향상을 보일 수 있었다. 하지만, 실시간 탐지가 가능한 모델에 활용할 경우, 아직까지 실시간 inference가 불가능한 것 같다.

'Paper Review > Computer Vision' 카테고리의 다른 글

[논문 리뷰] Optimization for Arbitrary-Oriented Object Detection via Representation Invariance Loss (2021) (0)	2022.08.09
[논문 리뷰] DeepPose: Human Pose Estimation via Deep Neural Networks (0)	2022.02.07
[논문 리뷰] You Only Look Once: Unified, Real-Time Object Detection (0)	2022.01.28
[논문 리뷰] Strong shadow removal of Text Document Images based on Background Estimation and Shading Scale (0)	2022.01.11
[논문 리뷰] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks (0)	2022.01.04

ABOUT ME

tkdrnjss tkdrnjss

Abstract

2. Method

2.1. Slicing Aided Fine-tuning (SF)

2.2. Slicing Aided Hyper Inference (SAHI)

3. Experiments Results

'Paper Review > Computer Vision' 카테고리의 다른 글

티스토리툴바

ABOUT ME

Abstract

2. Method

2.1. Slicing Aided Fine-tuning (SF)

2.2. Slicing Aided Hyper Inference (SAHI)

3. Experiments Results

'Paper Review > Computer Vision' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바