-
[논문 리뷰] Optimization for Arbitrary-Oriented Object Detection via Representation Invariance Loss (2021)Paper Review/Computer Vision 2022. 8. 9. 17:33
Abstract
Rotation detector를 위한 연구이다. 이전 rotation detector들은 Oriented bounding box(OBB) 또는, Quadrilateral bounding box(QBB)를 사용한다. 하지만 rotating object들의 representation의 모호성 때문에 object를 정확히 잡기 어렵다. 이 논문에서는 rotating object에 대한 bounding box regression을 최적화하기 위한 Representation Invariance Loss(RIL)을 제안한다.
1. Introduction
보통 rotating detector들은 OBB나 QBB의 방법을 사용한다. 이들은 object의 representation의 모호성을 유발하며 다양한 형태로 object를 탐지한다. 이 방법에서 grount-truth object g의 representation 공간을 Ω(g) = {g0, g1, g2, ...} 로 표현하게 된다. 모델이 이상적일 경우 Ω(g)의 모든 representation이 회귀 과정에서 동등한 local optimal solution이 된다. 하지만, 이전 detector들은 ground-truth에 가까운 값(ex. g0)에만 수렴하게 되며 나머지 g_i 에서는 회귀 loss의 급격한 증가를 보이게 된다. 이러한 잘못된 loss 지표는 예측을 잘 해낼 수 없게 된다.
- 논문에서는 이러한 OBB와 QBB의 문제점을 더욱 자세히 설명한다.
이 논문에서 제안하는 RIL로 학습된 rotation detector는 모호한 representation을 회귀 loss의 동등한 local 최솟값으로 취급한다. 이 최솟값은 GT representation에 의해 정의된 고유 최솟값보다 수렴에 용이하다. 주요 기여점은 아래와 같다.
- Arbitrary oriented object detection에서 representation의 모호성을 확인하고 회귀 최적화 관점에서 multiple representation에 대한 문제를 분석한다.
- Bounding box 회귀에서 최적을 위해 RIL을 제안한다. 모호한 representation으로 인한 loss와 localization 성능 간의 차이를 해결하고 local 최솟값을 활용하여 성능을 개선한다.
- RIL은 기존 방식에 쉽게 적용될 수 있으며 실험을 통해 우수성을 증명한다.
3. Representation Invariand Detector
Cas-RetinaNet을 baseline으로 잡고 RIL을 추가하고 RIDet(Representation Invariant Detector)을 구축한다.
3.1. Cas-RetinaNet for Oriented Object Detection
Cas-RetinaNet은 수평적으로 사전 설정된 anchor들을 사용하여, O-ARM(Oriented Anchor Refinement Module)을 통해 학습 샘플들을 얻는다. 또한, 다중 스케일 feature을 추출하기 위해 FPN이 적용된다.
Cas-RetinaNet은 세가지 파트를 통해 training loss을 구한다.
1) classification loss , 2) anchor refining loss, 3) bounding box regression loss
FL은 focal loss 로써 분류 task에 해당하며 L_ref는 anchor refining 과정에 해당한다. p*와 t*는 세 가지 task를 위한 ground-truth label을 의미하며, p,t,b는 각각의 예측값에 해당한다. N은 학습 샘플의 수, N_p1과 N_p2는 O-RAM 과정과 detection stage에서의 positive의 수를 의미한다. L_RI는 RIL값을 의미하며 다음장에 설명한다.
3.2. Quadrilateral Regression as Point Assignment
작성중..
'Paper Review > Computer Vision' 카테고리의 다른 글