ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [논문 리뷰] Strong shadow removal of Text Document Images based on Background Estimation and Shading Scale
    Paper Review/Computer Vision 2022. 1. 11. 17:08

    Abstract 

     이전의 텍스트 문서 이미지에서의 그림자 제거 방법들은 주로 약한 그림자 제거 문제에 초점을 둔다. 또한, 그림자의 경계를 제거하는데 완벽하지 못하다. 이러한 문제를 해결하기 위해 이 논문에서는 Background color estimation과 Shading scale을 사용한다. 

     먼저, Background color estimation은 주변 픽셀의 전파를 통한 여러 반복에 의해 설계된다. 다음으로, umbra(본영)와 penumbra(음영)는 연산에 의해 분리되고 분할-정복 strategy에 의해 처리된다.

    Umbra의 경우 그림자가 없는 결과를 얻기 위해 Shading scale이 사용되며, Penumbra의 경우 background replace strategy는 그림자 영역을 제거하기 위해 사용된다. 

     

    1. Introduction 

     이 논문에서는 텍스트 문서 이미지에서의 강한 그림자 제거에 중점을 둔다. 또한, 이미지의 색상이 균일하고 텍스트만 포함된다고 가정한다. 크게 2가지의 전략을 사용한다. 

     

    1. Background Estimation strategy를 통해 background color image를 얻고 umbra와 penumbra을 분리
    2. Background replace strategy를 이용한 penumbra 제거

    2. The propsed method

    이 방법은 세 가지 부분을 통해 구성된다. 

     

    1. Background estimation(그림 b), umbra와 penumbra의 분리 과정(그림 c) 
    2. Umbra 제거 과정(그림 d) 
    3. Umbra 제거 결과에 기반하여 Penumbra 제거 과정 

    마지막으로, reference background image(그림 f)와 binary image(그림 h)의 결합으로 최종 출력(그림 i)을 생성한다. 

    2.1 Background Estimation 

     텍스트 문서 이미지의 특성 상 텍스트는 항상 검은색, 배경은 흰색이다. 텍스트에 속하는 픽셀의 경우 배경색을 주변 정보를 통해 추정할 수 있다. 이 과정은 background propagation 과정으로 간주될 수 있다. 

     

     RGB 채널이 있는 이미지의 경우, 각 채널을 처리하여 background color(bright) image를 얻는다. 

    S는 인접 크기(ex. 3 x 3)를 나타낸다. Vmax(x,y)와 Vmin(x,y)은 local maximum, local minimum 값을 의미하고 이 값들은 fusion factor a 를 구하는데 사용한다. a는 extreme noise를 제거하는데 사용된다.

    L(x,y)는 예측한 배경색이며 텍스트를 완벽히 제외하기 위해 여러번의 반복 작업을 거친다. 3 x 3 크기에 3번의 반복 작업을 거치면 충분하다. 얻은 이미지를 통해 non-shadow 영역의 평균 배경색을 계산하여 reference background image(그림 f)를 도출할 수 있다. 

     예측된 background color image(그림 b)는 shading map으로써 어두운 부분과 밝은 부분으로 shadow, non-shadow 영역으로 나눌 수 있기 때문에 umbra와 penumbra를 분리하는데 사용된다. 

    2.2 Seperate Umbra and Penumbra 

    Umbra와 penumbra를 분리시키기 위해 3가지의 전처리 과정을 수행한다. 

     

    1. 컬러 이미지를 회색 이미지로 변환
    2. Medium filtering
    3. Binarization 

     먼저, 복잡한 컬러 이미지를 쉽게 분리하기 위해 회색 이미지로 만드는 gray scaling을 수행한다. Medium filtering은 중앙값 필터링으로서 해당 픽셀 주변에 있는 이웃 픽셀 값의 평균으로 출력 값을 설정한다. 이후, 필터링한 값을 기반으로 binarization 처리를 통해 umbra를 분리해낼 수 있다.

     여러 dilation 작업을 통해 shadow mask를 생성한다. 빨간색으로 표시된 penumbra를 분리시키기 위해 shadow mask에서 umbra 영역를 뺀다. 

    2.3 Umbra removal using shadow scale strategy

     Umbra 영역을 제거하고 다시 밝게 하기 위해서, shadow scale strategy를 이용한다.

     먼저, umbra 영역을 제거한다. umbra 영역은 non-shadow 영역의 shading scale r(x,y)을 통해 제거 할 수 있다. 전체 background color image estimation인 L(x,y)에 대한 G의 비율로 r(x,y)를 구할 수 있다. 

     이후, 각 umbra 영역의 point에 대해, shadow 픽셀의 강도와 shading scale의 곱으로 다시 밝게 할 수 있다. RGB 이미지에 대한 3개의 채널이 각각 계산된다. 

     Vu(x,y)는 (x,y)의 위치에서 다시 밝아진 umbra로 정의된다. 

    2.4 Penumbra removal using background replace strategy 

     Penumbra는 umbra 제거의 결과를 기반으로 한다. 그림 (d)에서 penumbra는 non-shadow와 umbra 사이의 부분이다. 

     Penumbra 제거를 위해 먼저 background color image(그림 e)를 추정한다.

     Penumbra 영역에는 텍스트와 비텍스트가 포함되어 있고 binarization 작업을 통해 구분할 수 있다. 그 다음에, background color image를 사용해서 비텍스트인 부분을 대체하고 penumbra가 제거된 결과물(그림 g)을 얻는다.   

     일부 경계부분이 남아있지만 선명해지도록 binarization 작업을 통해 binary image를 생성한다. 이후, binary image와 이전의 reference background image를 결합하여 경계부분도 제거된 이미지를 생성한다.

    3. Experimental results

     제안된 방법과 최근의 접근법들과 비교한다. 텍스트 문서 이미지의 데이터 세트가 거의 없기 때문에 인터넷에서 수집된 일부 이미지에 대해 수행하였으며 테스트 이미지는 그림자가 강한 경우이다. 또한 ground truth가 부족하기 때문에 시각적 인식을 직관적인 평가 지표로 사용하였다.

     실행 속도 측면에서 [2], [12]를 능가한다. 하지만 background estimate 단계에서 시간이 더 많이 걸리기 때문에 [13]보다 더 느리게 실행된다. 

     

     이 논문의 방법은 그림자를 잘 제거할 수 있지만 shadow 영역과 non-shadow 영역 사이에 텍스트의 강도 차이가 있다. 모든 텍스트를 비슷한 강도로 유지하기 위한 연구가 필요하다.

    4. Conclusion 

     Background estimation과 Retinex theory에 기반하여 다음 과정을 거쳐 텍스트 문서 이미지에서 강한 그림자를 제거하는 방법을 제안한다.  

     

    1. Umbra와 Penumbra가 분할-정복 방식으로 분리되고 처리된다. 
    2. Umbra는 shading scale을 통해 향상된다. 
    3. 얻은 umbra 제거 결과를 사용하여 추정된 배경을 이용하여 penumbra의 비텍스트 포인트를 대체한다. 
    4. unshadowed 이미지는 global reference background image와 text binary image를 결합하여 생성된다. 

    ** Retinex theory : 인간의 감각계가 느끼는 물체의 밝기나 색채는 물체 표면에서 반사되어 망막에 입사된 빛의 강도나 분광 분포와 반드시 대응한다는 이론.

     

     

     

     

    논문
    https://ieeexplore.ieee.org/document/9336942

     

Designed by Tistory.