이번 리뷰 논문은 Image Dehazing 분야에서 처음으로 real-world의 데이터 셋을 구성하여 챌린지(NTIRE 중 Dehazing 분야)를 개최한 NH-HAZE라는 데이터 셋에 다루고자 합니다. 해당 데이터 셋은 기존 연무를 발생한 데이터 셋들은 균일한 연무를 내포한 상황이라고 가정하여 데이터 셋을 취득하였으나, 실제 연무는 균일하게 분포되지 않은 경우가 많습니다. 그렇기에 해당 데이터 셋은 연무가 없는 상황과 실제 연무가 non-homogeneous(비균일)하게 분포된 영상 상으로 구성된 실사 데이터 셋 NH-HAZE를 제안하며, 55개의 야외 장면을 포함하고 있습니다. 이후 저희 팀에서 제작할 데이터 셋 구성과 유사한 형태의 데이터 셋을 제작할 예정이며, 해당 챌린지을 통해 제안된 솔루션을 통해 이후 개발할 알고리즘 개선에 있어 통찰을 얻고자 합니다.
Intro
Haze(연무)는 영상 품질에 크게 영향을 미치는 대기 현상으로 실내외 영상 기반의 어플리케이션 측면에서 성능을 크게 저하시키는 요소 중 하나입니다. 또한, 연무 입자의 밀도가 높을수록 대비와 색상 변화 측면에서 영상 품질을 크게 저하시키는 것이 특징입니다.
Image Dehazing은 연무에 영향을 받은 영상 정보를 복원하는 것을 목표로 하는 태스크 입니다. 초기 디헤이징 기법들은 대부분 흐린 영상과 흐리지 않은 영상 간의 통계적 특성을 포착하는 Koschmieder model을 이용하여 해결하는 방법과 같은 다양한 기법들이 제안되었지만 실질적인 성능에 대한 논란의 여지가 많았다고 합니다. 저자는 이러한 이유가 객관적이고 정량적인 성능 평가를 가능하게 하는 표준화된 벤치마크가 부족하기 때문에 발생한다고 합니다. 이는 연무가 포함된 영상과 연무가 없는 영상을 동시에 같은 시점에서 동일한 조건에서 촬영해야 하기 때문에 데이터 취득이 어렵기 때문이죠.
해당 데이터 셋 이전에 다양한 데이터 셋들이 제안되었지만 제안된 데이터 셋들은 연무가 전체 장면에 균일하게 분포되어 있다는 가정을 두고 있습니다. 하지만 실제 연무의 분포는 비균일한 특성을 가지고 있습니다. 그렇기에 저자가 제안하는 비균질적인 연무가 존재하는 데이터 셋의 존재가 Image Dehazing 분야에서 객관적인 평가를 수행하기 위해 중요할 것 이라고 주장합니다.
저자는 전문? 연무 생성기를 이용하여 비균일한 연무를 포함한 실제 연무 장면을 생성한 최초의 실제 이미지 디헤이징 데이터 셋 NH-HAZE를 제안하며 해당 데이터 셋은 야외에서 촬영한 55쌍의 영상을 포함하며, SOTA를 달성한 단일 이미지 디헤이징 기법들로 벤치마크를 보여줍니다.
Related works
- D-HAZE [1]: Middleburry 및 NYU-Depth V2 Datasets의 영상과 깊이 정보를 활영하여 Koschmieder model을 활영하여 가상의 안개를 발생시킨 데이터 셋
- O-HAZE [2]: 야외에서 촬영된 균일한 Haze and haze-free 영상 쌍으로 구성된 실제 데이터 셋
- I-HAZE [3]: 실내에서 촬영된 균일한 Haze and haze-free 영상 쌍으로 구성된 실제 데이터 셋
- DENSE-HAZE [4]: 야외에서 촬영된 균일하고 밀도가 높은 Haze and haze-free 영상 쌍으로 구성된 실제 데이터 셋
[1] C. Ancuti, C. O. Ancuti, and Christophe De Vleeschouwer. D-hazy: A dataset to evaluate quantitatively dehazing algorithms. IEEE ICIP, 2016. 3
[2] C. O. Ancuti, C. Ancuti, C. De Vleeschouwer, and R. Timofte. O-haze: a dehazing benchmark with real hazy and hazefree outdoor images. IEEE CVPR, NTIRE Workshop, 2018. 1, 3
[3] C. Ancuti, C. O. Ancuti, R. Timofte, and C. De Vleeschouwer. I-haze: a dehazing benchmark with real hazy and haze-free indoor images. International Conference on Advanced Concepts for Intelligent Vision Systems, 2018. 1, 3
[4] C. Ancuti, C. O. Ancuti, M. Sbert, and R. Timofte. DenseHaze: A benchmark for image dehazing with dense-haze and haze-free images. IEEE ICIP, 2019. 1, 3
Recording the NH-HAZE dataset
흐린 날의 야외 환경과 비슷한 조건으로 녹화해야 했기 때문에 가을 시즌 동안 두 달 이상에 걸쳐 녹화를 진행했다고 합니다. 기본적으로 모든 야외 장면은 흐린 날, 아침 또는 해질녘에 녹화했으며, 풍속도 고려하여 촬영이 진행되었습니다. 장면에서 안개가 빠르게 퍼지는 것을 제한하기 위해 촬영 중 바람은 2~3km/h 이하인 경우에 촬영을 진행하였다고 합니다.
장면을 녹화하는 데 사용된 하드웨어는 삼각대와 원격으로 제어되는 소니 A5000 카메라(소니 RM-VPR1)로 구성되었습니다. 24비트 심도로 5456×3632픽셀의 JPG 및 ARW(RAW) 이미지를 녹화했습니다. 각 장면 촬영은 카메라 설정을 수동으로 조정하여 진행되었으며, 안개가 없는 흐린 장면을 캡처할 때의 셔터 속도(노출 시간), 조리개(F-스톱), ISO 및 화이트 밸런스 파라미터를 기준으로 동일한 세팅 값으로 촬영을 진행했다고 합니다.
정밀한 카메라 매개 변수(조리개-노출-ISO)를 설정하기 위해 external exponometer(Sekonic)를 사용했고, 화이트 밸런스를 설정하기 위해 컬러 체커의 중간 회색 카드(18% 회색)를 사용했습니다. 이 단계에서는 카메라 화이트 밸런스 모드를 수동 모드로 변경하고 그 앞에 기준 회색 카드를 배치했습니다.
+ 여기서 말하는 회색 카드는 사진관에 가면 반사판이라고 생각하시면 됩니다. (너무 전문적이라… 부담스럽네요…)
야외 장면에 안개를 도입하기 위해 대기 중 안개 입자와 유사한 직경 크기(일반적으로 1~10마이크론)의 증기 입자를 생성하는 두 대의 전문 안개 머신(LSM1500 PRO 1500W)을 사용했습니다. 헤이즈 머신은 주조형 또는 플래튼형 알루미늄 열교환기를 사용하여 액체 증발을 유도합니다. 기준으로 잡은 20~30미터보다 더 먼 거리에서 물안개에서 발생하는 효과를 시뮬레이션하기 위해 밀도가 높은 특수액을 사용하여 연무를 발생합니다.
연무 생성에는 약 2~3분이 소요되며, 안개 생성을 시작한 후에는 팬을 사용해 카메라 앞 20~30미터에 걸쳐 안개가 균일하지 않게 분포되도록 장면에 안개를 퍼뜨렸습니다. 또한 야외에서 촬영한 장면마다 Macbeth color checker를 배치하여 포스트 프로세싱을 진행했습니다. 11×8.25인치 크기의 고전적인 Macbeth color checker와 4×6 그리드의 페인트 칠한 정사각형 샘플을 사용했습니다.
+ Macbeth color checker는 컬러 보정용 장비 입니다.
Evaluated Dehazing Techniques
저자는 제안한 데이터 셋을 이용하여 SOTA 모델들에 대한 평가를 진행합니다.
- He et.al 은 최초로 제안된 단일 이미지 디헤징 기법 중 하나이며 많은 방법론들이 해당 기법을 사용한다고 합니다. 해당 기법은 어두운 객체를 고려한 기법의 확장인 Dark Channel Prior(DCP)을 도입했습니다. 해당 기법은 실외 이미지 영역의 대부분이 컬러 채널 중 하나 이상에서 낮은 강도를 나타내는 픽셀을 가지고 있다는 가정을 기반으로 합니다. 해당 가정 중 예외되는 케이스들은 하늘과 안개가 있는 영역으로 표시됩니다. 원본 영상에서는 RGB 색 공간에 클러스터를 적용하여 주어진 클러스터의 픽셀이 로컬이 아니며 전체 이미지 평면에 분산되어 있다고 가정합니다. 따라서 흐릿한 영역의 픽셀의 색상 클러스터는 클러스터링 된 RGB 색상 공간과는 다른 공간에 분포될 가능성이 높아집니다. DCP를 통해 예외되는 케이스들에 대해 클러스터링된 RGB 색상 공간의 정보를 부여하여 헤이징을 수행합니다.
- Cai et al. 은 이미지 디헤징을 위한 최초의 딥러닝 방법 중 하나인 DehazeNet을 소개했습니다. DehazeNet은 translation map을 추정하는 CNN 기법입니다. 합성된 흐릿한 데이터 세트를 사용하여 흐릿한 부분을 흐릿하지 않은 부분으로 매핑하도록 학습됩니다.
- Zhang et al. 은 이미지의 흐림 제거를 위한 CNN 기반 접근 방식을 제시합니다. 이들은 UNet 구조의 인코더-디코더 구조를 가진 Perceptual Pyramid Deep Network를 제안합니다. 이 모델은 평균 제곱 오차와 perceptual losses을 조합하여 쌍을 이룬 데이터로부터 학습됩니다. 이 접근 방식은 IEEE CVPR NTIRE 2018 이미지 디헤징 챌린지의 우승작이라고 합니다.
- Liu et al.은 GridDehazeNet이라는 CNN 기반 방식을 제안합니다. 이 네트워크는 세 가지 주요 모듈로 구성됩니다. 첫 번째 모듈은 데이터를 전처리하여 더 나은 다양성과 더 적절한 특징을 가진 입력을 생성합니다. 두 번째 모듈인 backbone에서는 다양한 규모에 걸쳐 보다 효율적인 정보 교환을 가능하게 합니다. 마지막 모듈은 아티팩트 수준을 줄이기 위해 출력을 후처리합니다.
++ 뭔가 핵심적인 설명 빠진 것 같음… - 3C는 색상 스펙트럼 분포가 심하게 균일하지 않은 이미지의 색상 표현 측면에서 이미지 향상을 개선하기 위해 독창적인 일반 솔루션(3C- 컬러 채널 보정)을 도입했습니다. 이러한 불리한 조건에서는 적어도 하나의 색상 채널에 포함된 정보가 거의 완전히 손실되어 기존의 향상 기법에서 노이즈와 색상 이동이 발생할 수 있다는 가정을 기반으로 합니다. 3C는 상대 컬러 채널을 기반으로 손실된 채널을 재구성하는 전처리 방법으로 사용됩니다. 이 평가에서는 기존 DCP에 적용된 전처리 단계로 3C를 사용합니다.
++ 전처리 기법으로 조사가 필요함 - Ancuti et al.은 주간 및 야간 흐릿한 장면 모두에서 경쟁력 있는 결과를 제공하는 Image Dehazing 기법에 해당합니다. 해당 기법은 일반적으로 여러 개의 국부적인 인공 광원으로 인해 빛의 분포가 균일하지 않은 야간 조건에 효과적으로 대처할 수 있는 새로운 local airlight estimation을 기반으로 합니다. 여러 패치 크기가 여러 이미지를 생성하는 것으로 간주됩니다. 이렇게 도출된 이미지는 여러 가중치 맵에 따라 다중 스케일 융합 전략을 기반으로 병합됩니다.
++ 해당 분야에서는 airlight라는 키워드가 자주 언급됨. 해당 키워드에 대한 고찰이 필요해 보임
Results and Discussion
+ 데이터 셋은 45:5:5=train:val:test로 구성되어 있다고 합니다. 또한 지도 학습을 목적으로 제안된 데이터 셋으로 보입니다.
fig 3에서는 NH-HAZE 데이터 세트의 여러 장면에 대한 디테일 정성적인 비교를 할 수 있는 결과물을 볼 수 있습니다. 먼저, DCP가 이미지 구조를 상당히 잘 복구하지만 장면의 다양한 흐릿한 레이어를 제거하면서 색상 이동 아티팩트를 증폭시키는 것을 관찰할 수 있습니다. 그러나 전처리 단계로 3C (3C + DCP)를 사용하면 원래 DCP에서 발생하는 색상 이동이 크게 줄어들고 비균질한 흐릿한 장면에서 시각적으로 만족스러운 결과를 생성한다는 것을 보여줍니다.
로컬하게 airlight를 추정하는 Ancuti et al.의 방법은 높은 콘트라스트와 선명한 색상을 생성하지만, 이 이미지 세트에 약간의 노란빛이 도는 색상 이동을 유발하는 경향이 있습니다. Cai et al.과 Liu et al의 CNN 기반 기법은 영상 전반이 균일하게 흐릿하다는 가정을 가진 전략으로 인해 흐린 영역의 대비를 복원하는 데 한계가 있습니다. 반면에 Zhang et al.의 CNN 방법은 장면의 헤이즈 변화를 더 잘 처리하는 것을 토대로 우리는 CNN 기반 방법이 큰 잠재력을 가지고 있으며 일반적으로 다른 기술 대비 보다 나은 발전을 보일 것으로 기대한다고 이야기 합니다..비 CNN 기법은 CNN 기반 기법에 비해 색상 왜곡이 더 심하며 일반적으로 결과물이 부자연스럽게 보이는 경향이 있습니다. 색상 이동 외에도 구조적 아티팩트와 초기 노이즈를 증폭시키는 경향이 있습니다.
또한 저자는 연무가 없는 영상을 기반으로 객관적인 정량적 평가를 수행합니다. tab 1은 fig 2에 표시된 이미지에 대해 다양한 디헤징 기법의 결과물을 PSNR 및 SSIM에 기반한 실사(헤이즈 없는) 이미지와 비교한 것입니다. Structural Similarity index(SSIM)는 휘도 및 콘트라스트에 대해 정규화된 픽셀 강도의 로컬 패턴을 비교하여 측정합니다. SSIM의 범위는 [-1,1]이며, 두 개의 동일한 이미지에 대해 최대값은 1입니다. tab 2에는 NH-HAZE 데이터 세트의 전체 55개 장면에 대한 평균 SSIM 및 PSNR 값이 나와 있습니다. 이 표를 통해 구조 및 색상 복원 측면에서 Zhang et al과 Ancuti et al의 방법이 SSIM 및 PSNR 측정값을 고려할 때 평균적으로 가장 우수한 성능을 보이며, 정성적인 결과 또한 시각적인 측면과 색감적인 측면에서 다른 방법론 대비 좋은 결과를 보여주고 있습니다.
해당 논문 리뷰는 데이터 셋 제작 시에 참고하기 위한 기록용이 목적이기 한데… 데이터 셋 분석 측면에서의 내용이 별로 없어 아쉬운 점이 큰 것 같습니다. 또한 저자가 주장하는 비균일한 연무량의 필요성도 실제 세계가 그러니 당연한 것 아니냐는 주장이라… 조금 더 필요성에 대한 설득이 있었다면 좋았을텐데 아쉬움이 큰 것 같습니다.
해당 논문을 통해 연무 발생기를 통해 취득한 리얼 데이터가 학술적 가치를 인정 받을 수 있다는 것을 확인하였으니, 좀 더 빠르게 진행하고자 합니다.