Jaejun Yoo, Namhyuk Ahn , Kyung-Ah Sohn
저번주 리뷰:[ http://server.rcv.sejong.ac.kr:8080/wp-admin/post.php?post=5370&action=edit ]
[들어가는 글]
안녕하세요 제가 이번에 개인 프로젝트로 ocr을 진행하게 되어 이와 관련된 분야에 관심이 생겨 논문을 선택하여 읽어보고 있습니다.
제가 구상하고 있는 프로젝트의 구조에 관해 간략히 보여드리겠습니다.
여기서 이미지에서 텍스트를 뽑는 알고리즘은 저번 주에 보았던 논문을 참고할 예정이고 오늘은 저해상도를 고해상도로 맵핑하는 알고리즘에 관해 알아보고자 위 논문을 택했습니다.
[논문 리딩을 위한 사전지식]
우선 image super resolution에 대해 알아 보도록 하겠습니다.
Image Super Resolution(이하 SR)은 저해상도(Low Resolution) 이미지를 고해상도 이미지(High Resolution) 이미지로 변환시키는 문제를 의미합니다. 이미지 SR은 크게 하나의 이미지를 이용하는지, 여러 이미지를 이용하는지에 따라 Single Image Super Resolution(이하, SISR), Multi Image Super Resolution(이하, MISR)로 나뉘는데 주로 SISR에 대한 연구가 주를 이루고 있습니다.
Super Resolution은 저해상도 이미지를 고해상도로 복원을 해야 하는데, 복원해야 하는 타겟인 고해상도의 이미지가 정답이 여러 개 존재할 수 있습니다. 정확히 말하면 유일한 정답이 존재하지 않는, 정의할 수 없는 문제를 의미합니다. 이러한 경우를 Regular Inverse Problem 혹은 Ill-Posed Problem이라 부릅니다.
이러한 어려움을 타개하기 위해 대부분 위의 그림과 같은 framework를 따라서 연구를 수행하고 있습니다. 우선 고해상도의 타겟 이미지를 Ground Truth(GT)로 정의하고, 이를 Low Resolution image로 만들기 위해 blurring, down sampling, noise 주입 등을 거쳐 저해상도 이미지로 만듭니다. 그 뒤 모종의 방법을 통해 저해상도 이미지를 GT로 복원시키도록 모델을 학습시키는 구조를 따릅니다. 이러한 점이 Single Image Super Resolution의 근본적인 한계이며, 저해상도 이미지를 만들 때 사용한 distortion, down sapling 기법이 무엇이었는지에 따라 Super Resolution의 성능이 달라질 수 있습니다.
[논문 리딩]
위 논문에서 제가 요약하고 싶은 내용을 한줄로 표현하자면,
“위 논문에서 제안하는 CutBlur란 저해상도를 고해상도로 맵핑하는 모델을 효과적으로 학습시키위한 (저해상도->고해상도,고해상도->저해상도) 이미지 쌍을 생성하는 알고리즘입니다 “
data augmentation(이하 DA) 방법의 핵심 아이디어는 부분적으로 training data를 block하거나 confuse함으로써 모델이 좀 더 generalization power를 갖게끔 하는 것입니다.
high-level task와 달리 low-level task에선 local 픽셀과 global 픽셀의 위치 관계가 굉장히 중요한데 기존의 cutout,mixup과 같은 spatial information 을 잃어버리는 DA는 이런 관계를 보존하지 못해 모델의 이미지 복원 능력은 제한합니다.
하지만 CutBlur는 위 사진과 같이 고해상도 이미지를 input으로 넣어주고 일부분을 ratio만큼 random하게 cut&paste해줌으로써 모델이 “how” 그리고 “where” to super-resolve 해야할지 학습할 수 있게 됩니다.
알고리즘은 다음과 같이 단순합니다.(s는 bicubic을 몇번 진행할 것인지)
Why CutBlur works for SR?
unrealistic patern을 만들지 않고,information 손실도 없어서 효과적으로 regularize해주는 역할을 하기 때문입니다.
What does the model learn with CutBlur?
over-confidently decision,over-sharpening image를 방지하고 only neccessary한 부분만 super-resolve할 수 있도록 도와줍니다.
[마무리]
We achieve the SOTA performance (RCAN [40])
이분야에서 최고의 방법이지만 제가 적용하려는 부분에서 과연 글씨를 원하는 만큼 고해상도로 맵핑해 줄 지는 해봐야 알 것 같습니다….
읽어주셔서 감사합니다. 마음껏 지적해주시면 감사히 공부하도록 하겠습니다.