[ICRA 2019] SuperDepth: Self-Supervised, Super-Resolved Monocular Depth Estimation

[그림 1] Super Resolution을 하면서 진행하는 SuperDepth 정성적인 결과

기존 CNN 기반의 Depth Estimation들의 경우 원래 영상 대비 매우 작은 Disparity를 추정하고 있는 상황이다. 고화질의 Disparity는 자율 주행 시스템이 필요하므로 CNN을 이용한 Super resolution Depth Estimation 방법론을 이 논문에서 제안한다.

Super resolution Depth Estimation을 위한 방법론에서 이 논문에서 제안하는 key contribution은 다음과 같다.

  1. Subpixel-convolution을 이용해 큰 scale의 Disparity를 생성할 수 있도록 한다.
  2. differentiable flip-augmentation layer 를 사용해 영상의 경계에서의 문제를 학습하여 해결 할 수 있도록 하는 방법을 제안한다.
[그림2]SuperDepth 의 전체 파이프라인

그림 2 와 같이 SuperDepth는 Monodepth 의 Left-Right consistency를 사용하는 파이프라인이 아닌 network에서 하나의 Disparity를 Predict하는 방식을 사용한다.

[그림 3]DispNet에 Contribution 적용한 결과
  1. Subpixel-convolution
[그림 4] Subpixel Convolution의 방법

기존 SuperResolution에서 제안된 방법론 인 Subpixel convolution은 upconvolution 시에 pixel 정보를 보완하는 convolution을 추가하는 것 이다 이것을 통해서 Disparity가 큰 scale 에서 또한 좋은 성능을 낼 수 있게 한다.

2. differentiable flip-augmentation layer

[그림 5] Disparity 후 보정

monodepth 1 과 2 의 경우 그림 5와 같이 disparity의 가장자리를 보완해주는 처리가 필요하다. 이런 과정의 경우 model을 사용한 과정 외의 과정이므로 시간소요가 좀더 큰 편이다. 따라서 이 과정 또한 모델 inference에서 처리하도록 한 differentiable flip-augmentation layer 을 논문에서 제안했다.

[그림 6] Spatial Transfer Network

그림 6의 Spartial Transfer Network에서 제안한 영상 보정을 사용해서 일그러진 Disparity를 보정하는 것 같다.

결론

[표 1 ] scale이 달라짐에 따른 성능 변화

스케일이 커짐에 따라서 성능이 올라간다는 것을 보이는 표이다. 세미나에서 말한 것처럼 이것이 공평한 성능 평가인지에 대한 의문이 있다.

[표 2] 기존 방법론들과 성능 비교

기존 SOTA 인 depth estimation 방법론과 비교했을때 성능 차이를 나타낸 표이다. 보면 이 성능 비교 또한 공평한 성능을 나타낸 것 같지는 않아 아쉬움이있다.

결론

이 논문은 Subpixel convolution을 Depth estimation에 적용하여 큰 스케일의 Depth Estimation을 가능하게 만들었고, 휴리스틱했던 Disparity 후보정을 CNN으로 학습가능하게 만들었다.

[표 3] Monodepth2 성능표

이 논문을 보고 Monodepth2 저자가 짜증났는지 Resoluution을 올려 성능을 측정해서 Super Depth와 비교한 후 자신이 더 낫다는 것을 표 3에서 증명했다 ㅋㅋ

Author: 한 대찬

4 thoughts on “[ICRA 2019] SuperDepth: Self-Supervised, Super-Resolved Monocular Depth Estimation

  1. 흠… x-review올라온 글이 이거밖에 없는데 사실 내용이 이해가 잘 안가네요. 항상 depth estimation하고 disparity가 나오면 이해가 안가는거 같은데 해당 내용들중 가장 나이브한 논문을 추천해주실수 있나요?

    1. 신정민 연구원글도 있었네요 뒤늦게 발견 했습니다. 댓글수정이 안되서 대댓글로 달아두어요.

  2. 리뷰 감사합니다!
    SuperResolution이 영상 해상도를 개선하는 방법인가요?
    subpixel convolution이 영상 해상도를 개선하는 방법을 이용하여 Disparity를 개선한것이라면
    주변 정보를 이용해서 블랍(빈 정보)을 제거하기 위한 용도인가요?

    두번째로 그림2에 Left-Right consistency 방법이 아니라고 하셨는데 그림에 첨자 s와 t는 무엇인가요?

  3. 그림 6 Spartial Transfer Network는 어디에 적용되는 건가요?
    흐름 상 그림 5 Disparity 후 보정에 적용된 방법론 같습니다만, 기회가 된다면 해당 부분에 대해 추가적인 설명도 해주셨으면 합니다.

    [표 2] 기존 방법론들과 성능 비교에서 SP, FA에 대한 정보도 같이 적어주시면 리뷰를 이해하는데 큰 도움이 될 것 같습니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다