[3DV] Multi-Spectral Visual Odometry without Explicit Stereo Matching

해당 논문은 제목대로 Multi-Spectral sensor. 즉, 서로 다른 도메인인 RGB-LWIR을 이용한 Stereo visual odometry를 제안한 논문입니다. 이전에도 제안된 Multi-Spectral VO들도 있었습니다. 하지만 해당 방법은 서로 다른 도메인간의 매칭을 통해 pose estimation을 하는 방법이 아닌 각 도메인의 temporal frame으로부터 stereo matching을 수행하는 방법을 사용합니다.

Motive

해당 방법론은 서로 다른 도메인을 직접 매칭하지 않고 각 도메인의 temporal한 매칭을 사용했을까요?
그 이유는 Fig 1-red을 보면 알 수 있습니다. RGB와 LWIR은 각각 볼 수 있는 특징이 명확하게 다릅니다. 2번 선인 경우 LWIR에서는 RGB의 texture 정보를 확인 할 수 없으며, 3번 선의 경우 비닐로 발생한 손의 occlusion을 LWIR에서는 감지가 가능하지만 RGB에서는 손을 볼 수 없는 것을 볼 수 있습니다.
반면에 Fig1-green들은 RGB와 LWIR에서 모두 감지가 가능하기에 Stereo matching이 가능합니다.
저자는 이러한 한계로 Multi-Spectral VO는 한계를 가질 수 밖에 없다고 주장합니다.

Method

저자가 주장하는 방법은 간단합니다.
기본적인 베이스는 Direct Sparse Odomety(DSO)[?]의 방법을 사용합니다.

각 도메인간 temporal한 frame으로부터 gradient가 임정 임계값을 넘긴 points를 선정합니다.
우선 주축이 될 도메인으로부터 depth d를 추정합니다. 해당 방법론에서는 RGB를 사용하여 depth d를 추정했습니다.
Static camera(Lwir)에서 얻은 matching point와 RGB에서의 matching point를 2에서 얻은 depth d를 이용하여 각각의 photometric error를 구하고 더해 error 값을 최소화 하는 파라미터를 획득합니다.
* photometric error를 최소화 하는 파라미터 : Camera pose T, Depth d, affine parameter a, b

++ DSO는 Mono 방식을 사용하며, 센서로부터 얻은 pixel 값으로부터 ‘Direct’ 하게 photometric error를 이용하는 Direct method를 특정 pixel만을 사용하는 sparse에 적용하는 것을 제안한 방법론입니다.
++ DSO 이전 방법들에서는 Direct method는 대부분의 픽셀을 사용하는 Dense에서 사용되는 것이 일반적이였다고 합니다.
++ DSO에 대해서는 다음 리뷰에서 소개해보도록 하겠습니다.

Experiment

RGB 영상에서는 감지 못하던 컵을 LWIR의 온도로 감지한 모습을 확인 가능. 이를 통해 해당 방법론이 motive에서 이야기한 Multi-Spectral VO 한계를 극복했다고 볼 수 있다한다.

위의 실험 결과에서 재밌는 부분이 있다. 사용된 데이터셋은 해당 방법에서 제안된 데이터 셋이며, 실내 환경과 실외 환경을 촬영하였고, 실외일 경우 해질녁에 촬영을 진행하였다고 한다.
위의 x 표시들은 initialized를 실패하여 애초에 측정을 못한 경우 이다. 근데 DSO에서는 RGB와 Thermal에서 결과 도출을 하였고, RGB인 경우 제안된 방법과 유사한 성능 혹은 더 나은 성능을 보여주기도 한다.

해당 방법에서 사용된 데이터 셋의 예시는 Fig 12와 같다. 해당 논문에서 아쉬운 점은 motive에서 말한 Multi-Spectral VO의 한계를 극복하기 위한 방법을 제안한 논문이지만, 실제로는 RGB를 베이스로 LWIR의 값을 참고한 방법과 같다고 생각한다. 그렇기에 RGB만 이용한 DSO와 성능이 유사한 결과가 나왔다고 본다.
++ 추측이지만 이 방법론은 처음엔 조도 강인한 VO를 해보기 위해 야간 데이터 셋도 촬영했지만 성능이 좋지 않아 motive의 이야기로 논문을 낸 것으로 생각한다.

~~

아직 조도에 강인함을 입증한 VO, SLAM 방법론은 아직 나오지 않았다. 논문에서 이야기한대로 각자의 도메인으로부터 matching은 한계가 존재하기 때문이라고 생각한다. 그렇기에 두 도메인간의 matching을 직접적으로 하지 않음으로써 해결하는 아이디어는 정말 좋은 아이디어 같다.

Leave a Reply Cancel reply

리뷰 잘 읽었습니다. 저한테는 워낙 익숙하지 않은 분야다보니 질문이 있어 댓글 남깁니다. 1. 논문에서는 World Model을 미래 observation을 예측하는 모델로…

리뷰 잘 읽었습니다. 몇 가지 궁금한 점이 있어 댓글 남겨두겠습니다! 궁금한게... position query를 MS-COCO pretrained anchor로 초기화한다고 했는데, 비디오 도메인에서도…

안녕하세요 승현님 댓글 감사합니다. 해당 figure는 반투명으로 표현된 여러 초기 포즈들의 inital state에서 출발해도 일관되게 로봇이 작업을 완수 할 수…

안녕하세요 우현님 댓글 감사합니다. 사실 pointcloud만으로 영상을 만드는건 품질이 떨어지지만, RGB에서 특정 K를 기준으로 Depth를 추정하고 Pointcloud로 만들었다면 같은 K로…

안녕하세요 인하님 댓글 감사합니다. 저도 과정이 복잡하다고 느꼈는데, Open Image로부터 데이터를 얻으려다보니 다양한 모듈들이 조합되어서 더 파이프라인이 커지고 복잡해지는 것…

[3DV] Multi-Spectral Visual Odometry without Explicit Stereo Matching

Author: 김 태주

Leave a Reply Cancel reply

Conference Deadline

NEW POST

New Comment