Visual SLAM algorithms: a survey from 2010 to 2016 – part 2

이전 리뷰에서 기초적인 visual SLAM을 구성하는 모듈들을 통해 소개를 하고, 영상에서 추출한 feature detector, descriptor를 이용한 feature-base visual SLAM을 소개했습니다.
이번 리뷰에서는 feature가 아닌 영상 자체를 이용하는 Direct base vSLAM에 대해 소개를 하고자 합니다.

Direct methods

그림 1. Feature-base SLAM과 Direct method SLAM의 파이프라인
출처 https://medium.com/@j.zijlmans/lsd-slam-vs-orb-slam2-a-literature-based-comparison-20732df431d

앞선 part 1.에서는 기초적인 SLAM의 파이프라인을 소개하고 ORB-SLAM 같은 handcrafted feature base SLAM을 소개하였다. 이번에 소개할 SLAM은 Direct method SLAM을 소개하고자 한다. Direct base SLAM은 하드웨어 장비들의 발전으로 이전에는 추출된 feature 기반으로 연산함으로써 계산량을 줄인 것에 비해서 영상의 픽셀 정보를 그대로 사용하여 거리를 측정하고자하는 물체의 거리를 추정함으로써 3d 매칭 연산을 수행하는 방법을 사용합니다. Direct method SLAM의 대표적인 알고리즘으로는 dense한 disparity를 이용하는 DTAM과 dense한 depth map을 가우시안 확률로 걸러서 보는 LSD-SLAM에 대해 소개해 드리겠습니다.

DTAM(Dense Tracking and Mapping)

DTAM은 일반 rgb 카메라를 이용한 기술이며, GPU의 막강한 연산력을 바탕으로 기존의 특징점 기반의 방식에서 벗어나 모든 픽셀에 대한 추적 및 매핑을 수행합니다. 단, 연산량이 많다 보니 제약조건이 많습니다. 맵 초기화를 알려지지 않은 환경에서 하는 것이 아닌 알려진 즉, 정보가 주어진 곳에서 초기화를 진행하며, 실내환경에서 가능하고, 벽면이나 비슷한 색을 가진 장소에서는 제대로 수행하지 못하는 단점이 있습니다. 그리고 너무 큰 반경의 환경에서 활용하기 힘들다는 단점이 있습니다.

  • 지도 초기화는 스테레오 측정에 의해 이루어진다.
  • 재구성된 지도에서 합성 뷰 생성으로 모션을 추정한다.
  • 멀티 베이스 스테레오를 사용하여 픽셀마다 깊이 정보를 추정하여 공간 연속성을 고려하여 최적화한다.

LSD-SLAM(Large-Scale-Direct Monocular SLAM)

LSD-SLAM은 semi-dense VO에서 확장된 버전입니다. LSD-SLAM에는 loop-closure detection과 7 DoF pose-graph optimization을 semi-dense VO에 적용한 버전입니다. 간략하게 파이프라인을 소개하자면, DTAM에서 만들어진 맵을 가우시안 확률 분포를 이용해서 semi-dense map 만들어 DTAM보다 적지만 효율적인 정보만을 취득하는 방법입니다.

그림2. Dense map
그림 3. Semi-dense map, dense map을 가우시안 확률 필터로 유용한 부분만 남긴 맵.
  • 기본 초기화 값은 각 화소의 초기 깊이 값으로 설정됨
  • 재구성된 지도에서 합성 뷰 생성으로 카메라 모션을 추정함
  • 재구성된 구역은 고강도 그라에디션 구역으로 제한됨
  • 기하학적으로 일관된 지도를 얻기 위해 7 DoF 포즈 그래프 최적화를 사용한다.

++ 리뷰의 토대가 되는 논문에서 각 방법들을 한 컬럼으로 설명을 마무리 짓기에 저도 이해가 안되는 부분이 많이 존재합니다. 추후 해당 방법론들에 대한 논문을 읽고 제대로 이해하여 추가적인 리뷰를 작성하도록 하겠습니다.

Author: 김 태주

2 thoughts on “Visual SLAM algorithms: a survey from 2010 to 2016 – part 2

  1. DTAM에서 궁금한 점이 생겨서 질문 남깁니다.

    해당 기술이 제약이 많다고 말씀하시면서 제약에 대한 내용 중 비슷한 색이나 벽면을 가진 장소는 잘 수행되지 않는다고 말씀하셨습니다.

    이러한 것으로 비추어볼 때 disparity를 통하여 feature?를 추출하는 것으로 보이는데, 그렇다면 해당 기술이 두 대 이상의 카메라를 사용해야 하는 것 아닌가요?? DTAM을 잘 몰라서 어떻게 보면 어리석은 질문일수도 있으나 DTAM에서 mono 카메라를 사용하는데 어떻게 disparity를 구할 수 있나요?

  2. 리뷰의 핵심적인 설명이 빠진거 같습니다. 그래서 direct 방법과 feature 기방 방법이 어떻게 다르다는 것인가요?

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다