Scalability in Perception for Autonomous Driving: Waymo Open Dataset

이번 PD챌린지를 진행하면서 PD에 적합한 데이터셋에 모델을 pretrain시키면, 그렇지 않은 모델보다 성능이 더 좋다는 사실을 알게되었습니다. 이를 적용하고자 데이터셋을 찾아보다 Waymo데이터셋이 이미 다운 받아져 있다는것이 생각나 이를 사용하기전 이에대한 논문을 찾고 읽어보았습니다. 2D에 대해 집중적으로 리포팅합니다.

일부의 데이터셋으로 학습된 모델을 실제 세상에서 사용할 자율주행 자동차에 적용하기엔 문제가 있다. 따라서 실제 세상을 반영하기 위해서는 이를 재현할 수 있을만한 방대한 데이터가 필요하다. 따라서 카메라 이미지의 2D 데이터와 LiDAR의 3D 정보를 담은 데이터셋을 만들었다.
1150개의 scenes가 있으며 각 장면은 20초 분량으로 총 약 6.4시간의 주행 분량이다.

데이터셋은 113k의 LiDAR 물체추적, 약 250k의 camera image tracks를 포함하는 각 12million개의 LiDAR와 camer annotations 가 있다.

그런데 표에는 2D(camera)에 9.9M라고 적혀있다.

이미지 촬영은 5개의 핀홀 카메라와 5개의 LiDAR로 진행되었다.

Label 정보

Obeject : vehciles, pedestrians, signs, cyclist
각각의 오브젝트는

2D : cx, cy, l, w, tracking ID
cx, cy는 각각 박스의 가운데의 좌표이다.

3D : cx, cy, cz, l, w, h, θ , tracking ID
θ denotes the heading angle in radians of the bounding box

KITTI 데이터셋과 유사하게 난이도를 2단계로 나눈다고 하는데, 무슨 의미인지 잘 모르겠다.

ResNet-101 기반의 Faster R-CNN모델
COCO Dataset으로 pretrain
자동차에 0.7 IOU, 보행자에 0.5 IOU
5개의 카메라 이미 전부사용 기준
자동차 검출에 AP 53.3, 보행자 검출에 52.7 성능

여기서 PHX, MTV, SF는 캡션에 쓰여져 있는데, 자세한 정보는 아래와 같다.

내가 찾고자했던 정보는 총 이미지의 수, validation set의 나누는 기준, 각 셋(train, test, validation)에 대한 label 정보 였는데,
해당 정보는 논문에서 찾을 수 없었다.
1150개의 scene, 각 scene은 20초의 길이, 10Hz의 속도라는 정보와 전체 이미지에 대한 object의 수, 각셋의 scene의 수를 통해 예측 하는 방법 밖에 없는것 같다.

Abstract에서 제시하는 more up-to-date information at http://www.waymo.com/open 을 따르면,
최신 데이터셋은 1950 scene으로 늘어났다.
또한 1,950 segments of 20s each, collected at 10Hz (200,000 frames)  라고 적혀있는데, 10Hz로 20s면 200이지 왜 200k frame인지 잘 모르겠다.

Author: rcvlab

RCV연구실 홈페이지 관리자 입니다.

2 thoughts on “Scalability in Perception for Autonomous Driving: Waymo Open Dataset

  1. 해당 데이터 셋은 Multimodal Camera-LiDAR로 촬영된 걸로 알고 있습니다. 각 센서들은 몇 개가 사용되었는지 알 수 있을까요?

  2. 10번째 줄에 적혀있습니다.
    이미지 촬영은 5개의 핀홀 카메라와 5개의 LiDAR로 진행되었다.
    각 센서에 대한 비교적 자세한서술도 논문에 적혀있었습니다. 필요하시다면 해당 자료도 정리해서
    올려드리겠습니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다