GFD-SSD 논문 요약
선 3줄 요약
1. RGB와 Thermal의 feature를 합치는 방법 제안 (GFU_v1, GFU_v2)
2. GFU를 적용하는 방법 제안
(GFD-SSD : Gared Fusion Double SSD, MFD-SSD : Mixed Fusion Double SSD)
3. 자율 주행자동차의 보행자인식에 있어 속도는 가장 중요한 요소중 하나인데, 성능대비 속도가 가장 빠름
Abstract
본 논문은 RGB와 Thermal를 합치는 방법을 제안한다.
RGB와 Thermal를 사용하는 DNN모델은 크게 One Stage와 Two Stage 방법 둘로 나뉘는데, One Stage(ex SSD)는 속도가 빠르고 Two Stage(ex Faster-RCNN)는 성능이 높다.
기존의 모델들은 RGB와 Thermal의 피쳐맵을 모든 채널에 대해 각각 쌓기만하는데, 본 논문은 두가지 새로운 방법을 제안한다.(GFU)
본 논문이 제시하는 GFD-SSD가 KAIST Dataset에서 MR이 가장 낮은(가장 높은 성능) Faster-RCNN보다 2배 빠르다.
1. Introdiction
보행자 검출은 자율주행 자동차에 있어서 가장 중요한 요소중 하나이다. 그래서 현재 많은 보행자 검출 AI연구가 진행중이만, 약한 조도, 멀리 있는 물체, 가려있는 물체를 충분히 인식하는데 큰 갭이 있다. 그렇기 때문에 가시광선 영역의 이미지 뿐만아니라, 적외선 영역의 이미를 사용한다. (long-wavelength infraed images)
그리하여 조도, 자동차 헤드라이트, 신호등의 불빛 등에 강인한 영상을 얻을 수 있다. KAIST 보행자 인식 데이터셋에서 SOTA를 달성한 논문들이 Color와 Thermal의 well-aligned pair가 높은성능을 냄을 증명했다.
현재의 DNN 기반의 물체 인식 모델은 크게 One Stage와 Two Stage둘로 나뉜다.
Two Stage detectors은 대표적으로 Faster-RCNN이 있다. First stage에서 Region Proposal Network(RPN)에서 물체 후보 지역을 뽑고, 각 후보들을 Second stage에서 localization regression을 하며 foreground 와 background를 분류하며 물체를 검출한다.
One Stage detectors은 대표적으로 SSD와 YOLO가 있다. 후보들을 제거하고 피쳐맵을 리샘플링하면서 검출하는데, 이 과정을 한개의 network에서 진행한다. SSD는 backbone network으로 VGG16를 채택했다. SSD는 feature를 pyramid structure로 쌓는데, high-level에서는 의미있는 정보를, low-level에서는 localization context를 담고있다. 이것은 얕은 레이어에서는 작은 물체를 인식하고 깊은 레이어에서는 큰물체를 인식한다.
많은 연구가 Two Stage는 정확도면에서, One Stage는 속도면에서 뛰어남을 검증했다.
KAIST benchmark의 연구들은 모두 two-stage방식이다. VGG16을 backbone으로, Faster-RCNN을 메인으로 사용한다. 정확도는 달성했지만, 소요 시간은 기술되어있지않다. Fusion 전략으로 early fusion, halfway fusion, late fusion을 사용한다.
이 논문이 제시하는 fusion은 Gated Fusion Unit(GFU)이다. GFU는 color와 thermal의 피처맵을 사이즈 변화 없이 합쳐준다. GFU는 두가지 버전으로 나뉜다. GFU_v1은 color와 thermal의 concatenated feature에 convolution kernel을 적용하고, GFU_v2는 color, thermal 각각의 feature에 적용한다는 차이가 있다.
이 GFU를 Mixed_Early, Mixed_Late, Mixed_Even, Mixed_Odd 4가지 다른 버전으로 적용한다.
GFU는 SOTA를 달성한 Faster-RCNN 베이스의 two-stage fusion architectures에 뒤지지않는 성능에도 2배 빠른 속도를 보인다. 또한 GFU는 color와 thermal를 합치는 것에 국한되는것이 아니라, CNN-based의 다른 센서(laser,)에도 적용가능하다.
2. Related Work
2-1. Multispectral Pedestrain Detection
KAIST dataset 설명
Faster-RCNN보다 SSD가 더 빠르고 정확도는 낮지만, 작은 오브젝트 검출에 더 성능이 좋아서 이를 채택했다.
2-2. Variations on Single Shot Detectors
SSD, DSSD, FSSD, DGFN 설명
3. Gated Fusion Double SSD
3-1. Overall Gated Fusion Architecture
simple stack fusion은 color와 thermal 2개의 feature 피라미드를 concatenate 하기때문에, feature map의 크기가 2배가된다. 하지만, GFU를 사용하면 single SSD를 사용한 feature map의 크기와 동일하다.
3-2. Gated Fusion Unit
GFU는 2가지 버전이 있다. 설명은 그림으로 대체
3-3. Mixed Fusion Variations
여러가지 gated fusion전략이 있다. 설명은 표로 대체
4. Experiments
4-1. Pre-processing
640×512의 color image를 사용, Thermal에 contrast-limited adaptive histogram equalization 을 적용
4-1-1. Data Augmentation
changes in brightness, contrast, HUE, saturation, RGB channels ordering, horizontal flip, and resize transformations images를 50%확률로 전처리 함
4-1-2. Transfer Learning
KAIST 데이터셋으로 학습하기이전에, VGG16 net을 다른 이미지 셋들로 pretrain함
4-2. Results on KAIST dataset.
4-2-1. SSD300 vs SSD512
300보다 500에서 성능이 더 좋았다.
4-2-2. GFU_v1 vs GFU_v2
GFU_v2이 성능이 더 좋았다.
4-2-3. Mixed Fusion
Mixed_Early가 가장 성느이 좋았다.
4-2-3. Detection Accuracy and Inference Time:
SOTA는 시간 정보를 공개하지 않았다. 300×300이 512×512보다 성능 하락은 크지 않은데, 훨신 빨라서 채택했다. 다른 모델에 비해 2배가량 빨랐다.
5. Conclusion
SOTA에 뒤지지않는 정확도에 2배 빠른 속도
RGB-Thermal 뿐만 아니라 다른 센서에도 쓰일 수 있다.