[ECCV 2014]Microsoft COCO: Common Objects in Context

COCO DATASET(MS COCO) – 2017년 기준(최신).

  • train2017 (19G)
  • val2017 (788M)
  • test2017 (6.3G)
  • annotations (808M)
  • 330K 영상과 250만개의 label
  • Object segmentation
  • Recognition in context
  • Superpixel stuff segmentation
  • 1.5million object instances
  • 80 object categoreies
  • 91 stuff categories
  • 5 captions per image
  • 250,000 people with keypoints
Figure 0. COCO datset 홈페이지. http://cocodataset.org/#home

MS coco는 object detection, Stuff segmentation,  Panoptic segmentation, Keypoint detection task(각 task에 대한 예시 그림은 Append idx 참고.)에 대한 챌린지를 2015년 데이터 셋을 퍼블리싱 한 후, 매년 개최 중이다. 각 task에서 성능을 평가하는 데 있어 가장 유명한 dataset이며, ImageNet, PASCAL VOC과 함께 평가에 가장 많이 사용되는 dataset이다.

MS COCO는 기존 존재하던 dataset(e.g. ImageNet, PASCAL VOC )과는 다르게 detection task를 목표로 한 dataset이며, non-Iconic 영상들(Fig 2.)을 data로 사용했다. 또한 Fig 1.과 같이 각 개체 별로 segmentation을 했다.

Fig. 2: Example of (a) iconic object images, (b) iconic scene images, and (c) non-iconic images.

MS COCO에서 다른 dataset에 비해 좋은 점은 non-Iconic 영상을 사용하여 보다 실제 세계에 맞는 dataset을 구축했다고 한 것에 있다.
ps. Iconic 영상은 label에 명시적인 영상, 혹은 영상 박스 한 가운데에 라벨에 명시된 object가 있는 것을 이야기한다. non-iconic 영상은 라벨에 명시적이지 않은 영상, 혹은 다양한 object들이 존재하는 사진.

IMAGE COLLECTION

Common Object Categories

각 object들은 1차적으로 categories “thing”, “stuff” 로 나눠집니다.

  • “thing” : 경계가 명확한 것들 e.g. person, chair, car…
  • “stuff” : 경계가 불명확한 것들 e.g. sky, street, grass…
    “stuff” 의 경우, 따로 라벨링을 진행하지 않고 segmentation만 진행 했다고 합니다. 저자가 주장하길 라벨링을 한다면 성능 향상에 도움이 있을 거라 생각한다고 합니다.

“thing” 들에 구체적으로 라벨링을 합니다. 하지만 라벨들은 개로 예를 들어 “mammal”, “dog”, or “German shepherd” 들의 여러 라벨로 불리울 수 있습니다. MS COCO에서는 일반적인 라벨링을 4~8세 아이들이 명칭을 칭할 수 있는 라벨들로 정했습니다. 272개의 후보군이 나왔고, 협력 저자간의 투표로 91개의 카테고리를 선정하였습니다. (Fig 11. 참조)

Non-iconic Image Collection

  1. 키워드와 메타데이터가 검색 가능한 Flickr의 아마추어 포토그래퍼가 올린 영상
  2. 2개 이상의 목표하는 label을 키워드로 검색. e.g. “dog + car”

IMAGE ANNOTATION

Category Labeling

  1. Fig 11.에서의 11 super-categories를 이용하여 해당하는 object를 분류.
  2. 각 object를 11 super-categories 하위 라벨로 분류
    (Fig 12. (a)) 참조.

Instance Spotting

  1. 이전 task에서 구한 구체적 category를 가진 영상 속 물체를 찾음
  2. 해당하는 물체에 십자가 표시를 위치 시킴
    (Fig 12. (b)) 참조.

Instance Segmentation

  • [1] 방법을 사용하여 작업함.
  • 각 worker 당 하나의 instance를 segmentation을 하도록 함.
  • 고용된 worker들을 GT와 비슷하도록 연습하는 테스트를 진행.
  • 1/3이 통과, 통과자 중에서도 좋지 못한 성능을 낸 – Fig 4(b). 의 검은 선 아래의 worker의 작업물은 폐기했다고 한다.
  • GT는 저자들과 저자 협력자(전문가)간 결정된 segmentation을 사용함
  • Fig 12(e)처럼 object들이 밀집하게 있는 경우, 10~15개의 instance만 가져오고 나머지는 “crowds”라고 명함. 평가시 “crowds” 제외시키고 합니다.
  • (Fig 12. (c), (d), (e)) 참조

Caption Annotation : 장당 5개의 caption을 적었습니다. 자세한 내용은 추후 퍼블리싱된 곳에서 확인하라고 하네요.

DATASET STATISTICS

[1] S. Bell, P. Upchurch, N. Snavely, and K. Bala, “OpenSurfaces: A richly annotated catalog of surface appearance,” SIGGRAPH, vol. 32, no. 4, 2013

Author: 김 태주

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다