Video Dataset Analysis

이번에는 우리에게는 조금 생소할 수 있는 비디오 데이터셋에 대해서 공유하도록 하겠습니다. 보통 이미지 데이터 셋을 이용해서 작업을 많이 해왔는데 이번에 비디오 데이터셋 을 분석할 기회가 생겨 제가 분석했던 내용을 여러분들과 공유하고자 합니다.

What is important in video retrieval?

위 자료는 LFB 논문( https://arxiv.org/pdf/1812.05038.pdf )의 일부인데 여기서 제가 말씀 드리고 싶은건 video retrieval에 있어서 video clip의 duration은 굉장히 sensitive한 factor라는 것입니다.

따라서 video dataset은 그것의 duration에 따라 구분될 수 있습니다.

DB Short(<10s) DB Moderate(<5m) DB Long(>5m)
UCF101(7.32 sec) FIVR(1.5 mins) AVA(15 mins)
HMDB51(3.09 sec)

보통 video clip하나에 라벨 하나가 할당되어있고,그 clip의 mean duration에 따라 다음과 같이 나눌 수 있었습니다.

이중 UCF101과 HMDB51에 대해 자세히 설명해드리도록 하겠습니다.

UCF101

UCF101
Class 101
Total Duration 1600 mins
Mean Clip Length(Frame) 189.53
Mean Clip Duration 7.32 sec
Min-Max Clip Length 1.06 sec ~ 71.04 sec
Mean Frame Rate 25.96 fps
Mean Width 320(static)
Mean Height 240(static)

ucf101은 이름에서부터 알 수있다시피 101개의 클래스로 나뉘어져 있고 그 분포는 다음과 같습니다.


HMDB51

HMDB51
Class 51
Total Duration 355 mins
Mean Clip Length(Frame) 92.76
Mean Clip Duration 3.09 sec
Min-Max Clip Length 0.63 sec ~ 35.43 sec
Mean Frame Rate 30.00 fps(static)
Mean Width 407.33
Mean Height 240(static)

HMDB51은 이름에서부터 알 수있다시피 51개의 클래스로 나뉘어져 있고 그 분포는 다음과 같습니다.

제가 이번 리뷰를 통해 여러분께 전달하고 싶은 내용은 “이미지”가 아닌 “이미지들”을 기본 단위로 다루는 task에서는 이러한 데이터셋을 쓰고 이때 duration이 꽤 중요한 요소이다라는 점입니다.

Author: rcvlab

RCV연구실 홈페이지 관리자 입니다.

3 thoughts on “Video Dataset Analysis

  1. 비디오 리트리벌에서는 clip의 duration이 중요하다라고 강조하시는 것 같은데, 여기서 이 duration이란게 정확히 무엇을 말하는 건가요? 그냥 단순히 동영상의 길이를 말씀하는 건가요?

    그리고 이 duration이라는 것이 왜 중요한지도 설명해주시면 감사하겠습니다.

  2. 넵 위와같은 질문입니다! 추가로 질문하자면, mean duration에 따라 데이터셋을 나누는 이유는 무엇인가요? 또한 길이에 따라서 라벨의 차이가 있을 것 같은데, 예시가 있으면 더 감사할 것 같습니다!
    또 긴 동영상을 나누어서 짧은 동영상으로 이용하는 경우가 있나요? 예를 들어 15분 이상의 수영을 하는 동영상이라면, 동영상을 3분으로 나누어 수영을 하는 동영상 5개로 사용한다던가..
    15분 이상 지속하는 행동의 라벨이 궁금합니다!

  3. 한 영상내에서 모든 장면이 클래스와 관련이 있나요?
    얘를들어 smile class의 영상은 영상 내내 웃는 얼굴만이 나오는지 궁금합니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다