이번에는 우리에게는 조금 생소할 수 있는 비디오 데이터셋에 대해서 공유하도록 하겠습니다. 보통 이미지 데이터 셋을 이용해서 작업을 많이 해왔는데 이번에 비디오 데이터셋 을 분석할 기회가 생겨 제가 분석했던 내용을 여러분들과 공유하고자 합니다.
What is important in video retrieval?
위 자료는 LFB 논문( https://arxiv.org/pdf/1812.05038.pdf )의 일부인데 여기서 제가 말씀 드리고 싶은건 video retrieval에 있어서 video clip의 duration은 굉장히 sensitive한 factor라는 것입니다.
따라서 video dataset은 그것의 duration에 따라 구분될 수 있습니다.
DB Short(<10s) | DB Moderate(<5m) | DB Long(>5m) |
UCF101(7.32 sec) | FIVR(1.5 mins) | AVA(15 mins) |
HMDB51(3.09 sec) |
보통 video clip하나에 라벨 하나가 할당되어있고,그 clip의 mean duration에 따라 다음과 같이 나눌 수 있었습니다.
이중 UCF101과 HMDB51에 대해 자세히 설명해드리도록 하겠습니다.
UCF101
UCF101 | |
Class | 101 |
Total Duration | 1600 mins |
Mean Clip Length(Frame) | 189.53 |
Mean Clip Duration | 7.32 sec |
Min-Max Clip Length | 1.06 sec ~ 71.04 sec |
Mean Frame Rate | 25.96 fps |
Mean Width | 320(static) |
Mean Height | 240(static) |
ucf101은 이름에서부터 알 수있다시피 101개의 클래스로 나뉘어져 있고 그 분포는 다음과 같습니다.
HMDB51
HMDB51 | |
Class | 51 |
Total Duration | 355 mins |
Mean Clip Length(Frame) | 92.76 |
Mean Clip Duration | 3.09 sec |
Min-Max Clip Length | 0.63 sec ~ 35.43 sec |
Mean Frame Rate | 30.00 fps(static) |
Mean Width | 407.33 |
Mean Height | 240(static) |
HMDB51은 이름에서부터 알 수있다시피 51개의 클래스로 나뉘어져 있고 그 분포는 다음과 같습니다.
제가 이번 리뷰를 통해 여러분께 전달하고 싶은 내용은 “이미지”가 아닌 “이미지들”을 기본 단위로 다루는 task에서는 이러한 데이터셋을 쓰고 이때 duration이 꽤 중요한 요소이다라는 점입니다.
비디오 리트리벌에서는 clip의 duration이 중요하다라고 강조하시는 것 같은데, 여기서 이 duration이란게 정확히 무엇을 말하는 건가요? 그냥 단순히 동영상의 길이를 말씀하는 건가요?
그리고 이 duration이라는 것이 왜 중요한지도 설명해주시면 감사하겠습니다.
넵 위와같은 질문입니다! 추가로 질문하자면, mean duration에 따라 데이터셋을 나누는 이유는 무엇인가요? 또한 길이에 따라서 라벨의 차이가 있을 것 같은데, 예시가 있으면 더 감사할 것 같습니다!
또 긴 동영상을 나누어서 짧은 동영상으로 이용하는 경우가 있나요? 예를 들어 15분 이상의 수영을 하는 동영상이라면, 동영상을 3분으로 나누어 수영을 하는 동영상 5개로 사용한다던가..
15분 이상 지속하는 행동의 라벨이 궁금합니다!
한 영상내에서 모든 장면이 클래스와 관련이 있나요?
얘를들어 smile class의 영상은 영상 내내 웃는 얼굴만이 나오는지 궁금합니다.