Only Time Can Tell: Discovering Temporal Data for Temporal Modeling

본 논문은 기존의 temporal understanding을 진행하지 않았던 (비디오 중 하나의 영상으로만 예측을 진행했던) 학습법의 문제를 언급하며 이에 대한 원인으로 데이터셋의 문제를 든다. 따라서 frame shuffling이 진행 되었을때 정보손실이 있는 “temporal classes”를 제시하며 현재 인기있는 네트워크에 대해 실험을 하였다.

논문에서 제시한 temporal classes 를 찾는 방식은 다음과 같다.
우선 실험을 위해 데이터에서 temporal information을 제거하고자 하였으며, 다른 정보손실 없이 오직 temporal information 만 제거하기 위해 프래임을 유지한체로 순서만 shuffling 하였다. 또한 논문에서는 모델의 능력에 (모델이 모션에 대한 표현력)대한 정확한 정보 부재등의 문제로 단순한 shuffling으로는 완전한 temporal information 을 제거할 수 없다고 보았으며, 사람의 인식 성능에 기반하여 시간적 연관성(temporal information)을 제거하였다.

Kinetics와 Something-something 데이터셋에서 각각 32 classes , 18 classes 로 총 50 classes의 Temporal information을 필요로 하는 class를 정의하였으며, 50 classes에 속하는 35,045 개의 비디오 중, 32.081개를 train, 2,964개를 test로 이용하여 실험하였다고 한다. 실험 결과는 다음과 같다.

실험 1.

실험 1의 표는 temporal information을 제거하였을 때의 성능 저하를 보인다. dance나 ski style을 반영하지 못함을 알 수 있다.

실험2.

실험2는 해당 데이터셋에서 temporal shuffling 을 통한 정보 제거 이후의 성능 하락을 나타낸다. Something-something datasets이 더 큰 성능 하락을 보이며, 이를 통해 해당 데이터셋이 분류할 때 temporal information을 더 요구하는, 개체와 action간의 상관관계가 적은 데이터셋임을 알 수 있다.

실험3

실험 3을 통해 어떤 모델이 temporal 정보를 통해 성능 향상을 얻는지 확인할 수 있다. 그렇다면 최근 모델은 temporal 를 생각보다 보지 않는것일까? 이는 관점에 따라 다르겠지만, temporal 정보의 유용성을 알 수 있는 실험도 논문에 존재했다.

실험4.

실험4를 통해 temporal information을 갖고 학습하였을 때 Unseen data에 대한 대처 능력이 더욱 높았으며, 이를 통해 temporal information이 없는 상태의 학습은 모델에게 과적합을 발생시킬 수 있다고 예측할 수 있다.

실험 5

실험 5의 결과는 1열이 static classes (temporal information 제거 class), 2열이 temporal classes로 학습한 결과이며, 이를 통해 temporal classes로 학습된 모델의 active map이 더욱 직관적으로 적합함을 확인할 수 있다.

Author: 황 유진

1 thought on “Only Time Can Tell: Discovering Temporal Data for Temporal Modeling

  1. Temproal이라는 단어가 정확히 무엇을 의미하나요?

    사전적 의미만으로는 살짝 헷갈리는데, 비디오 중 영상 하나만으로 예측을 진행할 경우 의미있는 frame이 아닌 일시적인 frame 또는 class를 학습하게 되어 문제라는 것이 이 논문의 동기인가요?

    그리고 temproal class를 표현하는게 temproal information인가요? 용어의 정의를 정확히 알지 못해 글을 읽는데 어려움이 있네요ㅠ

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다