Long-Term Feature Banks for Detailed Video Understanding[1편]

Chao-Yuan Wu1,2 Christoph Feichtenhofer2 Haoqi Fan2 Kaiming He2 Philipp Krahenb ¨ uhl ¨ 1 Ross Girshick2 1The University of Texas at Austin 2Facebook AI Research (FAIR)

이번 1편에서는 deep 하지 않게 큰 흐름에서 이러한 논문이 나오게된 컨셉만 소개해드리려고 합니다.

보통 video를 가지고 하는 task에서 3D CNN model에는 전체 영상의 길이와 관계없이 input으로 정해진 frame 개수만큼(보통 16개)이 들어가게 됩니다.

예를 들어 MFNet의 경우 모델이 다음과 같이 설계 되있습니다.

input의 16*224*224가 보이시나요?

이 프레임 개수 N에 대한 성능은 당연히 많이 쓸수록 좋을것 같아 보입니다.

하지만 기존 3D CNN모델은 N이 어느 순간 까지 커지면 그다음부터는 성능이 하락하는 모습을 보입니다.

그 이유를 이 논문에서는 기존 3D CNN은 Long term feature를 표현하는 능력이 떨어진다라고 합니다.

그래서 길이가 점점 길어지는 동영상 모델에는 더이상 기존과 같은 frame을 subsampling 하는 방식이 아닌 다음과 같은 Long term feauture를 도입해야 한다고 주장합니다.

그래서 기존 모델로는 힘들었던 영상의 input이 길어져도 어느정도 성능을 유지하거나 더 높일 수 있는 결과를 내게 됩니다.

1 thought on “Long-Term Feature Banks for Detailed Video Understanding[1편]”

Leave a Reply Cancel reply

정민 신 says:

11/22/2020 at 20:45

지난 번 A Multigrid Method for Efficiently Training Video Models에 대한 리뷰(http://server.rcv.sejong.ac.kr:8080/2020/11/08/cvpr20201%ed%8e%b8a-multigrid-method-for-efficiently-training-video-models/)는 2편이 나오지 않았는데 이번 논문의 리뷰는 2편이 나오길 바라겠습니다.

질문 감사합니다. φ_db와 φ_llm을 곱하는 게 아니 더하는 등의 다양한 조합에 대해서는 논문에 따로 언급하고있지 않습니다. (Supplementary Material에도 따로 없네요)…

안녕하세요 우진님 댓글 감사합니다. 리뷰에서 말씀드렸다 싶이 예를들어 어떤 샘플이 현재 이미지 + 언어 프롬프트만 있고 2D 포즈/goal image가 없다면,…

좋은 질문 감사합니다. q–v를 각각 평가하거나 q와 여러 비디오를 한 번에 비교하는 방식은 계산적으로는 효율적이겠지만, LLM이 각 비디오를 절대적인 기준으로…

좋은 질문 감사합니다. X-CoT를 단순히 백본 모델의 오답을 고치는 '교정기' 라기보다는, 임베딩 유사도만으로는 잘 드러나지 않는 차이를 비교해 주는 보완…

안녕하세요 승현님, 좋은 리뷰 감사합니다! compatibility를 구할때 db 기반 점수와 llm 기반 점수의 곱을 사용한 이유가 llm이 가진 편향의 영향을…

Long-Term Feature Banks for Detailed Video Understanding[1편]

Author: rcvlab

1 thought on “Long-Term Feature Banks for Detailed Video Understanding[1편]”

Leave a Reply Cancel reply

Conference Deadline

NEW POST

New Comment