Weakly Supervised Action Selection Learning in Video

소개 [Link]
본 논문은 video에서 action part를 찾는 task 를 위한 논문이다(Temporal action localization task 이하, TAL).
기존의 Weakly Supervised 기반의 TAL 방법론들은 비디오 단위의 레이블을 이용하여 문제를 해결하고자 하였고, 일반적으로 비디오를 짧은 세그먼트나 frame으로 나누어 top-k 방식을 통해 학습한 분류기로 action or not 을 분류하여 Localization을 진행하였다.
저자는 일반적인 방식에서 사용하던 top-k 방식이 구별하기 어려운 action instances(clip이나 frame같은 단위, 이하 instance)의 영향력을 줄이는 등, 직접적인 action instance(행동성, actionness)를 찾는 것에 좋지 않은 영향을 미친다고 한다.
이러한 기존 방식의 행동성에 대한 능력 저하는, context error 와 actionness error 라는 결과를 도출하며, 각 결과는 다음과 같다.

그림1. 에러의 예시. (a)는 경기장이라는 context 는 갖지만 actionness가 없다. (b)는 actionness를 갖지만 모델이 이를 감지하지 못한경우 actionness error 라고 할 수 있다.

context error:
어떠한 instances가 실제로는 actionness를 갖지 않지만, 비디오의 전반적인 내용(context)을 담고있을 때, 이를 혼동하는 오류
actionness error:
classifier가 action을 포함한 instance에서 반응하지 않는 오류.

저자들은 저자들이 정의한 위와같은 오류를 해결하기 위하여, context information과 action instance 구별을 위한 학습을 잘 진행하는 task에 의존적이지 않은 learning framework를 제시하였다. (최근의 attention을 이용한 filtering 방법론이 background를 제거하여 context 정보 손실을 만든다는 단점을 언급하였는데, 지난번 TSP 논문과 마찬가지로 background 정보(non-action) 또한 중요하게 다루는 것이 흥미로웠다. )

본 논문은 supervised 방식의 object detection task와 temporal localization task를 통한 학습 방식을 제안하였으며, Action Selection Learning (ASL)이라 명명하였다.

2. 작동 방식

v = {x_1 … x_t} (t 개의 instance(x_n)으로 구성된 비디오 v)
각 비디오 V는 video level의 label{1,…C}을 갖음

C
그림2의 C는 video level label을 이용한 학습이다. (SEAM에서 보았던 weakly supervised 학습법처럼) class activation sequence 를 이용한다.
T
그림 2의 T는 actionness의 감지를 위한 학습이다. 이는 제안하는 ASL의 핵심이다. 제안하는 방식의 핵심 아이디어는 다음과 같다. <<main idea: class예측에 사용된 top-k개의 instances는 context instance와 action instance를 모두 갖고있다. 그러나 context instance는 class-specific하고 action instance는 모든 class에 걸쳐 유사하다.>>
이러한 아이디어를 가지며 해당 모델은 다음과 같이 구현되었다.
– actionness 감지를 위한 G 모델과 그 output a
– class 감지를 위해 사용되었던 F 모델과 그 output s
두 output값을 h(a, s) =βa + (1 − β)s 와 같은 방식으로 혼합하여 G모델이 입력 instance x 가 모든 ground true class 에 속하는 지에 대해 예측하는 방향으로 학습하도록 하는것을 목적으로 한다.
본 모델의 학습을 위해서도 위와같이 video level label을 이용하나, C처럼 단순 video level label classification 방식이 아니다.

특정 class Y에 대하여 top-k예측 중 어떠한 label값 이라고 예측한 video의 instance 집합을 T_pos 나머지를 T_neg로 하여 다음과 같은 수식으로 학습한다. (해당 toy example의 T*C 행렬은 길이 T인 하나의 비디오에 대한 각 class 예측이다.)

3. 실험
본 논문은 TSL에 많이 사용되는 THUMOS-14 와 ActivityNet-1.2 데이터셋에 대해 실험하여 좋은 성능을 보였다.

1 thought on “Weakly Supervised Action Selection Learning in Video”

조 원 says:

05/15/2021 at 00:36

지난번에 TSP를 발표해주셨는데요. 설명해주신 바를 이해 했을 때, 두 구조 모두 Action에 대해 foreground와 background를 나누는 구조로 받아들였습니다.
그러면 혹시 해당 구조와 TSP의 차이는 어떤 것인가요?

Leave a Reply Cancel reply

안녕하세요 재윤님, 좋은 리뷰 감사합니다. 텍스트와 시각 정보를 선택적으로 집중하고, 적절한 시간의 지식만을 효과적으로 사용하기 위한 방법론이라고 이해했습니다. episodic /…

안녕하세요 예은님, 첫 엑스리뷰 고생하셨습니다! 원래 알고 있던 OVOD에 attribute라는 개념 하나 추가된 거라 생각하고 읽으니 꽤 흥미롭게 읽었던 것…

안녕하세요 유진님! 최근 LVU task를 팔로우업하다가 dvd라는 방법론이 있다는 걸 듣고 궁금해했었는데 x-review로 다뤄주셔서 재밌게 읽어보았습니다. 간단한 질문 두 가지만…

안녕하세요 인하님 댓글 감사합니다. 저도 항상 sim데이터를 풍부하게 만드는 것은 여기저기서 다루지만, 어떻게 사용하는게 효과적인지와 더불어 sim2real gap은 구체적으로 얼마나…

안녕하세요 기현님 댓글 감사합니다. Figure 2와 3 모두 sim과 real의 object 색상과 texture는 다릅니다. Figure 2에서 두 환경에서의 observation 차이…

Author: 황 유진

1 thought on “Weakly Supervised Action Selection Learning in Video”

Leave a Reply Cancel reply

Conference Deadline

NEW POST

New Comment