[2021CVPR]Global2Local: Efficient Structure Search for Video Action Segmentation

논문이 생각보다 어려워 리뷰 시간이 늦어졌습니다..

논문 소개

해당 논문은 Video Action Segmentation를 위해 Temporal receptive fields를 조절하여 모델의 구조를 찾기위한 논문입니다. 제안하는 논문은 Large receptive fields는 lone-terms relations에 좋으며, Small receptive fields는 local detail을 학습하는데 좋다고 말하며, 효율적으로 receptive field를 찾기 위해 hand-designed 방식이 아닌 global-to-local search scheme을 제안하고 있다. 해당 방법은 global search를 통해 coarse한 조합을 찾고, local search 방식으로 receptive field 를 수정한다. 논문이 주장하는 contribution은 다음과 같다.

• The expectation guided iterative local search scheme enables searching fine-grained receptive field combinations in the dense search space.
• The global-to-local search discovers effective receptive field combinations with better performance than hand-designed patterns.

제안

Global Search

Global Search는 적은 연산량으로 coarse receptive field combination을 찾는것을 목적으로한다. 앞서 언급하였듯이 Global Search 이후 Local Search 를 진행한다. Global Search는 그림2와 같은 방식으로 진행된다. 해당 아이디어는 유전조합을 기반으로 하였다고 한다.

Crossover
해당 연산은 receptive field를 결합하여 새로운 샘플을 만든다. 이 결합으로 local structure를 유지하는 새로운 patterns을 생성한다.
Mutation
유전 조합 중 돌연변이를 묘사한 방식으로 개별 요소값을 임의로 변경한다.
Selection
생성한 sample 중 각 구조의 estimated performance기반으로 샘플을 선정한다.

새로운 patterns 생성과 receptive field 와의 관계

그림3. temporal convolutional networks 논문의 아키택쳐. 리뷰 논문의 아키텍쳐와 연관 없음.

여기서 새로운 patterns과 receptive field 와의 관계를 간단하게 소개하겠다. TCN(temporal convolutional networks) 네트워크는 그림3과 같이 Dilated convolutions 연산으로 receptive field를 키운다. 해당 연산은 이전 Segmentation 리뷰에서 종종 등장하여 익숙 할 것이다. 지정 파라미터 d 만큼씩 간격을 벌려 다음 네트워크에 입력되는 구조이다. 이처럼 모델의 입력에 대해서 receptive field를 다양하게 결합하면서 receptive field의 다양성을 높일 수 있다. Global Search의 다양한 조합 생성은 마치 d를 조절하여 receptive field를 키우거나 줄인것과 마찬가지의 효과를 기대할 수 있다. 즉 모델이 학습하는 과정은 기존에 메뉴얼하게 설정하였던 dilation rates 를 학습가능한 파라미터로 사용한 것이다.

Expectation Guided Iterative Local Search

local search는 finer-grained dilation rates를 효율적으로 찾는것을 목적으로 한다. 논문은 효율적이고 테스크에 적합한 구현을 위해 convolutional weight-sharing scheme를 사용하여 확률 질량을 추정하는것을 목표로 하였다. 그 과정은 다음과 같다. Global Search에서 구한 초기 dilation rate D_L을 기반으로 주변에서 고르게 S개의 sample을 추출한다. 이후 finer contraller로 searching을 진행한다. finer contraller로 해당 알고리즘을 N번 반복하여 D(dilation rate)를 업데이트 한다.

Expection Guided Iterative Local Search를 통한 output 수정은 위와같이 이루어진다.

실험

해당 논문은 baseline으로 MS-TCN(CVPR 2019)를 사용하였다. local, global search에 대한 ablation 실험과 S 파라미터에 대한 실험, sota와의 비교가 있으며, 다양한 모델, 다양한 task에 plug in 방식으로 사용될 수 있다는것이 모델의 장점이라고 한다(다른 모델에 적용 후 성능 향상 실험 리포팅). 데이터셋은 table1에 사용된 3가지 데이터셋을 사용한다.

다양한 데이터셋에서 baseline보다 높은 성능을 보인다. GTEA는 daily actions을 50Salads는 Preparing salads, BreakFast 는 cooking breakfast상황에서 촬영되었다.

Leave a Reply Cancel reply

안녕하세요 재윤님, 좋은 리뷰 감사합니다. 텍스트와 시각 정보를 선택적으로 집중하고, 적절한 시간의 지식만을 효과적으로 사용하기 위한 방법론이라고 이해했습니다. episodic /…

안녕하세요 예은님, 첫 엑스리뷰 고생하셨습니다! 원래 알고 있던 OVOD에 attribute라는 개념 하나 추가된 거라 생각하고 읽으니 꽤 흥미롭게 읽었던 것…

안녕하세요 유진님! 최근 LVU task를 팔로우업하다가 dvd라는 방법론이 있다는 걸 듣고 궁금해했었는데 x-review로 다뤄주셔서 재밌게 읽어보았습니다. 간단한 질문 두 가지만…

안녕하세요 인하님 댓글 감사합니다. 저도 항상 sim데이터를 풍부하게 만드는 것은 여기저기서 다루지만, 어떻게 사용하는게 효과적인지와 더불어 sim2real gap은 구체적으로 얼마나…

안녕하세요 기현님 댓글 감사합니다. Figure 2와 3 모두 sim과 real의 object 색상과 texture는 다릅니다. Figure 2에서 두 환경에서의 observation 차이…

[2021CVPR]Global2Local: Efficient Structure Search for Video Action Segmentation

논문 소개

제안

실험

Author: 황 유진

Leave a Reply Cancel reply

Conference Deadline

NEW POST

New Comment