[2021CVPR]Global2Local: Efficient Structure Search for Video Action Segmentation

논문이 생각보다 어려워 리뷰 시간이 늦어졌습니다..

논문 소개


해당 논문은 Video Action Segmentation를 위해 Temporal receptive fields를 조절하여 모델의 구조를 찾기위한 논문입니다. 제안하는 논문은 Large receptive fields는 lone-terms relations에 좋으며, Small receptive fields는 local detail을 학습하는데 좋다고 말하며, 효율적으로 receptive field를 찾기 위해 hand-designed 방식이 아닌 global-to-local search scheme을 제안하고 있다. 해당 방법은 global search를 통해 coarse한 조합을 찾고, local search 방식으로 receptive field 를 수정한다. 논문이 주장하는 contribution은 다음과 같다.

• The expectation guided iterative local search scheme enables searching fine-grained receptive field combinations in the dense search space.
• The global-to-local search discovers effective receptive field combinations with better performance than hand-designed patterns.

좌측은 기존 모델이 Searching space로 주로 연산(operation)에 대한 최적화만 진행하였다. 제안하는 논문은 receptive field를 조절하여 수많은 조합을 Searching 합니다. 우축 그림에서 흰 노드는 후보, 녹색 노드는 희박한 Search space, 파란 노드는 global search 결과, 주황 영역은 local search 공간 입니다.

제안

Global Search

Global Search 과정. 여기서 유전자 같이 생긴 막대기는 모델의 입력값이다.

Global Search는 적은 연산량으로 coarse receptive field combination을 찾는것을 목적으로한다. 앞서 언급하였듯이 Global Search 이후 Local Search 를 진행한다. Global Search는 그림2와 같은 방식으로 진행된다. 해당 아이디어는 유전조합을 기반으로 하였다고 한다.

  1. Crossover
    해당 연산은 receptive field를 결합하여 새로운 샘플을 만든다. 이 결합으로 local structure를 유지하는 새로운 patterns을 생성한다.
  2. Mutation
    유전 조합 중 돌연변이를 묘사한 방식으로 개별 요소값을 임의로 변경한다.
  3. Selection
    생성한 sample 중 각 구조의 estimated performance기반으로 샘플을 선정한다.
  • 새로운 patterns 생성과 receptive field 와의 관계
그림3. temporal convolutional networks 논문의 아키택쳐. 리뷰 논문의 아키텍쳐와 연관 없음.

여기서 새로운 patterns과 receptive field 와의 관계를 간단하게 소개하겠다. TCN(temporal convolutional networks) 네트워크는 그림3과 같이 Dilated convolutions 연산으로 receptive field를 키운다. 해당 연산은 이전 Segmentation 리뷰에서 종종 등장하여 익숙 할 것이다. 지정 파라미터 d 만큼씩 간격을 벌려 다음 네트워크에 입력되는 구조이다. 이처럼 모델의 입력에 대해서 receptive field를 다양하게 결합하면서 receptive field의 다양성을 높일 수 있다. Global Search의 다양한 조합 생성은 마치 d를 조절하여 receptive field를 키우거나 줄인것과 마찬가지의 효과를 기대할 수 있다. 즉 모델이 학습하는 과정은 기존에 메뉴얼하게 설정하였던 dilation rates 를 학습가능한 파라미터로 사용한 것이다.

Expectation Guided Iterative Local Search

local search는 finer-grained dilation rates를 효율적으로 찾는것을 목적으로 한다. 논문은 효율적이고 테스크에 적합한 구현을 위해 convolutional weight-sharing scheme를 사용하여 확률 질량을 추정하는것을 목표로 하였다. 그 과정은 다음과 같다. Global Search에서 구한 초기 dilation rate D_L을 기반으로 주변에서 고르게 S개의 sample을 추출한다. 이후 finer contraller로 searching을 진행한다. finer contraller로 해당 알고리즘을 N번 반복하여 D(dilation rate)를 업데이트 한다.

Expection Guided Iterative Local Search를 통한 output 수정은 위와같이 이루어진다.

실험

해당 논문은 baseline으로 MS-TCN(CVPR 2019)를 사용하였다. local, global search에 대한 ablation 실험과 S 파라미터에 대한 실험, sota와의 비교가 있으며, 다양한 모델, 다양한 task에 plug in 방식으로 사용될 수 있다는것이 모델의 장점이라고 한다(다른 모델에 적용 후 성능 향상 실험 리포팅). 데이터셋은 table1에 사용된 3가지 데이터셋을 사용한다.

다양한 데이터셋에서 baseline보다 높은 성능을 보인다. GTEA는 daily actions을 50Salads는 Preparing salads, BreakFast 는 cooking breakfast상황에서 촬영되었다.
SOTA 비교 실험

Author: 황 유진

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다