[CVPR2021] Abstract Spatial-Temporal Reasoning via Probabilistic Abduction and Execution

소개

해당 연구는 Probabilistic Abduction and Execution (PrAE) learner 를 제안한다. 이를 통해 기존의 후보군 중 카테고리를 선택하는 학습법이 아닌 확률적인 방법으로 답을 예측하며, visual attribute annotations없이 end-to-end 방식으로 학습한다.
해당 논문은 video와 관련된 키워드로 temporal, spatial 등이 포함되어 선정되었으나, 그보다는 Explainable Artificial Intelligence, 사람을 닮은 인공지능 연구 분야에 가까운 듯 하다. (spatial-temporal 정보를 갖을 수 있는 방법이 혹시 있을까 하여 읽게 되었다.) 해당 논문은 지능 검사 중 하나인 Raven’s Progressive Matrices(RPM) 를 주 과제로 삼았으며, 이는 관계 유추적 추론 능력 즉, 유동 지능(새로운 문제를 해결하는 능력)의 측정 지표로 평가되는 지표로, 사람에게는 비교적 쉬운 spatial-temporal reasoning(유동지능을 요구하는)이라는 테스크가 machine vision systems에서는 여전히 어려운 일이라는 것을 통해 해당 태스크를 해결하는것이 어려운 일 임을 알 수있다.

그림1. (a)는 기존의 모델로 feature 조작에만 관심을 둔 인식, 추론의 일체형 모델이며, (b)는 제안하는 모델로 각 RPM 페널을 확률 분포로 해석하여 추론하여, 인식, 추론에 대해 구별하여 단일 프로세스를 해체했다.

해당 논문에서 밝힌 기존 모델의 문제점은 다음과 같다.

perception 과 reasoning 과정이 구별되지 않았다.
deep model들은 대부분 train에 과적합 되었으며, 이는 고전 neural networks 구조의 한계이다.
top-down, bottom-up reasoning의 부재 (양방향 추론의 부재)

The PrAE Learner

task는 그림2의 좌측 상단과 같다. 3×3 패널에서 빈칸 하나를 추론하는 것이다.

모델 설명

저자는 모델을 frontend operates와 backend operates로 나누었다.

Neural Visual Perception 는 frontend 부분이며 object CNN과 scene inference engine으로 구성되어있다. 이는 input인 16개(정보8개 + 후보8개)의 pannel에 각각 작동한다.
– object CNN
4개의 CNN 브랜치로 이루어져 있으며 객체 속성(객관성, 유형, 크기 및 색상 등)의 확률 분포를 생성합니다.
– Scen Inference Engine
CNN output을 받아 panel 특성 분포를 생성합니다.

object CNN에서 N개의 output 받았을 때 panel이 k개의 물체를 가질 확률

Symbolic Logical Reasoning은 backend 부분이다. backend는 숨겨진 원리를 캡쳐하는 부분이다.
– Probabilistic Abduction
8개의 pannel이 주어졌을 때 probaailistic abduction engine은 rule의 확률을 다음과 같이 계산한다.

panel attribute 가 a 이고 rule이 r일 때, I는 context pannel

s는 하나의 pannel을 의미

– Probabilistic Execution
Probabilistic Execution engine은 panel attribute a에 대한 적절한 rule을 선택한다.

– Canidate Selection
최종적으로 예측된 panel과 정답을 비교하는 방법으로 Jensen-Shannon Divergence(JSD)를 이용한다.

학습 방법

모델의 최종 목적함수는 다음과 같다, l은 cross-entropy loss를, y는 ground truth를 나타내며 auxiliary loss를 통해 초기에 학습이 어려웠던 문제를 해결했다고 한다. 또한 reasoning process에서 강화학습 기법으로 최적화 하였다고 한다.

최종 목적함수

실험

실험 결과는 다음과 같다.

2 thoughts on “[CVPR2021] Abstract Spatial-Temporal Reasoning via Probabilistic Abduction and Execution”

visual attribute annotations 이 없다는 것은 해당 방법론이 Unsupervised 방식으로 학습한다는 것을 의미하나요?

이 방법론이 만들어내는 output이 정확히 무엇인가요?

또 JSD를 통해서 정답분포와 모델이 학습한 분포간의 차이를 구해주는거 같은데 이게 학습이 끝나고 성능을 평가할때 사용이 되는 것인지 아니면 목적함수에 포함되어 올바른 분포를 학습할 수 있도록 사용되는 것인지 궁금합니다

Leave a Reply Cancel reply

조 원 says:

08/22/2021 at 00:28

visual attribute annotations 이 없다는 것은 해당 방법론이 Unsupervised 방식으로 학습한다는 것을 의미하나요?

임 근택 says:

08/23/2021 at 09:45

이 방법론이 만들어내는 output이 정확히 무엇인가요?

또 JSD를 통해서 정답분포와 모델이 학습한 분포간의 차이를 구해주는거 같은데 이게 학습이 끝나고 성능을 평가할때 사용이 되는 것인지 아니면 목적함수에 포함되어 올바른 분포를 학습할 수 있도록 사용되는 것인지 궁금합니다

안녕하세요 재윤님, 좋은 리뷰 감사합니다. 텍스트와 시각 정보를 선택적으로 집중하고, 적절한 시간의 지식만을 효과적으로 사용하기 위한 방법론이라고 이해했습니다. episodic /…

안녕하세요 예은님, 첫 엑스리뷰 고생하셨습니다! 원래 알고 있던 OVOD에 attribute라는 개념 하나 추가된 거라 생각하고 읽으니 꽤 흥미롭게 읽었던 것…

안녕하세요 유진님! 최근 LVU task를 팔로우업하다가 dvd라는 방법론이 있다는 걸 듣고 궁금해했었는데 x-review로 다뤄주셔서 재밌게 읽어보았습니다. 간단한 질문 두 가지만…

안녕하세요 인하님 댓글 감사합니다. 저도 항상 sim데이터를 풍부하게 만드는 것은 여기저기서 다루지만, 어떻게 사용하는게 효과적인지와 더불어 sim2real gap은 구체적으로 얼마나…

안녕하세요 기현님 댓글 감사합니다. Figure 2와 3 모두 sim과 real의 object 색상과 texture는 다릅니다. Figure 2에서 두 환경에서의 observation 차이…

[CVPR2021] Abstract Spatial-Temporal Reasoning via Probabilistic Abduction and Execution

Author: 황 유진

2 thoughts on “[CVPR2021] Abstract Spatial-Temporal Reasoning via Probabilistic Abduction and Execution”

Leave a Reply Cancel reply

Conference Deadline

NEW POST

New Comment