[KCCV2020] Review

KCCV2020을 온라인으로 참석하게 되어 정말 좋았고, 포스터 세션등에 적극적으로 참여하지 못한것 같아 아쉬움이 있습니다. 이 포스트에서는 제가 KCCV2020 참여 당시 인상깊었던 강연 몇가지를 정리하려 합니다!

1. Day1 구두세션B High-Dimensional Convolutional Networks for Geometric Pattern Recognition
– POSTECH 박재식 교수님 [ CVPR 2020 Oral ]

Correspondences 문제에 대해 연구하시다가 재미있는 발견을 하게되어 시작하셨다고 한다. 3D Correspondences 문제에 대해서 부터 자세하게 설명해주셔서 너무 좋았다.
먼저 3D Correspondences 란 [그림1]의 수식을 만족하는 관계를 찾는 것이다. R,t가 GT일때 다음이 만족하면 대응점인 것이다.

그림1
그림 2.

그림 1의 식은 그림 2의 상단 식으로 변형할 수 있고, 이는 결국 6D 공간에서 3D Plain을 찾는 문제로 생각할 수 있다. 이는 2D Correspondences 문제로도 확장할 수 있고 (Conic sections 문제, Cone의 intersection을 찾는 문제) , 즉 Correspondences 문제가 High-Dimensional Space에서 plain의 intersction, 기하적 패턴을 찾는문제로 해석할 수 있다는 점이다.
발표에서는 이 발견을 더욱 발전시켜서 Geometric pattern recognition 문제를 binary로 분류하는 high-dimensional space에서의 segmentation 문제와 같다고 해석하였다.
3D에서 segmentation은 point cloud를 이용하여 진행된다 이때 point cloud가 모든 occupancy가 3D 공간에 정의되지 않아 sparse tensor 정보로 task를 진행하는 방식이다. 이를 확장한 N-D Convolution을 이용하여 Segmentation task를 잘 진행할 수 있는지 확인하고 segmentation in high-dimensional space 문제를 해결하였다고 한다.
다음은 발표에 소개된 패턴 segmentation in high-dimensional space 실험의 일부이다

high dimension space에서 plain 찾기 예시
high dimension space에서 plain 찾기의 정량적 결과. 고차원(그래프의 x 축)에서도 매우 좋은 성능을 냄을 알 수 있음 [KCCV2020 발표 ppt 발췌]

위와 같은 실험을 통해 high dimension space에서의 패턴 segmentation의 경쟁력을 확인하고 이를 이용하여 6D ConvNet을 통한 plane segmentation을 이용한 3D Correspondences문제 해결을 진행하는 과정을 소개하였다[그림3].

그림3

먼저 Feature를 추출하여 매칭후보를 만든 이후, 6D 공간에서 plane 패턴의 관계를 갖지 않는 점들을 outlier로 가정하여 Filtering을 진행하여 성능을 높였다고 한다. 마지막으로 방법의 단점은 성능은 좋지만, high dimension space를 다루기 때문에 속도가 조금 느린편에 속한다는 점이라 남겼다.

2. Day2 초청강연1 Human Level Machine Learning
– 서울대학교 장병탁 교수님 [주제:머신러닝은 앞으로 어떻게 발전 해야할까]

Most deep learning tasks are just input-output mapping problems?
먼저 머신의 지능에 대한 이야기가 화두가 되었는데, 많은 딥러닝 테스크가 사실은 사람 혹은 동물이 하는 행위보다 그리 지능적이지 않아보인다는 것이다. 최근 생성모델등의 발전으로 단순 classification이 아닌 다양한 task를 진행하지만, 결과적으로는 아직 mapping 문제에 가깝다. 물론 어려운 문제도 mapping문제로 공식화 하여 풀 수있다는 점을 시사할 수 있지만 인지과학이나 심리학자, 일반인이 생각하는 지능의 의미는 이와 같은 단순 데이터 mapping 행위가 아닌 목표도 갖고 있으며 목표에 도달하기 위해 오랜 시간에 걸쳐서 끊임없는 탐색, 불확실성에 대한 시도를 통해 최종적으로 행동을 하는 것을 의미한다. 강연에서는 지능적인 인공지능에 대해 환경을 인지 변화할 수 있는 능력을 중요시 하며 결론적으로 스스로 성능을 향상할 수 있는 특성을 머신러닝의 핵심이라 소개하였다.
교수님께서 연구실에서 풀고싶은 문제는 아래와 같다고 소개해주셨다.
– Can we build a cognitive agent that learns 24/7 without intervention? This would be an interesting challenge for achieving human-level general intelligence.
어떤것이든, 사람의 간섭 없이 에이전트가 무언가를 학습할 수 있는가? 어떤것이든 무감독으로 스스로 성능을 높일 수있다면 human-level의 지능을 갖을 수 있으므로, 간섭 없이 학습하는 과정은 중요하다.

교수님께서는 [Zhang, AAAI SSS, 2009] 에서 당시 소개하신 앞으로 Human-level AI를 위해 연구되어야 할 12개의 항목(그림 1)을 언급하셨는데 그 중 많은 연구가 진행되고 있어 신기하였다.

그림4. Zhang, AAAI SSS, 2009

또한 Humal Leval에 도달하기 위한 위한 Machine Intelligence는 Multi-Sensor Streams의 Non i.i.d(independent and identically distributed, 학습 데이터간의 관계가 없는) Non-Stationary한 데이터를 잘 다룰 수 있어야 하며 이는 Machine의 지능이 빠르고(Rapid), 유동적이고(Flexible), 강인해야(Robust)한다고 정리하였다.
또한 Human level machine Learning 문제를 위해 뇌,인지과학쪽 지식도 소개해 주셔서 흥미로웠다. [Fuster, 2004] 책의 요약에서 Brain as Widely Distributed, Parallel, Interactive, Overlapping, Dynamic Relational Memory Networks라고 소개하였는데 이와 같은 흐름으로 Hypernetwork를 15년 전부터설계하셨다고 한다. [Zhang, DNA-2006] 이는 극단적 무감독, 끊임없이 학습하는 one-shot learning이 가능한 일반화를 잘하는 확률적 모델로 소개되었는데 기회가 있을 때 리뷰해보고 싶다. 이 모델로 Multimodal Memory Game(MMG) 을 진행 [2008]하였는데 Text to Image 게임으로 두 도메인끼리 cross model로 생성 가능하다고 한다. 또한 Human level 인공지능을 위해서는 base가 되는 개념망이 필요하다 하였고, 어디서 들어본 말이였지만, 아직 어떻게 적용되어야 하는지 이해를 못하여 신기하였다.
현재 진행중인 연구도 소개하여 주셨다.
VTT : Video turing test : video를 이용한 turning test로 multi resolution의 representation(예를 들어 하나의 영상을 5분, 10분으로도 표현 가능)이 중요한 부분 중 하나라 소개해 주셨다.
Lifeome : Wearable device로 모은 데이터를 무감독학습하여 서비스까지 이어지는 연구로,이름은 human gnorm project를 본따 일상 생활의 패턴을 학습한다.
BabyMind : 아이들이 학습하는 과정 (24시간, 무감독학습)을 통해 알려져 있지 않은 학습의 원리를 발견하려 한다.

3. 참조
그림1, 그림2, 그림3
그림4

Author: 황 유진

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다