[카테고리:] X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[ICML 2021] Learning Transferable Visual Models From Natural Language Supervision (CLIP) – Part 2
안녕하세요. 백지오입니다. 열세 번째 X-REVIEW는 지난 리뷰에 이은 CLIP 리뷰 파트 2입니다. 지난 파트 1 리뷰에서 CLIP의 개념과 방법론을 알아보았는데, 이번 리뷰에서는 저자들이 수행한 실험과…
[CVPR workshop 2020] NH-HAZE: An Image Dehazing Benchmark with Non-Homogeneous Hazy and Haze-Free Images
이번 리뷰 논문은 Image Dehazing 분야에서 처음으로 real-world의 데이터 셋을 구성하여 챌린지(NTIRE 중 Dehazing 분야)를 개최한 NH-HAZE라는 데이터 셋에 다루고자 합니다. 해당 데이터 셋은 기존…
[CVPR 2022]FS6D: Few-Shot 6D Pose Estimation of Novel Objects
Abstract 6D Pose Estimation은 고품질의 CAD 모델에 의존도가 높다는 문제가 있어 많은 수의 instance로 확장이 어렵다는 한계가 있습니다. 해당 논문은 본 적 없는 unknown object에…
[NeurIPS 2021] Unleashing the Power of Contrastive Self-Supervised Visual Models via Contrast-Regularized Fine-Tuning
안녕하세요, 허재연입니다. 요즘 Self-supervised learning을 활용해 pretrain한 이후 finetuning하는 과정에서 어떻게 하면 성능을 올릴 수 있을까 고민하고 있는데, 고민 도중 찾아본 논문을 소개하고자 합니다. 보통…
[ICASSP 2023] Fast Yet Effective Speech Emotion Recognition with Self-Distillation
이번에 리뷰할 논문은 ICASSP 2023의 Fast Yet Effective Speech Emotion Recognition with Self-Distillation으로 이전에 리뷰했던 self-distilation 기법을 음성 감정인식 분야에 적용한 논문입니다. 최신 논문 중…
[ECCV 2018] Implicit 3D Orientation Learning for 6D Object Detection from RGB Images
안녕하세요. 이번에도 6D pose estimation 논문입니다. 좀 지난 논문이긴 하지만, 아직까지도 reference가 달리기도 하고 6D 관련 논문에서는 꽤 많은 인용수를 가지고 있는 논문이라 읽으려고 항상…
[CVPR 2023] Learning Situation Hyper-Graphs for Video Question Answering
Before Review 이번 X-Review는 처음 읽어보는 Video Question Answering(이하 VQA) 논문 입니다. VQA에 관심이 생긴 건 아니고, Graph Representation을 활용하여 semantic representation을 고도화하는 논문을 찾다가…
[NeurIPS 2019] RUBi:Reducing Unimodal Biases for Visual Question Answering
안녕하세요. 이번 리뷰는 감정인식 분야가 아닌 생소한 VQA 논문을 가져와봤는데요. 이전에 김동진 교수님의 초청 세미나에서 debiasing 분야가 굉장히 흥미로워 이 논문을 일게 되었고, 이 논문을…
[ICML 2021] Learning Transferable Visual Models From Natural Language Supervision (CLIP) – Part 1
이런 분들께 이 논문을 추천드립니다. CLIP이 도대체 뭔지 궁굼하신 분 Multi-modal Joint Embedding에 관심이 있으신 분 27 페이지에 달하는 이 논문을 읽을 엄두가 안 나시는…
[AAAI 2020] M3ER: Multiplicative Multimodal Emotion Recognition using Facial, Textual, and Speech Cues
Introduction 여느 논문처럼 감정인식 task의 중요성을 언급하는 것으로 시작하는데요, human-interactive에는 감정인식이 중요하며, 인간이 다른 사람의 감정을 유추할 때 그 사람의 표정, 말투, 행동 등을 종합적으로…
최신 댓글