[arXiv 2021] Multimodal End-to-End Sparse Model for Emotion Recognition
감정인식 관련 논문입니다. 저번 리뷰의 음성 인식처럼 한 가지 모달리티가 아니라, 총 세 가지의 모달리티 (video, audio, text) 를 이용하여 감정을 인식하는 task 에 대해…
[CVPR2021] Visual Semantic Role Labeling for Video Understanding
오늘 리뷰할 논문은 이전 리뷰 에서 다루었던 논문의 motivation이 되었던 논문 “Visual Semantic Role Labeling for Video Understanding” 입니다. 기존 비디오 관련 분야에서는 video action…
[CVPR2019] BASNet: Boundary-Aware Salient Object Detection
이번 리뷰 논문은 Salient Object Detection 논문 중 가장 보편적으로 인정 받는 방법론 입니다. 간단 명료한 네트워크 구조와 새로운 조합의 loss를 제안했습니다. 또한 Method 설명…
Protected: [2022 Sensors Peer Review] Emotion Recognition of Partial Face Using a Feature Vector Technique
There is no excerpt because this is a protected post.
[2022 CVPR] An Empirical Study of End-to-End Temporal Action Detection
Before Review 이번 논문 리뷰도 Temporal Action Detection(Localization) 논문을 가져왔습니다. Temporal Action Detection 관련 연구를 할 때 고려할만한 요인들을 여러 가지 소개해주면서 이 Task 자체에…
[2021 IEEE TCE]End-to-End 6DoF Pose Estimation From Monocular RGB Images
이번에 제가 리뷰할 논문은 6DoF 자세추정으로 단일RGB카메라만을 사용하여 6DoF pose를 추정하는 그런 논문입니다. 해당 논문은 2018 ApolloScape challenge에서 1등을 차지하였다고 합니다. 해당 데이터셋에서는 79개의 자동차…
Semi-Supervised Learning of Visual Features by Non-Parametrically Predicting View Assignments with Support Samples
소개 본 논문[pdf]은 non-parametrically 한 방식으로 unlabeled image의 psuedo label을 생성하여 학습하는 semi-supervised learning논문이다. labeled image로 구성된 support samples를 이용해 pseudo label을 생성하고 이를 학습에…
[ICCV 2021] DOLG: Single-Stage Image Retrieval with Deep Orthogonal Fusion of Local and Global Features
최근에 읽고 있는 논문 시리즈의 마지막(?) 논문입니다. 최근 물체 중심 이미지 검색 논문들을 많이 보고있는데요. DELF → DELG → DOLG(Deep Orthogonal Local and Global feature…
[CVPR2020]SuperGlue: Learning Feature Matching with Graph Neural Networks
1. Abstract 2개의 local feature의 대응되는 것을 찾고, 맞지않는 포인트는 거부하여 matching하는 SuperGlue라는 neural network를 소개한다. attention 기반의 super glue가 3D 장면 이해와 feature assignment를…
[CVPR2022]RFNet : Unsupervised-Network for mutually reinforcing Multi-modal Image registration and fusion
이번에 소개드릴 논문은 CVPR2022에 게재된 RFNet이라는 논문입니다. 해당 논문의 분야는 논문 제목에서도 확인하실 수 있듯이, Image Registration과 Image Fusion에 관한 논문인데, Image registration에 조금 더…
좋은 포인트를 지적해주신 것 같네요. 말씀하신 내용처럼, DiscoVLA는 PImgAlign 모듈에서 멀티모달 LLM인 LLaVA-NeXT를 활용해 프레임 단위의 pseudo-caption을 생성하고, 이를 통해…