[일:] 2024년 03월 17일

Posted in Paper X-Review

[ECCV 2022] Zero-Shot Temporal Action Detection via Vision-Language Prompting

오늘의 X-Review에서는 Zero-shot 기반으로 Temporal Action Localization을 수행하기 위해 CLIP을 활용한 논문에 대해 소개해드리겠습니다. 22년도 ECCV에 게재되었습니다. 1. Introduction 22년도는 그 당시 CLIP의 등장으로 다양한…

Continue Reading
Posted in Paper X-Review

[Infrared Phys Technol 2024] Thermal-visible stereo matching at night based on Multi-Modal Autoencoder

안녕하세요, 스물일곱 번째 X-Review입니다. 이번 논문은 2024년도 Infrared physics & technology에게재된 Thermal-visible stereo matching at night based on Multi-Modal Autoencoder 논문입니다. 그럼 바로 리뷰 시작하겠습니다….

Continue Reading
Posted in Paper X-Review

[AAAI 2024] SPGroup3D: Superpoint Grouping Network for Indoor 3D Object Detection

안녕하세요, 스물 여섯 번째 x-review 입니다. 이번 논문은 2024년도 AAAI에 게재된 SPGroup3D: Superpoint Grouping Network for Indoor 3D Object Detection 입니다. 그럼 바로 리뷰 시작하겠습니다…

Continue Reading
Posted in Conference X-Review

[CVPR 2024]MatchU: Matching Unseen Objects for 6D Pose Estimation from RGB-D Images

안녕하세요. 제가 이번에 리뷰할 논문은 CVPR 2024에 accept된 6D Pose Estimation 논문입니다. CVPR 2024논문 리스트를 보니 이번에는 6D 관련 논문들이 작년에 비해 증가하였고, 대부분 Novel…

Continue Reading
Posted in X-Review

[NAACL 2022] Analyzing Modality Robustness in Multimodal Sentiment Analysis

최근 multi-modal 모델이 해당 모델을 구성하는 특정 single modality에 대해 의존성을 가지고 있는 지 검증하기 위해 관련 방법론을 서베이하였습니다. 이 논문은 서베이 중 발견한 논문으로,…

Continue Reading
Posted in Paper X-Review

[CVPR 2024]SAM-6D: Segment Anything Model Meets Zero-Shot 6D Object Pose Estimation

안녕하세요, 이번에는 이전에 리뷰한 CNOS로부터 확장되어 최종 6D pose까지 추정하는 올해 CVPR accept된 논문입니다. Foundation model 기반으로 하는 이러한 연구 트렌드가 앞으로도 계속해서 이어지는지는 지켜보아야…

Continue Reading
Posted in News Paper X-Review

[AAAI 2024] Entropic Open-set Active Learning

안녕하세요 정의철 연구원 입니다. 이번에 제가 소개할 논문은 [AAAI 2024] Entropic Open-set Active Learning이란 논문입니다. 지금까지 읽어보았던 Active Learning 논문들은 모두 Closed-set의 상황에서 진행된 연구였는데…

Continue Reading
Posted in X-Review

[ICCV2021]Zero-shot Natural Language Video Localization(PSVL)

안녕하세요. 박성준입니다. 오늘은 또 다른 Moment Retrieval 리뷰입니다. Moment Retrieval은 자연어 쿼리에 해당하는 구간을 비디오에서 찾아서 반환하는 task입니다. input으로 untrimmed video(편집되지 않은 영상)와 text query가 주어지고,…

Continue Reading
Posted in Conference X-Review

[ICLR2023] VisionTransformer Adapter for Dense Prediction

이번에 소개드릴 논문은 VisionAdapter라는 논문입니다. 방법론의 컨셉 자체는 단순한 것 같은데 ViT 구조에 언제든지 붙일 수 있다보니 그 범용성이 좋고 성능 향상도 크게 올리다보니 다양한…

Continue Reading