Posted in Conference X-Review

[CVPR2024] MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training

이번에 소개드릴 논문은 CVPR2024에 게재된 MobileCLIP이라는 논문입니다. 지난주에 리뷰한 논문도 애플에서 쓴 논문이고 지금 소개드릴 논문도 애플의 논문입니다. 애플이 2023년도에 CVPR이었나 탑티어 학회에서 FastViT라는 논문을…

Continue Reading
Posted in Paper X-Review

[CVPR 2024 Highlight]SHiNe: Semantic Hierarchy Nexus for Open-vocabulary Object Detection

안녕하세요 이번 논문은 제가 하고있는 창의학기제에서 풀려고하는 문제점들을 서베이하다가 네이버에서 낸 논문이 있어서 읽어본 논문입니다. ( 네이버랩스 유럽이라 한국인 이름은 안보이네요..) 그럼 리뷰 시작하겠습니다. Abstarct…

Continue Reading
Posted in Paper X-Review

[ICCV 2025] Hybrid-Tower: Fine-grained Pseudo-query Interaction and Generation for Text-to-Video Retrieval

이번에 소개할 논문은 2025 ICCV에 accept된 논문으로, text-video retrieval 분야에서 정확성과 효율성을 모두 달성한 연구입니다. 그럼 바로 리뷰 시작하겠습니다. 1. Introduction Text-to-Video Retrieval (T2VR)은 주어진…

Continue Reading
Posted in Conference Paper X-Review

[CVPR 2024] OED: Towards One-stage End-to-End Dynamic Scene Graph Generation

안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 CVPR 2024에 게재된 논문으로, DETR 구조를 기반으로 Video Scene Graph Generation을 수행한 논문입니다. 리뷰 시작하도록 하겠습니다. Introduction Scene Graph Generation은…

Continue Reading
Posted in X-Review

[CoRL 2025] PicoPose : Progressive Pixel-to-Pixel Correspondence Learning for Novel Object Pose Estimation

안녕하세요, 7번째 X-review 입니다. 이번에 소개해드릴 논문은 2025년 CoRL에 발표된 PicoPose로, RGB 이미지만으로 Novel Object의 6D Pose를 높은 정확도로 추정하는 새로운 프레임워크입니다. 그럼 바로 시작하도록…

Continue Reading
Posted in X-Review

Reinforcement Study (Q-learning ~ Actor-Critic)

안녕하세요, 지난주에 X-sim이라는 연구에 대한 리뷰를 작성했는데요, 현실에서의 사람의 행동에 의한 물체의 trajectory 변화를 reward로 활용해 PPO 알고리즘으로 학습한 policy를 vision based 모델에 distill하고 더…

Continue Reading
Posted in Paper X-Review

[NeurIPS 2021]DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification

안녕하세요. 지난주에 이어 이번에도 토큰 프루닝(token pruning) 관련 논문을 들고 왔습니다. 오늘 소개해 드릴 논문은 2021년 NeurIPS에 발표된 DynamicViT: Efficient Vision Transformers with Dynamic Token…

Continue Reading
Posted in X-Review

[ICLR 2015] Very Deep Convolutional Networks For Large-Scale Image Recognition

안녕하세요 연구실에 들어온 지 벌써 3주차인 최인하입니다. 3주라는 시간이 정말 빠르게 지나간 것 같아 놀랍기도 하고 무섭기도 하네요. 아직은 모르는 게 많아 부족하지만 주변에서 도와주시는…

Continue Reading
Posted in Paper X-Review

[AAAI 2025] Patch-level Sounding Object Tracking for Audio-Visual Question Answering

안녕하세요 오늘의 X-Review 또한 Audio-Visual Question Answering task를 수행하는 방법론 논문을 소개해드리고자 합니다. 25년도 AAAI에 게재된 논문입니다. 그럼 바로 리뷰 시작하겠습니다. 1. Introduction 그림 1-(a)에서…

Continue Reading
Posted in X-Review

[CVPR 2025] SmartCLIP: Modular Vision-language Alignment with Identification Guarantees

다시 CVPR 2025 Highlight 논문들을 중심으로 다양한 연구를 리뷰해보려고 합니다. 1. Introduction 아시다시피, CLIP은 최근 멀티모달 학습에서 가장 대표적인 VLP 모델입니다. 이미지와 텍스트를 쌍으로 맞추는…

Continue Reading