X-Review – Page 16 – Robotics and Computer Vision Lab

[CVPR 2023] Feature Aggregated Queries for Transformer-based Video Object Detectors

안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 Video Object Detection을 다룬 논문입니다. 지금 DETR 구조를 기반으로 하는 video scene graph generatino(VidSGG) 모델을 고도화 하고자 하는데, Scene Graph의…

X-Review

[2025 CVPR] Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level Captions

안녕하세요 이번에 소개할 논문도 Text-Video Retrieval 태스크의 논문입니다. 이번 논문은 VLM을 활용해 비디오의 프레임 캡션을 생성하고 이를 다양한 방식으로 활용해 Retrieval 성능을 높인 논문입니다. 그럼…

Conference X-Review

[ICCV2025] FlashDepth: Real-time streaming Video Depth Estimation at 2K Resolution

이번에 소개드릴 논문은 Video Depth Estimation 논문입니다. 근데 이제 고해상도에 빠른 추론 속도를 곁드린. 보통 Depth estimation은 단일 프레임에 대해서 입력으로 하는 경우가 대부분이고 종종…

Paper X-Review

[CVPRW 2024]ToSA: Token Selective Attention for Efficient Vision Transformers

안녕하세요 이번 주도 지난 번에 이어서 토큰 푸르닝 관련 논문을 소개해드리려고 합니다. 생각보다 토큰 프루닝이라는 친구가 단순한듯 어렵게 느껴지는 친구 같습니다. 지 지난 주에 리뷰했던…

Conference X-Review

[CoRL 2024(oral)] D3Fields: Dynamic 3D Descriptor Field for Zero-Shot Generalizable Rearrangement

Abstract scene representation은 로봇 조작에서 중요하며 다음 3가지 특성 3D, dynamic, semantic을 모두 만족하기를 바랍니다. 그러나 지금까지는 이러한 3가지 특성을 모두 가지는 representation이 없었으며 따라서…

Paper X-Review

[ICLR2024]CLIPSELF : VISION TRANSFORMER DISTILLS ITSELF FOR OPEN-VOCABULARY DENSE PREDICTION

안녕하세요. 이번 논문은 CLIPSELF 라는 논문입니다. CLIP 의 모델 설계구조상 가지지 못하는 locality를 self distill 방식으로 보완하였고, Object detection 뿐만 아니라 segmentation 까지 쓰일 수…

X-Review

[RSS 2025] Sim-and-Real Co-Training: A Simple Recipe for Vision-Based Robotic Manipulation

안녕하세요, 지금까지 real to sim을 통한 현실을 시뮬레이터로 옮기는 과정에 대한 연구를 진행해왔는데요, 앞으로의 연구방향은 당연하게도 이렇게 구성된 환경을 바탕으로 vision based robotic manipulation policy의…

Paper X-Review

[AAAI 2025] Audio-Visual Adaptive Fusion Network for Question Answering Based on Contrastive Learning

안녕하세요. 이번 주 X-Review에서는 25년도 AAAI에 게재된 Audio-Visual Question Answering(AVQA) 관련 논문을 소개해드리겠습니다. 최근 Audio-Visual alignment learning 대한 여러가지 방법론 및 기타 아이디어를 얻어올 수…

X-Review

[ICCV 2025] MobileViCLIP: An Efficient Video-Text Model for Mobile Devices

오늘은 기존에 연구하던 논문과는 집중하는 문제가 약간 다른 논문을 리뷰해보려고 합니다. 바로 Video-Text Model 인데, Mobile에 특화된 모델이라고 합니다. 바로 시작하겠습니다. 1. Introduction 최근 비디오-텍스트…

X-Review

[2023 ICCV] Unified Coarse-to-Fine Alignment for Video-Text Retrieval

1. Introduction 이번에 소개드릴 논문 역시 Text-Video Retrieval 연구 논문입니다. Text-Video Retrieval은 서로 다른 두 모달리티를 연결하는 cross-modal alignment의 응용이라 볼 수 있습니다. 이 태스크는…

Category: X-Review

[CVPR 2023] Feature Aggregated Queries for Transformer-based Video Object Detectors

[2025 CVPR] Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level Captions

[ICCV2025] FlashDepth: Real-time streaming Video Depth Estimation at 2K Resolution

[CVPRW 2024]ToSA: Token Selective Attention for Efficient Vision Transformers

[CoRL 2024(oral)] D3Fields: Dynamic 3D Descriptor Field for Zero-Shot Generalizable Rearrangement

[ICLR2024]CLIPSELF : VISION TRANSFORMER DISTILLS ITSELF FOR OPEN-VOCABULARY DENSE PREDICTION

[RSS 2025] Sim-and-Real Co-Training: A Simple Recipe for Vision-Based Robotic Manipulation

[AAAI 2025] Audio-Visual Adaptive Fusion Network for Question Answering Based on Contrastive Learning

[ICCV 2025] MobileViCLIP: An Efficient Video-Text Model for Mobile Devices

[2023 ICCV] Unified Coarse-to-Fine Alignment for Video-Text Retrieval

Conference Deadline

NEW POST

New Comment