[ICCV2023] Reinforce Data, Multiply Impact: Improved Model Accuracy and Robustness with Dataset Reinforcement
이번에 소개드릴 논문은 2023 ICCV에 게재된 논문으로 애플에서 쓴 논문입니다. 원래는 애플에서 MobileCLIP2가 나왔다는 소식을 듣고 해당 논문을 읽으려고 했는데, 해당 논문에서 Reinforced training이라는 기법을…
[CoRL 2025(Oral)] X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real
안녕하세요, 이번주 X review는 real to sim to real을 주제로 작성한 논문입니다. 이번 2025년 CoRL의 Oral paper인데, 지난주와 마찬가지로 시뮬레이션환경, synthetic data를 어떤식으로 활용할 것인가?에…
[Arxiv 2025] GAID: Frame-Level Gated Audio-Visual Integration with Directional Perturbation for Text-Video Retrieval
arxiv 구경하다 새로운 VTR 연구가 나와서 리뷰해보려고 합니다. 1. Introduction 텍스트-비디오 검색(T2VR)은 텍스트 쿼리에 맞는 영상을 찾아내는 기술로, 비디오 검색과 추천, 요약 등 다양한 서비스에서…
[arxiv 2025.02] SOFAR: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation
manipulation task의 high-level planning 시 spatial 정보, 특히 semantic orientation 정보를 고려한 방법론을 들고 왔습니다. 복잡한 로봇 조작 액션을 위해선 ‘객체 중심의 의미론적 방향 이해’…
[arXiv 2024] Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG
현재 LLM은 Long-context 입력을 소화할 수 있는 수준으로 빠르게 발전하고 있습니다. 그러나 아직 완벽하지 않은데요, 비교적 짧은 입력만을 소화할 수 있던 기존의 LLM이 데이터베이스 외부의…
[ArXiv 2025]Accurate and efficient Zero-shot 6D pose estimation with frozen foundation models
안녕하세요 8번째 X-Review 작성자 손우진입니다. 이번에 리뷰할 논문은 BoP challenge(Benchmark 6D object estimation) 상위권을 다 지배하고있는 방법론에 대해서 리뷰를 해볼까 합니다. 그럼 바로 리뷰시작 하도록…
[NIPS2023] Self-Chained Image-Language Model for Video Localization and Question Answering
안녕하세요. 박성준 연구원입니다. 오늘도 Video Question Grounding 논문입니다. Introduction 비디오 정보와 자연어 정보를 같이 이해할 수 있는 Video-LM은 이미지-언어 모델인 Image-LM에 비해 더 높은 계산…
[CVPR 2023] Feature Aggregated Queries for Transformer-based Video Object Detectors
안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 Video Object Detection을 다룬 논문입니다. 지금 DETR 구조를 기반으로 하는 video scene graph generatino(VidSGG) 모델을 고도화 하고자 하는데, Scene Graph의…
[2025 CVPR] Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level Captions
안녕하세요 이번에 소개할 논문도 Text-Video Retrieval 태스크의 논문입니다. 이번 논문은 VLM을 활용해 비디오의 프레임 캡션을 생성하고 이를 다양한 방식으로 활용해 Retrieval 성능을 높인 논문입니다. 그럼…
[ICCV2025] FlashDepth: Real-time streaming Video Depth Estimation at 2K Resolution
이번에 소개드릴 논문은 Video Depth Estimation 논문입니다. 근데 이제 고해상도에 빠른 추론 속도를 곁드린. 보통 Depth estimation은 단일 프레임에 대해서 입력으로 하는 경우가 대부분이고 종종…
안녕하세요 태주님 댓글 감사합니다. 답변을 드리자면, A1. 저자가 real data 수를 바꿔가며 실험을 진행할 때, Real data가 150개일땐 Real data…