Category: Paper
Paper Review
[CVPR 2023] R2Former: Unified Retrieval and Reranking Transformer for Place Recognition
안녕하세요. 첫번째 X-review네요.바로 시작하겠습니다. 1. Introduction VPR에서는 주로 two stage로 retrival을 진행하는데, 먼저 global retrival과 reranking을 진행합니다. 지금까지의 논문들은 먼저 global retrival로 top N개의 이미지를…
[IROS 2025] GSPR: Multimodal Place Recognition using 3D Gaussian Splatting for Autonomous Driving
본 논문은 최근 핫한 토픽은 3D Gaussian Splatting 을 Place Recognition (PR) 분야에 접목한 논문입니다. 기존 PR 모델들이 피처 레벨에서의 추상적인 퓨전에 집중했다면, 본 논문은…
[RSS 2023] Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
안녕하세요, 저번 주에는 VLA 모델의 대표작 중 하나인 SmolVLA에 대해서 리뷰를 했었습니다. 해당 논문에서 Baseline으로 언급된 것이 Vision Action(VA) 기반의 ACT였고, 이에 대해서 흥미가 생겨서…
[Arxiv 2025] VOST-SGG: VLM-Aided One-Stage Spatio-Temporal Scene Graph Generation
안녕하세요, 허재연입니다. 오늘도 Video Scene Graph Generation 논문을 가져 왔습니다. 포멧과 공개 시기를 미루어 보아 CVPR2026에 제출된 논문이 아닐까 하네요. 지금까지의 방법론들과는 다르게 VLM의 정보를…
[arxiv 2025] GigaWorld-0: World Models as Data Engine to Empower Embodied AI – Part 1… GigaWorld-0-Video
이번 리뷰 논문은 요즘 로봇 러닝 분야에서 눈에 띄는 성과를 보이고 있는 GigaAI에서 출판한 논문입니다. GigaAI에서 수행 중인 연구 중에서 가장 대단한 연구라고 생각하는 기법을…
[CoRL 2024]LeLaN: Learning A Language-Conditioned Navigation Policy from In-the-Wild Videos
안녕하세요. 이번에 리뷰로 들고온 논문은 2024 CoRL에 게재된 LeLaN: Learning A Language-Conditioned Navigation Policy from In-the-Wild Videos 이라는 논문입니다. 이 논문의 간단한 컨셉은 언어 조건…
[arxiv 2025] Solving Spatial Supersensing Without Spatial Supersensing
안녕하세요! 어쩌다 보니 첫 x-review를 쓰게 된 이재윤입니다. 제 첫 x-review는 ResNet이나 Transformer가 될 줄 알았는데, 이번에 근택님 논문 작업에 참여하게 되어 Long video understanding…
[2025 ICLR] Retrieval Head Mechanistically ExplainsLong Context Factuality
안녕하세요. 이번에 소개할 논문은 롱컨텍스트 LLM이 긴 입력에서 정보를 실제로 어떻게 찾아 쓰는지를 모델 내부 attention head를 통해 분석한 연구입니다. 그럼 바로 리뷰 시작하겠습니다. 1….
[Arxiv 2026] BabyVision: Visual Reasoning Beyond Language
안녕하세요 이번에 들고온 논문은 최신 MLLM 들의 시각적 능력이 언어적 priors에 크게 의존하고 있고 실제 모델의 근본적인 시각적 능력을 평가하기 위한 벤치마크를 제공한 논문입니다. 1/13일에…
[IJCV 2025] Guiding Audio-Visual Question Answering with Collective Question Reasoning
Guiding Audio-Visual Question Answering with Collective Question Reasoning 안녕하세요 이번에도 AVQA 관련된 논문을 들고왔습니다. 방법론적으로 현재 연구중인 상황에서 각 모달리티별 아웃풋들을 어떻게 잘 Fusion 해서…
안녕하세요 승현님 댓글 감사합니다. 해당 figure는 반투명으로 표현된 여러 초기 포즈들의 inital state에서 출발해도 일관되게 로봇이 작업을 완수 할 수…