Category: Paper

Paper Review

Posted in Paper X-Review

[Arxiv 2025] VOST-SGG: VLM-Aided One-Stage Spatio-Temporal Scene Graph Generation

안녕하세요, 허재연입니다. 오늘도 Video Scene Graph Generation 논문을 가져 왔습니다. 포멧과 공개 시기를 미루어 보아 CVPR2026에 제출된 논문이 아닐까 하네요. 지금까지의 방법론들과는 다르게 VLM의 정보를…

Continue Reading
Posted in Paper X-Review

[arxiv 2025] GigaWorld-0: World Models as Data Engine to Empower Embodied AI – Part 1… GigaWorld-0-Video

이번 리뷰 논문은 요즘 로봇 러닝 분야에서 눈에 띄는 성과를 보이고 있는 GigaAI에서 출판한 논문입니다. GigaAI에서 수행 중인 연구 중에서 가장 대단한 연구라고 생각하는 기법을…

Continue Reading
Posted in Paper

[CoRL 2024]LeLaN: Learning A Language-Conditioned Navigation Policy from In-the-Wild Videos

안녕하세요. 이번에 리뷰로 들고온 논문은 2024 CoRL에 게재된 LeLaN: Learning A Language-Conditioned Navigation Policy from In-the-Wild Videos 이라는 논문입니다. 이 논문의 간단한 컨셉은 언어 조건…

Continue Reading
Posted in Paper X-Review

[arxiv 2025] Solving Spatial Supersensing Without Spatial Supersensing

안녕하세요! 어쩌다 보니 첫 x-review를 쓰게 된 이재윤입니다. 제 첫 x-review는 ResNet이나 Transformer가 될 줄 알았는데, 이번에 근택님 논문 작업에 참여하게 되어 Long video understanding…

Continue Reading
Posted in Paper X-Review

[2025 ICLR] Retrieval Head Mechanistically ExplainsLong Context Factuality

안녕하세요. 이번에 소개할 논문은 롱컨텍스트 LLM이 긴 입력에서 정보를 실제로 어떻게 찾아 쓰는지를 모델 내부 attention head를 통해 분석한 연구입니다. 그럼 바로 리뷰 시작하겠습니다. 1….

Continue Reading
Posted in Paper X-Review

[Arxiv 2026] BabyVision: Visual Reasoning Beyond Language

안녕하세요 이번에 들고온 논문은 최신 MLLM 들의 시각적 능력이 언어적 priors에 크게 의존하고 있고 실제 모델의 근본적인 시각적 능력을 평가하기 위한 벤치마크를 제공한 논문입니다. 1/13일에…

Continue Reading
Posted in Paper X-Review

[IJCV 2025] Guiding Audio-Visual Question Answering with Collective Question Reasoning

Guiding Audio-Visual Question Answering with Collective Question Reasoning 안녕하세요 이번에도 AVQA 관련된 논문을 들고왔습니다. 방법론적으로 현재 연구중인 상황에서 각 모달리티별 아웃풋들을 어떻게 잘 Fusion 해서…

Continue Reading
Posted in Paper X-Review

[NeurIPS2025]VideoLucy: Deep Memory Backtracking for Long Video Understanding

논문 간단 소개 본 논문은 Long video Understanding을 위한 agent 기반 프레임워크를 제시합니다. LLM을 활용하여 비디오에서 중요 정보를 찾아내거나 정보를 통합해 답변을 생성하는 agent를 설계하는…

Continue Reading
Posted in Paper X-Review

[arXiv 2025] SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics

안녕하세요! 첫 X-Review를 작성하게 된 김기현입니다. 첫 Review 논문으로는 석준님과 우현님과 함께 우편물 배달 task를 수행하기 위한 VLA, SmolVLA 논문을 들고 왔습니다. 간단하게 한 마디로…

Continue Reading
Posted in Paper X-Review

[AAAI 2025] Motion-aware Contrastive Learning for Temporal Panoptic Scene Graph Generation

안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 AAAI2025에 게재된 논문으로, segmentation 기반 Video Scene Graph Generation을 다룬 논문입니다. 리뷰 시작하도록 하겠습니다. 자율주행 에이전트, 지능형 시스템, 로봇 등에…

Continue Reading