[월:] 2025년 05월

Posted in Paper X-Review

[CVPR 2022] SGTR: End-to-end Scene Graph Generation with Transformer

안녕하세요, 허재연입니다. 이번에는 Scene Graph Generation(SGG)분야 논문을 들고 왔습니다. CVPR 2022년에 게재된 논문으로, DETR의 철학을 많이 참고한 느낌의 방법론입니다. task가 아직 저에게 꽤 낯설고 수식도…

Continue Reading
Posted in X-Review

[arXiv 2025] π0.5: a Vision-Language-Action Model with Open-World Generalization

이번 리뷰 논문은 Physical AI를 선도 하는 그룹인 Physical intelligence의 최신 VLA 논문으로 π0의 후속 논문입니다. 굉장히 fancy한 접근과 파격적인 실험 결과를 보여준 논문입니다. 아래의…

Continue Reading
Posted in Paper X-Review

CLIP-MOE: TOWARDS BUILDING MIXTURE OF EXPERTS FOR CLIP WITH DIVERSIFIED MULTIPLET UPCYCLING

안녕하세요. 이번 리뷰에서는 CLIP 모델에 Mixture of Expert(MoE)를 결합한 확장 연구를 소개하고자 합니다. 비록 2025 ICLR에서는 Reject된 논문이지만 모델 구조와 리뷰어들의 코멘트를 참고하여, 어떤 방식으로…

Continue Reading
Posted in Paper X-Review

[CVPR 2022] Text Spotting Transformers

안녕하세요 류지연입니다.저는 이번주부터 Text Spotting이란 새로운 task에 대한 논문을 보고 있습니다. Text Spotting은 이미지 속 단어들의 위치를 찾고 각 단어를 인식하는 task를 말합니다. 자율주행 환경에서…

Continue Reading
Posted in Paper X-Review

[CVPR2024]Scaling Up Video Summarization Pretraining with Large Language Models

최근 LLMs(Large Language Models)을 활용해 다양한 테스크를 수행하기 위해 맞춤형 학습 방법을 제안하는 연구가 활발하게 진행되고 있습니다. LLMs은 대용량의 데이터를 학습하여 상식을 포함한 인간의 추론…

Continue Reading
Posted in Conference X-Review

[CVPR 2025]VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation

Abstract 로봇은 미래에 다양한 작업을 수행할 수 있을 것으로 기대가 되지만, 확장성이 떨어지는 physical robot 학습을 최소화하면서 학습 환경과 실제 환경의 간극을 어떻게 줄일 수…

Continue Reading
Posted in Paper X-Review

[TPAMI 2025] Instruction-Guided Scene Text Recognition

안녕하세요, 쉰 여섯번째 X-Review입니다. 이번 논문은 2025년도 TPAMI에 올라온 Instruction-Guided Scene Text Recognition논문입니다. 바로 시작하도록 하겠습니다. 🫎 1. Introduction Scene Text Recognition은 scene image내의 text를…

Continue Reading
Posted in Paper X-Review

[arXiv 2025.02] Token Pruning in Multimodal Large Language Models: Are We Solving the Right Problem?

안녕하세요. 이번에는 MLLM의 Token Pruning에 대한 분석을 담은 논문을 들고 왔습니다. 본 논문을 읽게 된 계기가 참 긴데, 현재 제가 진행 중인 실험과 연관되어 있습니다….

Continue Reading
Posted in Conference X-Review

[CVPR 2025] Video-ColBERT: Contextualized Late Interaction for Text-to-Video Retrieval

오늘도 Video-Text Retrieval 논문에 대해 리뷰해보겠습니다. Conference: CVPR 2025 Authors: Arun Reddy, Alexander Martin, Eugene Yang, Andrew Yates, Kate Sanders, Kenton Murray, Reno Kriz, Celso M….

Continue Reading
Posted in X-Review

[CoRL 2022] BEHAVIOR-1K: A Benchmark for Embodied AI with 1,000 Everyday Activities and Realistic Simulation

안녕하세요, 이번주엔 여태까지 진행하던 강화학습 논문들 리뷰를 접어두고 Embodied AI를 위한 벤치마크 논문을 가지고 왔습니다. BEHAVIOR-1K는 comprehensive 한 시뮬레이션 벤치마크로, BEHAVIOR-1K 데이터셋과 OmniGibson이라는 시뮬레이션을 지원한다는…

Continue Reading