X-Review – Page 7 – Robotics and Computer Vision Lab

Paper X-Review

[AAAI 2025] V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning

안녕하세요 황찬미입니다!오늘도 비디오 요약 관련 최신 논문을 살펴보려고 합니다!! 그럼 바로 리뷰 시작하겠습니다 [Intro] 비디오 요약 연구는 오래됐지만 두가지의 큰 장애물이 있습니다. 먼저 데이터가 너무…

X-Review

[arXiv 2025]Rethinking Intermediate Representation for VLM-based Robot Manipulation

제가 이번에 리뷰할 논문은 11월 24일 공개된 따끈따끈한 논문입니다. 어디에 제출한 지 아직 정보를 확인할 수 없지만, Voxposer, Rekep, OmniManip 등 관심을 가지고 있는 연구들과…

X-Review

[arXiv 2025] EgoDemoGen: Novel Egocentric Demonstration Generation Enables Viewpoint-Robust Manipulation

안녕하세요, 최근 비디오 생성모델을 통한 로봇 학습 데이터 증강 파이프라인에 관심을 가지고 있는데, Giga AI에서 며칠전 공개된 embodied AI 데이터용 비디오 생성 모델이 발표와 동시에…

X-Review

[Arxiv 2025] DeepSeek-OCR: Contexts Optical Compression

RAG 과정에서 텍스트와 이미지의 연관성을 어떻게 다루고 있는지 얘기하던 중, 졸업생 이광진 연구원이 DeepSeek-OCR이라는 텍스트를 비전으로 압축(?)한다는 개념을 소개해줘서 DeepSeek-OCR 논문을 읽게 되었습니다 1. Background…

Paper X-Review

[RSS 2022]ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints

안녕하세요. 이번에 소개드릴 논문도 UC 버클리 Sergey Levine 교수님 연구실에서 2022년에 발표한 ViKiNG: Vision-Based Navigation with Kilometers-Scale Generalization이라는 논문입니다. 어쩌다보니 리뷰를 해당 연구실에서 낸 논문만…

Paper X-Review

[CVPR 2020] Counterfactual Samples Synthesizing for Robust Visual Question Answering

안녕하세요. 이번 X-Review에선 20년도 CVPR에 게재된 VQA 논문을 소개해드리고자합니다. 나온지 시간이 꽤 된 논문이지만 지금 개인 연구에 적용한 아이디어와 거의 동일하여 리뷰하게 되었습니다. 간단하게는 Visual…

X-Review

[RSS 2024] Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots

안녕하세요! 이번 리뷰는 로봇의 데이터 취득에 관련된 논문을 들고 왔습니다. Data-driven robotics 관점에서 핵심적인 요소는 데이터 그 자체라고 할 수 있습니다. 이 논문은 쉽고 빠르게…

X-Review

[arXiv 2025] VideoRAG: Retrieval-Augmented Generation over Video Corpus

1. Introduction 최근 대규모 텍스트 코퍼스와 멀티모달 데이터를 바탕으로 학습된 LLM과 이를 시각 모달리티로 확장한 LVLM은 다양한 태스크를 해결하기 위한 표준 모델로 사용되고 있습니다. 이들…

X-Review

[WACV 2026] UNO: Unifying One-stage Video Scene Graph Generation via Object-Centric Visual Representation Learning

안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 slot attention 및 object branch / relation branch 병렬 구조를 적용하여 Pixel-Level / Box-Level Video Scene Graph Generation을 수행할 수…

X-Review

DexMimicGen: Automated Data Generation for Bimanual Dexterous Manipulation via Imitation Learning

안녕하세요 최인하입니다. 이번에 리뷰할 논문은 Dexterous hand manipulation 관련 논문을 서베이 하면서 조사했던 논문을 리뷰해 보려고 합니다. 바로 시작하겠습니다. Abstract Human demonstration을 기반으로 한 imitation…

Category: X-Review

[AAAI 2025] V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning

[arXiv 2025]Rethinking Intermediate Representation for VLM-based Robot Manipulation

[arXiv 2025] EgoDemoGen: Novel Egocentric Demonstration Generation Enables Viewpoint-Robust Manipulation

[Arxiv 2025] DeepSeek-OCR: Contexts Optical Compression

[RSS 2022]ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints

[CVPR 2020] Counterfactual Samples Synthesizing for Robust Visual Question Answering

[RSS 2024] Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots

[arXiv 2025] VideoRAG: Retrieval-Augmented Generation over Video Corpus

[WACV 2026] UNO: Unifying One-stage Video Scene Graph Generation via Object-Centric Visual Representation Learning

DexMimicGen: Automated Data Generation for Bimanual Dexterous Manipulation via Imitation Learning

Conference Deadline

NEW POST

New Comment