Robotics and Computer Vision Lab

최 인하 on [arXiv 2025] SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics01/13/2026
안녕하세요 기현님 리뷰 감사합니다. 다름이 아니라 제가 이번에 Attention is all you need라는 논문을 리뷰해서 Attention에 대해서 공부했습니다. 제가 VLM에…
이 재윤 on [NIPS 2017]Attention Is All You Need01/13/2026
안녕하세요 인하님! 좋은 리뷰 감사합니다. 트랜스포머의 학습 과정은 자세히 다뤄주신 것 같은데, 어떻게 inference를 하는 지는 없는 거 같아서 질문…
신 인택 on [CORL 2022]RECON: Rapid Exploration for Open-World Navigation with Latent Goal Models01/13/2026
안녕하세요 우현님 좋은 리뷰 감사합니다. 읽다보니 데이터를 18개월 촬영해서 논문하나 썻다는게 참.. 많은 생각이 들게 하네요, 질문이 하나 있는데 "지금…
김기현 on [NIPS2025] Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding01/13/2026
안녕하세요, 성준님 좋은 리뷰 감사합니다. 제가 이해한 바로는 Vgent는 비디오를 클립 단위로 나누어 각 클립을 노드로 구성하고, 이들 간의 연관성을…
안 우현 on [arXiv 2025] IGen: Scalable Data Generation for Robot Learning from Open-World Images01/13/2026
안녕하세요 영규님 리뷰 감사합니다. 논문이랑은 조금 동떨어질 수 있는 질문일 수 있을거 같은 제가 잘은 모르지만 Pointcloud 기반 렌더링은 시각적…

[IROS 2025] VLM See, Robot Do: Human Demo Video to Robot Action Plan via Vision Language Model

[AAAI 2025] V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning

[arXiv 2025]Rethinking Intermediate Representation for VLM-based Robot Manipulation

[arXiv 2025] EgoDemoGen: Novel Egocentric Demonstration Generation Enables Viewpoint-Robust Manipulation

[Arxiv 2025] DeepSeek-OCR: Contexts Optical Compression

[RSS 2022]ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints

[CVPR 2020] Counterfactual Samples Synthesizing for Robust Visual Question Answering

[RSS 2024] Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots

[arXiv 2025] VideoRAG: Retrieval-Augmented Generation over Video Corpus

[WACV 2026] UNO: Unifying One-stage Video Scene Graph Generation via Object-Centric Visual Representation Learning

Conference Deadline

NEW POST

New Comment