Author: 이 재찬

Posted in X-Review

[ICLR 2025] PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding

안녕하세요. 이번 리뷰는 조금 색다른 벤치마크 관련 논문을 가져와 보았습니다(무려 150장). 바로 physical 적인 정보를 다룬 VQA 데이터셋인데요. 특히 VLM(MLLM) 의 physical 이해 능력을 벤치마킹하며…

Continue Reading
Posted in X-Review

[ICRA 2017] Learning Modular Neural Network Policies for Multi-Task and Multi-Robot Transfer

안녕하세요. 이번 리뷰도 매니퓰레이터 강화학습에 관한 내용으로 들고 왔습니다. 로봇과 태스크 변화에도 일반화를 보이는 강화학습 기법에 대한 가능성을 풀어나간 논문입니다. 리뷰 시작하겠습니다. 1. Introduction 이게…

Continue Reading
Posted in X-Review

[RA-L 2022] Q-attention: Enabling Efficient Learning for Vision-based Robotic Manipulation

안녕하세요. 이번 리뷰는 로보틱스 팀에 핏한 매니퓰레이터 강화학습에 관한 내용으로 들고 왔습니다. 로봇 매니퓰레이터 작업을 비전 기반의 강화학습인 Q-attention이란 개념을 도입해 풀어나간 논문입니다. RLBench 기반이라…

Continue Reading
Posted in X-Review

[IROS 2024] CoPa: General Robotic Manipulation through Spatial Constraints of Parts with Foundational Model

안녕하세요. 이번 주 x-review도 태스크별 대규모 로봇-액션 데이터를 이용한 학습이나, 환경 모델에 기반한 강화학습없이, 파운데이션 비전-언어 모델인 VLM(GPT4V)을 활용하여 instruction이 들어왔을 때 prompt engineering과 python…

Continue Reading
Posted in X-Review

[CoRL 2024] ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation

안녕하세요. 이번 리뷰도 태스크별 대규모 로봇-액션 데이터를 이용한 학습이나, 환경 모델에 기반한 강화학습없이, VLM+LVM 를 활용하여 free form language instruction이 들어왔을 때 python action code…

Continue Reading
Posted in B.S. X-Diary

KRoC 2025 참관기

안녕하세요. 이번 주는 X-Diary로 KRoC 2025 포스터 발표 및 참관 후기글을 작성해보고자 합니다. 이번 KRoC 2025는 평창 알펜시아 리조트에서 이루어졌고 학술대회 전체 기간은 25/02/12(수) ~…

Continue Reading
Posted in X-Review

[RSS 2024] MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting

안녕하세요. 이번 논문은 VLM과 visual prompting을 활용한 open-world 환경에서의 Robot Manipulation 태스크 관련 논문입니다. 자세히는 free-form language instruction 에 대해 VLM visual prompting을 활용한 Marking…

Continue Reading
Posted in X-Review

[arXiv 2024] RAP: Retrieval-Augmented Planning with Contextual Memory for Multimodal LLM Agents

안녕하세요. 이번 논문은 과제 제안서 작업으로 MLLM + RAG 에 대한 서베이 중 알게 된 논문입니다. 정확히 말하면 본 논문의 큰 분야는 MLLM + RAG를…

Continue Reading
Posted in X-Review

[AAAI 2024] GroundVLP: Harnessing Zero-Shot Visual Grounding from Vision- Language Pre-training and Open-Vocabulary Object Detection

안녕하세요. 이번 논문은 Zero-shot Visual Grounding 태스크 중 VLP(Vision Language Pretraining model)와 OVD를 결합한 논문입니다. zero-shot grounding을 주제로 국문저널급을 한편을 쓰기로 되어 있어서 가장 최신의…

Continue Reading
Posted in X-Diary

[이재찬] 2024년 회고록

저에게 2024년 한 해는 RCV의 일원으로 함께하게 된 첫 해이자, 저의 인생의 전환점이라고도 볼 수 있는 한해라고 생각합니다.연구실 생활에 대해 전혀 모른 채 사실 어떻게…

Continue Reading