Author: 이 재찬

Posted in X-Review

[RA-L 2022] Q-attention: Enabling Efficient Learning for Vision-based Robotic Manipulation

안녕하세요. 이번 리뷰는 로보틱스 팀에 핏한 매니퓰레이터 강화학습에 관한 내용으로 들고 왔습니다. 로봇 매니퓰레이터 작업을 비전 기반의 강화학습인 Q-attention이란 개념을 도입해 풀어나간 논문입니다. RLBench 기반이라…

Continue Reading
Posted in X-Review

[IROS 2024] CoPa: General Robotic Manipulation through Spatial Constraints of Parts with Foundational Model

안녕하세요. 이번 주 x-review도 태스크별 대규모 로봇-액션 데이터를 이용한 학습이나, 환경 모델에 기반한 강화학습없이, 파운데이션 비전-언어 모델인 VLM(GPT4V)을 활용하여 instruction이 들어왔을 때 prompt engineering과 python…

Continue Reading
Posted in X-Review

[CoRL 2024] ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation

안녕하세요. 이번 리뷰도 태스크별 대규모 로봇-액션 데이터를 이용한 학습이나, 환경 모델에 기반한 강화학습없이, VLM+LVM 를 활용하여 free form language instruction이 들어왔을 때 python action code…

Continue Reading
Posted in B.S. X-Diary

KRoC 2025 참관기

안녕하세요. 이번 주는 X-Diary로 KRoC 2025 포스터 발표 및 참관 후기글을 작성해보고자 합니다. 이번 KRoC 2025는 평창 알펜시아 리조트에서 이루어졌고 학술대회 전체 기간은 25/02/12(수) ~…

Continue Reading
Posted in X-Review

[RSS 2024] MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting

안녕하세요. 이번 논문은 VLM과 visual prompting을 활용한 open-world 환경에서의 Robot Manipulation 태스크 관련 논문입니다. 자세히는 free-form language instruction 에 대해 VLM visual prompting을 활용한 Marking…

Continue Reading
Posted in X-Review

[arXiv 2024] RAP: Retrieval-Augmented Planning with Contextual Memory for Multimodal LLM Agents

안녕하세요. 이번 논문은 과제 제안서 작업으로 MLLM + RAG 에 대한 서베이 중 알게 된 논문입니다. 정확히 말하면 본 논문의 큰 분야는 MLLM + RAG를…

Continue Reading
Posted in X-Review

[AAAI 2024] GroundVLP: Harnessing Zero-Shot Visual Grounding from Vision- Language Pre-training and Open-Vocabulary Object Detection

안녕하세요. 이번 논문은 Zero-shot Visual Grounding 태스크 중 VLP(Vision Language Pretraining model)와 OVD를 결합한 논문입니다. zero-shot grounding을 주제로 국문저널급을 한편을 쓰기로 되어 있어서 가장 최신의…

Continue Reading
Posted in X-Diary

[이재찬] 2024년 회고록

저에게 2024년 한 해는 RCV의 일원으로 함께하게 된 첫 해이자, 저의 인생의 전환점이라고도 볼 수 있는 한해라고 생각합니다.연구실 생활에 대해 전혀 모른 채 사실 어떻게…

Continue Reading
Posted in X-Review

[arXiv 2024] LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding

안녕하세요. 제가 학부 패턴인식 수업에서 프로젝트를 진행하는 데, 그것에 대한 작은 주제로 MLLM(Multimodal LLM)을 활용한 zero-shot Visual Grounding을 시도해보고 있었습니다. 원래 처음엔 단순히 gpt4o에 모호한…

Continue Reading
Posted in X-Diary

ICAN 제2회 네이버랩스 전문가 초청 세미나 참관기

안녕하세요. 11월 13일(수)에 참석했던 제 2회 전문가 초청 세미나에 대한 이야기를 다뤄보고자 합니다. 본 초청 세미나는 “네이버와 실제 세상의 물리적 연결”이라는 주제로 네이버랩스의 권재운 연구원님께서…

Continue Reading