KRoC 2025 참관기
안녕하세요. 이번 주는 X-Diary로 KRoC 2025 포스터 발표 및 참관 후기글을 작성해보고자 합니다. 이번 KRoC 2025는 평창 알펜시아 리조트에서 이루어졌고 학술대회 전체 기간은 25/02/12(수) ~…
[EMNLP 2023] Open-Ended Instructable Embodied Agents with Memory-Augmented Large Language Models
1. Introduction free-form 형식의 human instruction과 human-robot dialogue를 로봇이 실행 가능한 plan으로 해석하는 것은 language의 다양성과 복잡성 때문에 어렵습니다. 또한 human language는 long-term reference와 질문,…
[arXiv 2024] OVAL-Prompt: Open-Vocabulary Affordance Localization for Robot Manipulation through LLM Affordance-Grounding
안녕하세요, 이번 X-review는 재찬이 학회 발표에 도움이 되보고자 읽어봤던 논문이어서 VLM과 LLM을 활용한 affordance localization Prompting 논문입니다. Affordance라는 개념이 생경해서 찾아본 결과 칼은 물체를 “썰…
[ICLR 2020] Contrastive Representation Distillation
안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 2020년 ICLR에 게재된 contrastive representation distillation입니다. 이름 그대로 knowledge distillation에 당시 유행하던 contrative loss를 도입하여 성능을 개선한 내용인데, method를 전부…
[RSS 2024] MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting
안녕하세요. 이번 논문은 VLM과 visual prompting을 활용한 open-world 환경에서의 Robot Manipulation 태스크 관련 논문입니다. 자세히는 free-form language instruction 에 대해 VLM visual prompting을 활용한 Marking…
[CVPR Workshop 2024]What does CLIP know about peeling a banana?
제가 이번에 리뷰할 논문도 Affordance 관련 논문입니다. 자신들의 방법론을 AffordanceCLIP이라 하여 관심이 생겨 읽게 되었습니다. 코드는 따로 공개되어있지 않습니다. Abstract 사람은 도구를 어떻게 사용할지에 대해…
[NeurIPS 2024] SAM-Guided Masked Token Prediction for 3D Scene Understanding
안녕하세요, 53번째 x-review 입니다. 이번 논문은 24년도 NeurIPS에 게재된 SAM-Guided Masked Token Prediction for 3D Scene Understanding이라는 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1….
[CVPR 2024] DUSt3R: Geometric 3D Vision Made Easy
안녕하세요, 이번 주 X-review는 태주님과 과제 제안서 관련해서 이야기중 알게된 DUSt3R라는 네이버랩스의 논문을 리뷰해보도록 하겠습니다. 굉장히 신기한 기술이고, 평소에 지나가면서 접했지만 가볍게 넘어갔던 키워드들이 눈에…
[ACL2024] Bayesian Prompt Ensembles: Model Uncertainty Estimation for Black-Box Large Language Models
오늘은 ACL 학회의 Finding 섹션에서 발표된 논문을 소개하겠습니다. Finding 섹션은 프로시딩 되지 않은 논문 중 아깝게 떨어진 논문을 의미한다고 하는데요, ACL 학회는 NLP 분야의 탑티어…
[arXiv 2024] RAP: Retrieval-Augmented Planning with Contextual Memory for Multimodal LLM Agents
안녕하세요. 이번 논문은 과제 제안서 작업으로 MLLM + RAG 에 대한 서베이 중 알게 된 논문입니다. 정확히 말하면 본 논문의 큰 분야는 MLLM + RAG를…
1. CTC 기반의 텍스트 인식 모델의 학습 과정에 대해 설명을 드리면 대답이 될 것 같네요! 입력된 텍스트 이미지[H x W…