[카테고리:] X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[ECCV2024]Training-free Video Temporal Grounding using Large-scale Pre-trained Models
안녕하세요. 박성준 연구원입니다. 오늘 제가 리뷰할 논문은 ECCV 2024에 게재된 TFVTG논문으로 Video Temporal Grounding을 다룬 논문입니다. Introduction Video Temporal Grounding(VTG)은 untrimmed video에서 자연어 query와 가장…
[EMNLP 2023] Open-Ended Instructable Embodied Agents with Memory-Augmented Large Language Models
1. Introduction free-form 형식의 human instruction과 human-robot dialogue를 로봇이 실행 가능한 plan으로 해석하는 것은 language의 다양성과 복잡성 때문에 어렵습니다. 또한 human language는 long-term reference와 질문,…
[arXiv 2024] OVAL-Prompt: Open-Vocabulary Affordance Localization for Robot Manipulation through LLM Affordance-Grounding
안녕하세요, 이번 X-review는 재찬이 학회 발표에 도움이 되보고자 읽어봤던 논문이어서 VLM과 LLM을 활용한 affordance localization Prompting 논문입니다. Affordance라는 개념이 생경해서 찾아본 결과 칼은 물체를 “썰…
[ICLR 2020] Contrastive Representation Distillation
안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 2020년 ICLR에 게재된 contrastive representation distillation입니다. 이름 그대로 knowledge distillation에 당시 유행하던 contrative loss를 도입하여 성능을 개선한 내용인데, method를 전부…
[RSS 2024] MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting
안녕하세요. 이번 논문은 VLM과 visual prompting을 활용한 open-world 환경에서의 Robot Manipulation 태스크 관련 논문입니다. 자세히는 free-form language instruction 에 대해 VLM visual prompting을 활용한 Marking…
[CVPR Workshop 2024]What does CLIP know about peeling a banana?
제가 이번에 리뷰할 논문도 Affordance 관련 논문입니다. 자신들의 방법론을 AffordanceCLIP이라 하여 관심이 생겨 읽게 되었습니다. 코드는 따로 공개되어있지 않습니다. Abstract 사람은 도구를 어떻게 사용할지에 대해…
[NeurIPS 2024] SAM-Guided Masked Token Prediction for 3D Scene Understanding
안녕하세요, 53번째 x-review 입니다. 이번 논문은 24년도 NeurIPS에 게재된 SAM-Guided Masked Token Prediction for 3D Scene Understanding이라는 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1….
[CVPR 2024] DUSt3R: Geometric 3D Vision Made Easy
안녕하세요, 이번 주 X-review는 태주님과 과제 제안서 관련해서 이야기중 알게된 DUSt3R라는 네이버랩스의 논문을 리뷰해보도록 하겠습니다. 굉장히 신기한 기술이고, 평소에 지나가면서 접했지만 가볍게 넘어갔던 키워드들이 눈에…
[ACL2024] Bayesian Prompt Ensembles: Model Uncertainty Estimation for Black-Box Large Language Models
오늘은 ACL 학회의 Finding 섹션에서 발표된 논문을 소개하겠습니다. Finding 섹션은 프로시딩 되지 않은 논문 중 아깝게 떨어진 논문을 의미한다고 하는데요, ACL 학회는 NLP 분야의 탑티어…
[arXiv 2024] RAP: Retrieval-Augmented Planning with Contextual Memory for Multimodal LLM Agents
안녕하세요. 이번 논문은 과제 제안서 작업으로 MLLM + RAG 에 대한 서베이 중 알게 된 논문입니다. 정확히 말하면 본 논문의 큰 분야는 MLLM + RAG를…
최신 댓글