[카테고리:] X-Review

Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.

Posted in X-Review

[ECCV2024]Training-free Video Temporal Grounding using Large-scale Pre-trained Models

안녕하세요. 박성준 연구원입니다. 오늘 제가 리뷰할 논문은 ECCV 2024에 게재된 TFVTG논문으로 Video Temporal Grounding을 다룬 논문입니다. Introduction Video Temporal Grounding(VTG)은 untrimmed video에서 자연어 query와 가장…

Continue Reading
Posted in Paper X-Review

[EMNLP 2023] Open-Ended Instructable Embodied Agents with Memory-Augmented Large Language Models

1. Introduction free-form 형식의 human instruction과 human-robot dialogue를 로봇이 실행 가능한 plan으로 해석하는 것은 language의 다양성과 복잡성 때문에 어렵습니다. 또한 human language는 long-term reference와 질문,…

Continue Reading
Posted in X-Review

[arXiv 2024] OVAL-Prompt: Open-Vocabulary Affordance Localization for Robot Manipulation through LLM Affordance-Grounding

안녕하세요, 이번 X-review는 재찬이 학회 발표에 도움이 되보고자 읽어봤던 논문이어서 VLM과 LLM을 활용한 affordance localization Prompting 논문입니다. Affordance라는 개념이 생경해서 찾아본 결과 칼은 물체를 “썰…

Continue Reading
Posted in Paper X-Review

[ICLR 2020] Contrastive Representation Distillation

안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 2020년 ICLR에 게재된 contrastive representation distillation입니다. 이름 그대로 knowledge distillation에 당시 유행하던 contrative loss를 도입하여 성능을 개선한 내용인데, method를 전부…

Continue Reading
Posted in X-Review

[RSS 2024] MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting

안녕하세요. 이번 논문은 VLM과 visual prompting을 활용한 open-world 환경에서의 Robot Manipulation 태스크 관련 논문입니다. 자세히는 free-form language instruction 에 대해 VLM visual prompting을 활용한 Marking…

Continue Reading
Posted in Conference X-Review

[CVPR Workshop 2024]What does CLIP know about peeling a banana?

제가 이번에 리뷰할 논문도 Affordance 관련 논문입니다. 자신들의 방법론을 AffordanceCLIP이라 하여 관심이 생겨 읽게 되었습니다. 코드는 따로 공개되어있지 않습니다. Abstract 사람은 도구를 어떻게 사용할지에 대해…

Continue Reading
Posted in Paper X-Review

[NeurIPS 2024] SAM-Guided Masked Token Prediction for 3D Scene Understanding

안녕하세요, 53번째 x-review 입니다. 이번 논문은 24년도 NeurIPS에 게재된 SAM-Guided Masked Token Prediction for 3D Scene Understanding이라는 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1….

Continue Reading
Posted in X-Review

[CVPR 2024] DUSt3R: Geometric 3D Vision Made Easy

안녕하세요, 이번 주 X-review는 태주님과 과제 제안서 관련해서 이야기중 알게된 DUSt3R라는 네이버랩스의 논문을 리뷰해보도록 하겠습니다. 굉장히 신기한 기술이고, 평소에 지나가면서 접했지만 가볍게 넘어갔던 키워드들이 눈에…

Continue Reading
Posted in Paper X-Review

[ACL2024] Bayesian Prompt Ensembles: Model Uncertainty Estimation for Black-Box Large Language Models

오늘은 ACL 학회의 Finding 섹션에서 발표된 논문을 소개하겠습니다. Finding 섹션은 프로시딩 되지 않은 논문 중 아깝게 떨어진 논문을 의미한다고 하는데요, ACL 학회는 NLP 분야의 탑티어…

Continue Reading
Posted in X-Review

[arXiv 2024] RAP: Retrieval-Augmented Planning with Contextual Memory for Multimodal LLM Agents

안녕하세요. 이번 논문은 과제 제안서 작업으로 MLLM + RAG 에 대한 서베이 중 알게 된 논문입니다. 정확히 말하면 본 논문의 큰 분야는 MLLM + RAG를…

Continue Reading