[카테고리:] X-Review

Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.

Posted in Paper X-Review

[NeurIPS 2024] RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs

1. Introduction Retrieval-augmented generation(RAG)는 LLM을 커스텀하여 long-tail knowledge를 처리하고, 최신 정보를 반영하며, 특정 도메인에 적용할 수 있는 기술을 의미합니다. 일반적으로 RAG의 동작원리는 이러합니다. 우선 dense…

Continue Reading
Posted in X-Review

[arXiv 202]GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency

제가 이번에 리뷰할 논문은 3D Affordance논문으로, 3D 공간에 language 정보를 입히는 3D Gaussian splatting(3DGS, 이에 대한 자세한 설명은 태주님이 리뷰한 이전 X-review를 참고해주세요!)을 이용하였다고 하여…

Continue Reading
Posted in Paper X-Review

[ICML 2022] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

안녕하세요, 허재연입니다. 논문 제출 이후, 최근 연구 트렌드를 follow-up 하기 위해 힘쓰고 있습니다. 특히 Foundation Model, VLM 등의 연구들이 어떻게 대규모 사전학습 지식을 활용하는지, 이러한…

Continue Reading
Posted in Paper X-Review

[ECCV 2024] Parrot Captions Teach CLIP to Spot Text

안녕하세요, 쉰 한번째 X-Review입니다. 이번 논문은 2024년도 ECCV에 게재된 Parrot Captions Teach CLIP to Spot Text 논문입니다. 바로 시작하도록 하겠습니다. 🎃 1. Introduction 최근 대규모…

Continue Reading
Posted in Paper X-Review

[CVPR 2024(oral)] Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation

안녕하세요, 54번째 x-review 입니다. 이번 논문은 CVPR 2024년도에 oral paper로 게재된 diffusion 모델을 사용한 monocular depth estimation 논문 입니다. 요즘 3D 논문에서도 FM을 사용해서 depth…

Continue Reading
Posted in X-Review

[ECCV2024]Training-free Video Temporal Grounding using Large-scale Pre-trained Models

안녕하세요. 박성준 연구원입니다. 오늘 제가 리뷰할 논문은 ECCV 2024에 게재된 TFVTG논문으로 Video Temporal Grounding을 다룬 논문입니다. Introduction Video Temporal Grounding(VTG)은 untrimmed video에서 자연어 query와 가장…

Continue Reading
Posted in Paper X-Review

[EMNLP 2023] Open-Ended Instructable Embodied Agents with Memory-Augmented Large Language Models

1. Introduction free-form 형식의 human instruction과 human-robot dialogue를 로봇이 실행 가능한 plan으로 해석하는 것은 language의 다양성과 복잡성 때문에 어렵습니다. 또한 human language는 long-term reference와 질문,…

Continue Reading
Posted in X-Review

[arXiv 2024] OVAL-Prompt: Open-Vocabulary Affordance Localization for Robot Manipulation through LLM Affordance-Grounding

안녕하세요, 이번 X-review는 재찬이 학회 발표에 도움이 되보고자 읽어봤던 논문이어서 VLM과 LLM을 활용한 affordance localization Prompting 논문입니다. Affordance라는 개념이 생경해서 찾아본 결과 칼은 물체를 “썰…

Continue Reading
Posted in Paper X-Review

[ICLR 2020] Contrastive Representation Distillation

안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 2020년 ICLR에 게재된 contrastive representation distillation입니다. 이름 그대로 knowledge distillation에 당시 유행하던 contrative loss를 도입하여 성능을 개선한 내용인데, method를 전부…

Continue Reading
Posted in X-Review

[RSS 2024] MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting

안녕하세요. 이번 논문은 VLM과 visual prompting을 활용한 open-world 환경에서의 Robot Manipulation 태스크 관련 논문입니다. 자세히는 free-form language instruction 에 대해 VLM visual prompting을 활용한 Marking…

Continue Reading