[카테고리:] Paper
Paper Review
[CVPR 2024]ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting
안녕하세요, 쉰 두번째 X-Review입니다. 이번 논문은 2024년도 CVPR에 게재된 ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting논문입니다. 바로 시작하도록 하겠습니다….
[arXiv 2025] Marigold-DC: Zero-Shot Monocular Depth Completion with Guided Diffusion
안녕하세요, 55번째 x-review 입니다. 이번 논문은 arxiv 2025년도에 올라와있는 논문으로, 지난 주 리뷰한 Marigold 모델을 depth completion으로 확장한 방법론 입니다. 그럼 바로 리뷰 시작하겠습니다 !…
[NeurIPS 2024] RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs
1. Introduction Retrieval-augmented generation(RAG)는 LLM을 커스텀하여 long-tail knowledge를 처리하고, 최신 정보를 반영하며, 특정 도메인에 적용할 수 있는 기술을 의미합니다. 일반적으로 RAG의 동작원리는 이러합니다. 우선 dense…
[ICML 2022] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
안녕하세요, 허재연입니다. 논문 제출 이후, 최근 연구 트렌드를 follow-up 하기 위해 힘쓰고 있습니다. 특히 Foundation Model, VLM 등의 연구들이 어떻게 대규모 사전학습 지식을 활용하는지, 이러한…
[ECCV 2024] Parrot Captions Teach CLIP to Spot Text
안녕하세요, 쉰 한번째 X-Review입니다. 이번 논문은 2024년도 ECCV에 게재된 Parrot Captions Teach CLIP to Spot Text 논문입니다. 바로 시작하도록 하겠습니다. 🎃 1. Introduction 최근 대규모…
[CVPR 2024(oral)] Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation
안녕하세요, 54번째 x-review 입니다. 이번 논문은 CVPR 2024년도에 oral paper로 게재된 diffusion 모델을 사용한 monocular depth estimation 논문 입니다. 요즘 3D 논문에서도 FM을 사용해서 depth…
[EMNLP 2023] Open-Ended Instructable Embodied Agents with Memory-Augmented Large Language Models
1. Introduction free-form 형식의 human instruction과 human-robot dialogue를 로봇이 실행 가능한 plan으로 해석하는 것은 language의 다양성과 복잡성 때문에 어렵습니다. 또한 human language는 long-term reference와 질문,…
[ICLR 2020] Contrastive Representation Distillation
안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 2020년 ICLR에 게재된 contrastive representation distillation입니다. 이름 그대로 knowledge distillation에 당시 유행하던 contrative loss를 도입하여 성능을 개선한 내용인데, method를 전부…
[NeurIPS 2024] SAM-Guided Masked Token Prediction for 3D Scene Understanding
안녕하세요, 53번째 x-review 입니다. 이번 논문은 24년도 NeurIPS에 게재된 SAM-Guided Masked Token Prediction for 3D Scene Understanding이라는 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1….
[ACL2024] Bayesian Prompt Ensembles: Model Uncertainty Estimation for Black-Box Large Language Models
오늘은 ACL 학회의 Finding 섹션에서 발표된 논문을 소개하겠습니다. Finding 섹션은 프로시딩 되지 않은 논문 중 아깝게 떨어진 논문을 의미한다고 하는데요, ACL 학회는 NLP 분야의 탑티어…
최신 댓글