Category: Paper
Paper Review
[arXiv 2024] Occam’s LGS: A Simple Approach for Language Gaussian Splatting
이번 리뷰 논문은 3D Language Feature Splatting 기법에 대해서 다루고자 합니다. 제목 중 Occam이라는 용어가 보일 겁니다. 저 용어는 Occam’s Razor (오컴의 면도날)라는 단순의 미학을…
[CVPR2023] Deep Deterministic Uncertainty: A New Simple Baseline
안녕하세요 본 리뷰는 일반적인 딥러닝 모델(Deterministic model)에서 불확실성을 추론하는 방법의 베이스라인을 제시하는 논문을 소개하려고 합니다. 앞서서 Bayesian learning의 장점은 불확실성을 이론적으로 정의하여 추정할 수 있는…
[ICML 2021] ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision
안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 google research에서 2021년 ICLR에 게재한 ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision 이라는 논문입니다. CLIP과…
[CVPR 2024]ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting
안녕하세요, 쉰 두번째 X-Review입니다. 이번 논문은 2024년도 CVPR에 게재된 ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting논문입니다. 바로 시작하도록 하겠습니다….
[arXiv 2025] Marigold-DC: Zero-Shot Monocular Depth Completion with Guided Diffusion
안녕하세요, 55번째 x-review 입니다. 이번 논문은 arxiv 2025년도에 올라와있는 논문으로, 지난 주 리뷰한 Marigold 모델을 depth completion으로 확장한 방법론 입니다. 그럼 바로 리뷰 시작하겠습니다 !…
[NeurIPS 2024] RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs
1. Introduction Retrieval-augmented generation(RAG)는 LLM을 커스텀하여 long-tail knowledge를 처리하고, 최신 정보를 반영하며, 특정 도메인에 적용할 수 있는 기술을 의미합니다. 일반적으로 RAG의 동작원리는 이러합니다. 우선 dense…
[ICML 2022] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
안녕하세요, 허재연입니다. 논문 제출 이후, 최근 연구 트렌드를 follow-up 하기 위해 힘쓰고 있습니다. 특히 Foundation Model, VLM 등의 연구들이 어떻게 대규모 사전학습 지식을 활용하는지, 이러한…
[ECCV 2024] Parrot Captions Teach CLIP to Spot Text
안녕하세요, 쉰 한번째 X-Review입니다. 이번 논문은 2024년도 ECCV에 게재된 Parrot Captions Teach CLIP to Spot Text 논문입니다. 바로 시작하도록 하겠습니다. ? 1. Introduction 최근 대규모…
[CVPR 2024(oral)] Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation
안녕하세요, 54번째 x-review 입니다. 이번 논문은 CVPR 2024년도에 oral paper로 게재된 diffusion 모델을 사용한 monocular depth estimation 논문 입니다. 요즘 3D 논문에서도 FM을 사용해서 depth…
[EMNLP 2023] Open-Ended Instructable Embodied Agents with Memory-Augmented Large Language Models
1. Introduction free-form 형식의 human instruction과 human-robot dialogue를 로봇이 실행 가능한 plan으로 해석하는 것은 language의 다양성과 복잡성 때문에 어렵습니다. 또한 human language는 long-term reference와 질문,…
안녕하세요 재연님, 좋은 댓글 감사드립니다. 주신 질문이 단순한 기술 구현을 넘어서 왜 Detection 과 Segmentation을 명시적으로 분리해서 학습하고 예측하려고 하는지Perception…