Category: Paper
Paper Review
[ArXiv 2024] InstructOCR: Instruction Boosting Scene Text Spotting
안녕하세요, 쉰 세번째 X-Review입니다. 이번 논문은 2024년도 ArXiv에 올라온 InstructOCR: Instruction Boosting Scene Text Spotting논문입니다. 바로 시작하도록 하겠습니다. ? 1. Introduction 최근 vision과 text를 함께…
[AAAI 2025] Zero-shot Depth Completion via Test-time Alignment with Affine-invariant Depth Prior
안녕하세요, 56번째 x-review 입니다. 이번 논문은 AAAI 2025년도에 게재된 depth completion 논문으로, 제가 이전에 리뷰한 Marigold를 활용한 방법론 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1….
[arXiv 2024] Occam’s LGS: A Simple Approach for Language Gaussian Splatting
이번 리뷰 논문은 3D Language Feature Splatting 기법에 대해서 다루고자 합니다. 제목 중 Occam이라는 용어가 보일 겁니다. 저 용어는 Occam’s Razor (오컴의 면도날)라는 단순의 미학을…
[CVPR2023] Deep Deterministic Uncertainty: A New Simple Baseline
안녕하세요 본 리뷰는 일반적인 딥러닝 모델(Deterministic model)에서 불확실성을 추론하는 방법의 베이스라인을 제시하는 논문을 소개하려고 합니다. 앞서서 Bayesian learning의 장점은 불확실성을 이론적으로 정의하여 추정할 수 있는…
[ICML 2021] ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision
안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 google research에서 2021년 ICLR에 게재한 ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision 이라는 논문입니다. CLIP과…
[CVPR 2024]ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting
안녕하세요, 쉰 두번째 X-Review입니다. 이번 논문은 2024년도 CVPR에 게재된 ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting논문입니다. 바로 시작하도록 하겠습니다….
[arXiv 2025] Marigold-DC: Zero-Shot Monocular Depth Completion with Guided Diffusion
안녕하세요, 55번째 x-review 입니다. 이번 논문은 arxiv 2025년도에 올라와있는 논문으로, 지난 주 리뷰한 Marigold 모델을 depth completion으로 확장한 방법론 입니다. 그럼 바로 리뷰 시작하겠습니다 !…
[NeurIPS 2024] RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs
1. Introduction Retrieval-augmented generation(RAG)는 LLM을 커스텀하여 long-tail knowledge를 처리하고, 최신 정보를 반영하며, 특정 도메인에 적용할 수 있는 기술을 의미합니다. 일반적으로 RAG의 동작원리는 이러합니다. 우선 dense…
[ICML 2022] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
안녕하세요, 허재연입니다. 논문 제출 이후, 최근 연구 트렌드를 follow-up 하기 위해 힘쓰고 있습니다. 특히 Foundation Model, VLM 등의 연구들이 어떻게 대규모 사전학습 지식을 활용하는지, 이러한…
[ECCV 2024] Parrot Captions Teach CLIP to Spot Text
안녕하세요, 쉰 한번째 X-Review입니다. 이번 논문은 2024년도 ECCV에 게재된 Parrot Captions Teach CLIP to Spot Text 논문입니다. 바로 시작하도록 하겠습니다. ? 1. Introduction 최근 대규모…
안녕하세요 재윤님 답글 감사합니다. 우선 "is playing" 이라는 질문이 있는지는 모르겠으나 전체 질문 문장을 모델에 입력으로 줬을때, video, audio 에…