[카테고리:] X-Review

Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.

Posted in Paper X-Review

[ICML 2021] ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision

안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 google research에서 2021년 ICLR에 게재한 ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision 이라는 논문입니다. CLIP과…

Continue Reading
Posted in Paper X-Review

[CVPR 2024]ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting

안녕하세요, 쉰 두번째 X-Review입니다. 이번 논문은 2024년도 CVPR에 게재된 ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting논문입니다. 바로 시작하도록 하겠습니다….

Continue Reading
Posted in X-Review

[CVPR2023]Exploring the Effect of Primitives for Compositional Generalization in Vision-and-Language

안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 CVPR2023에 게재된 논문으로 Vision-Language task에서 Compositional Generalization 능력에 대한 논문입니다. Introduction Compositionality는 인간의 인지 능력에서 중요한 능력 중에 하나로…

Continue Reading
Posted in X-Review

[arXiv 2024]GAPartManip: A Large-scale Part-centric Dataset for Material-Agnostic Articulated Object Manipulation

Abstract articulated object(관절이 존재하여, 변형이 가능한 물체)를 조작하는 것은 embodide AI의 일반화 달성을 위해 중요한 연구로, 기존의 3D vision 연구는 주로 물체의 depth 정보를 인식하고…

Continue Reading
Posted in Paper X-Review

[arXiv 2025] Marigold-DC: Zero-Shot Monocular Depth Completion with Guided Diffusion

안녕하세요, 55번째 x-review 입니다. 이번 논문은 arxiv 2025년도에 올라와있는 논문으로, 지난 주 리뷰한 Marigold 모델을 depth completion으로 확장한 방법론 입니다. 그럼 바로 리뷰 시작하겠습니다 !…

Continue Reading
Posted in Paper X-Review

[NeurIPS 2024] RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs

1. Introduction Retrieval-augmented generation(RAG)는 LLM을 커스텀하여 long-tail knowledge를 처리하고, 최신 정보를 반영하며, 특정 도메인에 적용할 수 있는 기술을 의미합니다. 일반적으로 RAG의 동작원리는 이러합니다. 우선 dense…

Continue Reading
Posted in X-Review

[arXiv 202]GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency

제가 이번에 리뷰할 논문은 3D Affordance논문으로, 3D 공간에 language 정보를 입히는 3D Gaussian splatting(3DGS, 이에 대한 자세한 설명은 태주님이 리뷰한 이전 X-review를 참고해주세요!)을 이용하였다고 하여…

Continue Reading
Posted in Paper X-Review

[ICML 2022] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

안녕하세요, 허재연입니다. 논문 제출 이후, 최근 연구 트렌드를 follow-up 하기 위해 힘쓰고 있습니다. 특히 Foundation Model, VLM 등의 연구들이 어떻게 대규모 사전학습 지식을 활용하는지, 이러한…

Continue Reading
Posted in Paper X-Review

[ECCV 2024] Parrot Captions Teach CLIP to Spot Text

안녕하세요, 쉰 한번째 X-Review입니다. 이번 논문은 2024년도 ECCV에 게재된 Parrot Captions Teach CLIP to Spot Text 논문입니다. 바로 시작하도록 하겠습니다. 🎃 1. Introduction 최근 대규모…

Continue Reading
Posted in Paper X-Review

[CVPR 2024(oral)] Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation

안녕하세요, 54번째 x-review 입니다. 이번 논문은 CVPR 2024년도에 oral paper로 게재된 diffusion 모델을 사용한 monocular depth estimation 논문 입니다. 요즘 3D 논문에서도 FM을 사용해서 depth…

Continue Reading