[카테고리:] X-Review

Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.

Posted in Conference Paper X-Review

[CVPR 2024] GARField: Group Anything with Radiance Fields

이번 리뷰 논문은 LERF 저자들의 후속 논문들로 특징으로만 구분하는 경우, 모호한 영역 구분으로 인해 쿼리에 해당하는 영역과 명확한 구분이 어렵다는 문제점이 있습니다. 저자는 이를 해결하기…

Continue Reading
Posted in Paper X-Review

[arXiv 2024] Towards Multimodal Emotional Support Conversation Systems

pdf code & dataset 감정 인식에서 그치는 것이 아니라 감정을 활용한 다른 응용할 수 있는 task는 없을까?라는 생각에 찾아보게된 논문입니다. 개인적으로 감정 인식으로 끝이 아니라…

Continue Reading
Posted in X-Review

[arXiv 2024]UniAff: A Unified Representation of Affordances for Tool Usage and Articulation with Vision-Language Models

제가 이번에 리뷰할 논문도 Affordance와 관련된 논문으로, 2024년 10월 말에 아카이브에 공개된 논문입니다. Abstract 기존 연구들은 3D motion constraints와 affordance에 대하여 제한적으로 이해하고있으며, 이러한 한계를…

Continue Reading
Posted in Paper X-Review

[2023 ICLR] WHEN AND WHY VISION-LANGUAGE MODELS BE- HAVE LIKE BAGS-OF-WORDS, AND WHAT TO DO ABOUT IT?

안녕하세요 정의철 연구원입니다. 이번에 소개할 논문은 VLMs들이 단어의 순서나 관계에 대해 민감하지 않음을 문제 삼아 분석한 논문입니다. 최근 많은 비전-언어 모델(VLMs)이 다양한 테스크에 활용되고 있지만,…

Continue Reading
Posted in X-Review

[ECCV 2022] Open Vocabulary Object Detection with Pseudo Bounding-Box Labels

안녕하세요. 2025년 새해가 밝았습니다. 시작말로, 금년도부터는 논문을 읽는 시각이 조금 바뀌었습니다. 논문을 작성중이다보니 저자가 본인의 방법론을 어떠한 방식으로 표현하였는지, 그 방법을 실험으로 어떻게 설득시키고자 하였는지에…

Continue Reading
Posted in Paper X-Review

[TPAMI 2024] Turning a CLIP Model Into a Scene Text Spotter

1. Introduction Scene text spotting은 natural image내에 있는 text instance의 위치를 찾고 그 text가 무엇인지 인식하는 task입니다. 지금까지 이 spotting은 fully-supervised 방식으로 발전해오고 있었는데요, 본…

Continue Reading
Posted in Paper X-Review

[ECCV 2024] Global-Local Collaborative Inference with LLM for Lidar-Based Open-Vocabulary Detection

안녕하세요, 쉰번째 x-review 입니다. 이번 논문은 ECCV 2024년도에 게재된 OV3D 논문인데, 처음으로 3D detection을 위해 제대로 LLM을 활용한 논문인 것 같습니다. 직접적으로 LLM을 3D detection에…

Continue Reading
Posted in Paper X-Review

[CVPR 2023] DeCo: Decomposition and Reconstruction for Compositional Temporal Grounding via Coarse-to-Fine Contrastive Ranking

안녕하세요. 이번 주 X-Review에서는 23년도 CVPR에 게재된 Moment Retrieval 관련 논문 <DeCo: Decomposition and Reconstruction for Compositional Temporal Grounding via Coarse-to-Fine Contrastive Ranking>을 소개해드리겠습니다. 논문의…

Continue Reading
Posted in Paper X-Review

[arXiv 2024] Open Vocabulary Monocular 3D Object Detection

안녕하세요, 마흔 아홉번째 x-review 입니다. 이번 논문은 한 2주 전 arXiv에 게재된 OV3D 논문으로, 지난주와 마찬가지로 monocular ov 3D 논문 입니다. CVPR 포맷으로 작성되어 있긴…

Continue Reading
Posted in X-Review

[arXiv 2024] LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding

안녕하세요. 제가 학부 패턴인식 수업에서 프로젝트를 진행하는 데, 그것에 대한 작은 주제로 MLLM(Multimodal LLM)을 활용한 zero-shot Visual Grounding을 시도해보고 있었습니다. 원래 처음엔 단순히 gpt4o에 모호한…

Continue Reading