Category: X-Review

Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.

Posted in Paper X-Review

[arXiv 2024] Are Vision-Language Models Truly Understanding Multi-vision Sensor?

안녕하세요, 쉰 한번째 x-review 입니다. 이번 논문은 24년도 마지막 날에 arXiv에 올라온 KAIST에서 작성한 논문 입니다. 열화상 영상을 최근에 어떻게 활용하고 있는지에 서베이를 하다가 발견한…

Continue Reading
Posted in Paper X-Review

[ECCV 2024] SHINE: Saliency-aware Hierarchical Negative Ranking for Compositional Temporal Grounding

안녕하세요, 오늘의 X-Review는 비디오 내에서 텍스트 쿼리와의 상응 구간을 찾는 Temporal Grounding 관련 논문 <SHINE: Saliency-aware Hierarchical Negative Ranking for Compositional Temporal Grounding>을 소개해드리겠습니다. 본…

Continue Reading
Posted in News Paper X-Review

[2024 EACL] Does CLIP Bind Concepts? Probing Compositionality in Large Image Models

안녕하세요. 이번에 소개할 논문은 CLIP과 같은 대규모 VLM에서 compositional 표현 능력을 분석하고 그 한계를 평가하는 논문입니다. 연구의 주요 목표는 CLIP이 시각적으로 다양한 객체와 속성 개념을…

Continue Reading
Posted in Conference X-Review

[EMNLP 2024] Investigating and Mitigating Object Hallucinations in Pretrained Vision-Language (CLIP) Models

오늘 리뷰할 논문은 Vision-Language Models(VLM)에서 발생하는 object hallucination 문제를 찾고, 이를 완화하는 방법에 대해 다룹니다. VLM은 이미지 캡셔닝, 시각적 질문 응답 등 다양한 작업에서 뛰어난…

Continue Reading
Posted in Paper X-Review

[CVPR 2022] Conditional Prompt Learning for Vision-Language Models

오늘 리뷰할 논문은 Learnable Prompt 와 관련된 논문입니다. 2022년 CVPR 에 게재된 논문이고, 바로 리뷰 시작하겠습니다. 1. Introduction / Method CLIP과 같은 강력한 vision-language 모델…

Continue Reading
Posted in Conference Paper X-Review

[CVPR 2024] GARField: Group Anything with Radiance Fields

이번 리뷰 논문은 LERF 저자들의 후속 논문들로 특징으로만 구분하는 경우, 모호한 영역 구분으로 인해 쿼리에 해당하는 영역과 명확한 구분이 어렵다는 문제점이 있습니다. 저자는 이를 해결하기…

Continue Reading
Posted in Paper X-Review

[arXiv 2024] Towards Multimodal Emotional Support Conversation Systems

pdf code & dataset 감정 인식에서 그치는 것이 아니라 감정을 활용한 다른 응용할 수 있는 task는 없을까?라는 생각에 찾아보게된 논문입니다. 개인적으로 감정 인식으로 끝이 아니라…

Continue Reading
Posted in X-Review

[arXiv 2024]UniAff: A Unified Representation of Affordances for Tool Usage and Articulation with Vision-Language Models

제가 이번에 리뷰할 논문도 Affordance와 관련된 논문으로, 2024년 10월 말에 아카이브에 공개된 논문입니다. Abstract 기존 연구들은 3D motion constraints와 affordance에 대하여 제한적으로 이해하고있으며, 이러한 한계를…

Continue Reading
Posted in Paper X-Review

[2023 ICLR] WHEN AND WHY VISION-LANGUAGE MODELS BE- HAVE LIKE BAGS-OF-WORDS, AND WHAT TO DO ABOUT IT?

안녕하세요 정의철 연구원입니다. 이번에 소개할 논문은 VLMs들이 단어의 순서나 관계에 대해 민감하지 않음을 문제 삼아 분석한 논문입니다. 최근 많은 비전-언어 모델(VLMs)이 다양한 테스크에 활용되고 있지만,…

Continue Reading
Posted in X-Review

[ECCV 2022] Open Vocabulary Object Detection with Pseudo Bounding-Box Labels

안녕하세요. 2025년 새해가 밝았습니다. 시작말로, 금년도부터는 논문을 읽는 시각이 조금 바뀌었습니다. 논문을 작성중이다보니 저자가 본인의 방법론을 어떠한 방식으로 표현하였는지, 그 방법을 실험으로 어떻게 설득시키고자 하였는지에…

Continue Reading