[일:] 2025년 01월 12일
[arXiv 2024] Are Vision-Language Models Truly Understanding Multi-vision Sensor?
손 건화 01/12/2025 [arXiv 2024] Are Vision-Language Models Truly Understanding Multi-vision Sensor?에 댓글 5개
안녕하세요, 쉰 한번째 x-review 입니다. 이번 논문은 24년도 마지막 날에 arXiv에 올라온 KAIST에서 작성한 논문 입니다. 열화상 영상을 최근에 어떻게 활용하고 있는지에 서베이를 하다가 발견한…
[ECCV 2024] SHINE: Saliency-aware Hierarchical Negative Ranking for Compositional Temporal Grounding
김 현우 01/12/2025 [ECCV 2024] SHINE: Saliency-aware Hierarchical Negative Ranking for Compositional Temporal Grounding에 댓글 2개
안녕하세요, 오늘의 X-Review는 비디오 내에서 텍스트 쿼리와의 상응 구간을 찾는 Temporal Grounding 관련 논문 <SHINE: Saliency-aware Hierarchical Negative Ranking for Compositional Temporal Grounding>을 소개해드리겠습니다. 본…
[2024 EACL] Does CLIP Bind Concepts? Probing Compositionality in Large Image Models
정 의철 01/12/2025 [2024 EACL] Does CLIP Bind Concepts? Probing Compositionality in Large Image Models에 댓글 5개
안녕하세요. 이번에 소개할 논문은 CLIP과 같은 대규모 VLM에서 compositional 표현 능력을 분석하고 그 한계를 평가하는 논문입니다. 연구의 주요 목표는 CLIP이 시각적으로 다양한 객체와 속성 개념을…
[EMNLP 2024] Investigating and Mitigating Object Hallucinations in Pretrained Vision-Language (CLIP) Models
홍 주영 01/12/2025 [EMNLP 2024] Investigating and Mitigating Object Hallucinations in Pretrained Vision-Language (CLIP) Models에 댓글 2개
오늘 리뷰할 논문은 Vision-Language Models(VLM)에서 발생하는 object hallucination 문제를 찾고, 이를 완화하는 방법에 대해 다룹니다. VLM은 이미지 캡셔닝, 시각적 질문 응답 등 다양한 작업에서 뛰어난…
[CVPR 2022] Conditional Prompt Learning for Vision-Language Models
오늘 리뷰할 논문은 Learnable Prompt 와 관련된 논문입니다. 2022년 CVPR 에 게재된 논문이고, 바로 리뷰 시작하겠습니다. 1. Introduction / Method CLIP과 같은 강력한 vision-language 모델…
최신 댓글