[카테고리:] Paper
Paper Review
[arXiv 2024] Are Vision-Language Models Truly Understanding Multi-vision Sensor?
안녕하세요, 쉰 한번째 x-review 입니다. 이번 논문은 24년도 마지막 날에 arXiv에 올라온 KAIST에서 작성한 논문 입니다. 열화상 영상을 최근에 어떻게 활용하고 있는지에 서베이를 하다가 발견한…
[ECCV 2024] SHINE: Saliency-aware Hierarchical Negative Ranking for Compositional Temporal Grounding
안녕하세요, 오늘의 X-Review는 비디오 내에서 텍스트 쿼리와의 상응 구간을 찾는 Temporal Grounding 관련 논문 <SHINE: Saliency-aware Hierarchical Negative Ranking for Compositional Temporal Grounding>을 소개해드리겠습니다. 본…
[2024 EACL] Does CLIP Bind Concepts? Probing Compositionality in Large Image Models
안녕하세요. 이번에 소개할 논문은 CLIP과 같은 대규모 VLM에서 compositional 표현 능력을 분석하고 그 한계를 평가하는 논문입니다. 연구의 주요 목표는 CLIP이 시각적으로 다양한 객체와 속성 개념을…
[CVPR 2022] Conditional Prompt Learning for Vision-Language Models
오늘 리뷰할 논문은 Learnable Prompt 와 관련된 논문입니다. 2022년 CVPR 에 게재된 논문이고, 바로 리뷰 시작하겠습니다. 1. Introduction / Method CLIP과 같은 강력한 vision-language 모델…
[CVPR 2024] GARField: Group Anything with Radiance Fields
이번 리뷰 논문은 LERF 저자들의 후속 논문들로 특징으로만 구분하는 경우, 모호한 영역 구분으로 인해 쿼리에 해당하는 영역과 명확한 구분이 어렵다는 문제점이 있습니다. 저자는 이를 해결하기…
[arXiv 2024] Towards Multimodal Emotional Support Conversation Systems
pdf code & dataset 감정 인식에서 그치는 것이 아니라 감정을 활용한 다른 응용할 수 있는 task는 없을까?라는 생각에 찾아보게된 논문입니다. 개인적으로 감정 인식으로 끝이 아니라…
[2023 ICLR] WHEN AND WHY VISION-LANGUAGE MODELS BE- HAVE LIKE BAGS-OF-WORDS, AND WHAT TO DO ABOUT IT?
안녕하세요 정의철 연구원입니다. 이번에 소개할 논문은 VLMs들이 단어의 순서나 관계에 대해 민감하지 않음을 문제 삼아 분석한 논문입니다. 최근 많은 비전-언어 모델(VLMs)이 다양한 테스크에 활용되고 있지만,…
[TPAMI 2024] Turning a CLIP Model Into a Scene Text Spotter
1. Introduction Scene text spotting은 natural image내에 있는 text instance의 위치를 찾고 그 text가 무엇인지 인식하는 task입니다. 지금까지 이 spotting은 fully-supervised 방식으로 발전해오고 있었는데요, 본…
[ECCV 2024] Global-Local Collaborative Inference with LLM for Lidar-Based Open-Vocabulary Detection
안녕하세요, 쉰번째 x-review 입니다. 이번 논문은 ECCV 2024년도에 게재된 OV3D 논문인데, 처음으로 3D detection을 위해 제대로 LLM을 활용한 논문인 것 같습니다. 직접적으로 LLM을 3D detection에…
[CVPR 2023] DeCo: Decomposition and Reconstruction for Compositional Temporal Grounding via Coarse-to-Fine Contrastive Ranking
안녕하세요. 이번 주 X-Review에서는 23년도 CVPR에 게재된 Moment Retrieval 관련 논문 <DeCo: Decomposition and Reconstruction for Compositional Temporal Grounding via Coarse-to-Fine Contrastive Ranking>을 소개해드리겠습니다. 논문의…
최신 댓글