[카테고리:] Paper

Paper Review

Posted in Paper X-Review

[PMLR2023]Prediction-Oriented Bayesian Active Learning

오늘 리뷰할 논문은 이미지 분류 모델의 예측 성능 개선에 중점을 맞추어 모델 불확실성을 산출하고, 이를 통해 성능을 개선하는 능동 학습 (Active Learning)에 관련된 논문입니다. 특히…

Continue Reading
Posted in Conference Paper X-Review

[AAAI 2025] FastLGS: Speeding up Language Embedded Gaussians with Feature Grid Mapping

이번 리뷰 논문은 3D Language Field 중 출판된 가장 최신 기법으로 실시간성과 성능 모두 SOTA를 달성한 기법에 해당합니다. 기존 기법들은 첫 시도들을 제안한 기법이라면 해다…

Continue Reading
Posted in Paper X-Review

[arXiv 2024] Are Vision-Language Models Truly Understanding Multi-vision Sensor?

안녕하세요, 쉰 한번째 x-review 입니다. 이번 논문은 24년도 마지막 날에 arXiv에 올라온 KAIST에서 작성한 논문 입니다. 열화상 영상을 최근에 어떻게 활용하고 있는지에 서베이를 하다가 발견한…

Continue Reading
Posted in Paper X-Review

[ECCV 2024] SHINE: Saliency-aware Hierarchical Negative Ranking for Compositional Temporal Grounding

안녕하세요, 오늘의 X-Review는 비디오 내에서 텍스트 쿼리와의 상응 구간을 찾는 Temporal Grounding 관련 논문 <SHINE: Saliency-aware Hierarchical Negative Ranking for Compositional Temporal Grounding>을 소개해드리겠습니다. 본…

Continue Reading
Posted in News Paper X-Review

[2024 EACL] Does CLIP Bind Concepts? Probing Compositionality in Large Image Models

안녕하세요. 이번에 소개할 논문은 CLIP과 같은 대규모 VLM에서 compositional 표현 능력을 분석하고 그 한계를 평가하는 논문입니다. 연구의 주요 목표는 CLIP이 시각적으로 다양한 객체와 속성 개념을…

Continue Reading
Posted in Paper X-Review

[CVPR 2022] Conditional Prompt Learning for Vision-Language Models

오늘 리뷰할 논문은 Learnable Prompt 와 관련된 논문입니다. 2022년 CVPR 에 게재된 논문이고, 바로 리뷰 시작하겠습니다. 1. Introduction / Method CLIP과 같은 강력한 vision-language 모델…

Continue Reading
Posted in Conference Paper X-Review

[CVPR 2024] GARField: Group Anything with Radiance Fields

이번 리뷰 논문은 LERF 저자들의 후속 논문들로 특징으로만 구분하는 경우, 모호한 영역 구분으로 인해 쿼리에 해당하는 영역과 명확한 구분이 어렵다는 문제점이 있습니다. 저자는 이를 해결하기…

Continue Reading
Posted in Paper X-Review

[arXiv 2024] Towards Multimodal Emotional Support Conversation Systems

pdf code & dataset 감정 인식에서 그치는 것이 아니라 감정을 활용한 다른 응용할 수 있는 task는 없을까?라는 생각에 찾아보게된 논문입니다. 개인적으로 감정 인식으로 끝이 아니라…

Continue Reading
Posted in Paper X-Review

[2023 ICLR] WHEN AND WHY VISION-LANGUAGE MODELS BE- HAVE LIKE BAGS-OF-WORDS, AND WHAT TO DO ABOUT IT?

안녕하세요 정의철 연구원입니다. 이번에 소개할 논문은 VLMs들이 단어의 순서나 관계에 대해 민감하지 않음을 문제 삼아 분석한 논문입니다. 최근 많은 비전-언어 모델(VLMs)이 다양한 테스크에 활용되고 있지만,…

Continue Reading
Posted in Paper X-Review

[TPAMI 2024] Turning a CLIP Model Into a Scene Text Spotter

1. Introduction Scene text spotting은 natural image내에 있는 text instance의 위치를 찾고 그 text가 무엇인지 인식하는 task입니다. 지금까지 이 spotting은 fully-supervised 방식으로 발전해오고 있었는데요, 본…

Continue Reading