[일:] 2025년 01월 20일

Posted in X-Review

[AAAI 2024] GroundVLP: Harnessing Zero-Shot Visual Grounding from Vision- Language Pre-training and Open-Vocabulary Object Detection

안녕하세요. 이번 논문은 Zero-shot Visual Grounding 태스크 중 VLP(Vision Language Pretraining model)와 OVD를 결합한 논문입니다. zero-shot grounding을 주제로 국문저널급을 한편을 쓰기로 되어 있어서 가장 최신의…

Continue Reading
Posted in X-Review

[arXiv 2024] Open-World Amodal Appearance Completion

안녕하세요, 이번주 x-review도 Amodal Completion에 관한 논문을 준비했습니다. 이번 논문은 여타 Amodal Completion 논문들과는 다르게 open world 환경에서 추가적인 학습 없이 자연어 쿼리를 기반으로 가려진…

Continue Reading
Posted in X-Review

[CVPR2022]Compositional Temporal Grounding with Structured Variational Cross-Graph Correspondence Learning

안녕하세요 오늘 제가 리뷰할 논문은 Compositional Moment Retrieval을 제안하는 논문입니다. Moment Retrieval task에서 쿼리의 compositionality를 고려한 task를 소개하는 논문입니다. Introduction Moment Retrieval은 비디오와 자연어 쿼리를…

Continue Reading
Posted in Conference X-Review

[IROS 2024 Oral]ManipVQA: Injecting Robotic Affordance and Physically Grounded Information into Multi-Modal Large Language Models

제가 이번에 리뷰할 논문은 Affordance 인식을 위해 MLLM을 적용한 방법론으로, 제가 최근 리뷰한 UniAff에서 기존 방법론과의 비교에 활용된 방법론 입니다.(자세한 내용은 이전 리뷰 참고해주세요!) Abstract…

Continue Reading
Posted in News Paper X-Review

[2024 CVPR] The Neglected Tails in Vision-Language Models

안녕하세요 이번에 소개할 논문은 Vision-Language Models(VLMs)에서 발생하는 long-tailed 문제를 다룬 논문입니다. long-tailed 문제란 학습 데이터에 특정 클래스나 concept(클래스와 유사한 개념)이 적게 포함되어 모델 성능이 불균형해지는…

Continue Reading