[카테고리:] X-Review

Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.

Posted in Paper X-Review

[2023 ICLR] WHEN AND WHY VISION-LANGUAGE MODELS BE- HAVE LIKE BAGS-OF-WORDS, AND WHAT TO DO ABOUT IT?

안녕하세요 정의철 연구원입니다. 이번에 소개할 논문은 VLMs들이 단어의 순서나 관계에 대해 민감하지 않음을 문제 삼아 분석한 논문입니다. 최근 많은 비전-언어 모델(VLMs)이 다양한 테스크에 활용되고 있지만,…

Continue Reading
Posted in X-Review

[ECCV 2022] Open Vocabulary Object Detection with Pseudo Bounding-Box Labels

안녕하세요. 2025년 새해가 밝았습니다. 시작말로, 금년도부터는 논문을 읽는 시각이 조금 바뀌었습니다. 논문을 작성중이다보니 저자가 본인의 방법론을 어떠한 방식으로 표현하였는지, 그 방법을 실험으로 어떻게 설득시키고자 하였는지에…

Continue Reading
Posted in Paper X-Review

[TPAMI 2024] Turning a CLIP Model Into a Scene Text Spotter

1. Introduction Scene text spotting은 natural image내에 있는 text instance의 위치를 찾고 그 text가 무엇인지 인식하는 task입니다. 지금까지 이 spotting은 fully-supervised 방식으로 발전해오고 있었는데요, 본…

Continue Reading
Posted in Paper X-Review

[ECCV 2024] Global-Local Collaborative Inference with LLM for Lidar-Based Open-Vocabulary Detection

안녕하세요, 쉰번째 x-review 입니다. 이번 논문은 ECCV 2024년도에 게재된 OV3D 논문인데, 처음으로 3D detection을 위해 제대로 LLM을 활용한 논문인 것 같습니다. 직접적으로 LLM을 3D detection에…

Continue Reading
Posted in Paper X-Review

[CVPR 2023] DeCo: Decomposition and Reconstruction for Compositional Temporal Grounding via Coarse-to-Fine Contrastive Ranking

안녕하세요. 이번 주 X-Review에서는 23년도 CVPR에 게재된 Moment Retrieval 관련 논문 <DeCo: Decomposition and Reconstruction for Compositional Temporal Grounding via Coarse-to-Fine Contrastive Ranking>을 소개해드리겠습니다. 논문의…

Continue Reading
Posted in Paper X-Review

[arXiv 2024] Open Vocabulary Monocular 3D Object Detection

안녕하세요, 마흔 아홉번째 x-review 입니다. 이번 논문은 한 2주 전 arXiv에 게재된 OV3D 논문으로, 지난주와 마찬가지로 monocular ov 3D 논문 입니다. CVPR 포맷으로 작성되어 있긴…

Continue Reading
Posted in X-Review

[arXiv 2024] LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding

안녕하세요. 제가 학부 패턴인식 수업에서 프로젝트를 진행하는 데, 그것에 대한 작은 주제로 MLLM(Multimodal LLM)을 활용한 zero-shot Visual Grounding을 시도해보고 있었습니다. 원래 처음엔 단순히 gpt4o에 모호한…

Continue Reading
Posted in X-Review

[CVPR 2022] Incorporating Semi-Supervised and Positive-Unlabeled Learning for Boosting Full Reference Image Quality Assessment

안녕하세요. 박성준 연구원입니다. 오늘은 약간 색다른 task의 논문을 리뷰하게 되었습니다. 그렇기 때문에 이번 리뷰는 좀 더 자세하게 서술해보려 합니다. 최근 unlabeled 데이터들을 잘 활용하는 방법에…

Continue Reading
Posted in X-Review

[arXiv 2024] PAVLM: Advancing Point Cloud based Affordance Understanding Via Vision-Language Model

안녕하세요. 제가 이번에 리뷰할 논문은 올해 10월에 공개된 논문입니다. 최근 affordance 관련 연구들을 리뷰하였는데, 이번에 리뷰할 논문은 3D point cloud에서의 Affordance 영역을 찾는 논문이라 읽어보게…

Continue Reading
Posted in Paper X-Review

[NeurIPS 2024] Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data

안녕하세요, 마흔 여덟번째 x-review 입니다. 이번 논문은 2024년도 NeurIPS에 게재된 OV3D 논문으로,처음으로 monocular 3D detection에서 ov 개념을 도입한 논문 입니다. 그럼 바로 리뷰 시작하겠습니다. 1….

Continue Reading