[카테고리:] X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[2023 ICLR] WHEN AND WHY VISION-LANGUAGE MODELS BE- HAVE LIKE BAGS-OF-WORDS, AND WHAT TO DO ABOUT IT?
안녕하세요 정의철 연구원입니다. 이번에 소개할 논문은 VLMs들이 단어의 순서나 관계에 대해 민감하지 않음을 문제 삼아 분석한 논문입니다. 최근 많은 비전-언어 모델(VLMs)이 다양한 테스크에 활용되고 있지만,…
[ECCV 2022] Open Vocabulary Object Detection with Pseudo Bounding-Box Labels
안녕하세요. 2025년 새해가 밝았습니다. 시작말로, 금년도부터는 논문을 읽는 시각이 조금 바뀌었습니다. 논문을 작성중이다보니 저자가 본인의 방법론을 어떠한 방식으로 표현하였는지, 그 방법을 실험으로 어떻게 설득시키고자 하였는지에…
[TPAMI 2024] Turning a CLIP Model Into a Scene Text Spotter
1. Introduction Scene text spotting은 natural image내에 있는 text instance의 위치를 찾고 그 text가 무엇인지 인식하는 task입니다. 지금까지 이 spotting은 fully-supervised 방식으로 발전해오고 있었는데요, 본…
[ECCV 2024] Global-Local Collaborative Inference with LLM for Lidar-Based Open-Vocabulary Detection
안녕하세요, 쉰번째 x-review 입니다. 이번 논문은 ECCV 2024년도에 게재된 OV3D 논문인데, 처음으로 3D detection을 위해 제대로 LLM을 활용한 논문인 것 같습니다. 직접적으로 LLM을 3D detection에…
[CVPR 2023] DeCo: Decomposition and Reconstruction for Compositional Temporal Grounding via Coarse-to-Fine Contrastive Ranking
안녕하세요. 이번 주 X-Review에서는 23년도 CVPR에 게재된 Moment Retrieval 관련 논문 <DeCo: Decomposition and Reconstruction for Compositional Temporal Grounding via Coarse-to-Fine Contrastive Ranking>을 소개해드리겠습니다. 논문의…
[arXiv 2024] Open Vocabulary Monocular 3D Object Detection
안녕하세요, 마흔 아홉번째 x-review 입니다. 이번 논문은 한 2주 전 arXiv에 게재된 OV3D 논문으로, 지난주와 마찬가지로 monocular ov 3D 논문 입니다. CVPR 포맷으로 작성되어 있긴…
[arXiv 2024] LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding
안녕하세요. 제가 학부 패턴인식 수업에서 프로젝트를 진행하는 데, 그것에 대한 작은 주제로 MLLM(Multimodal LLM)을 활용한 zero-shot Visual Grounding을 시도해보고 있었습니다. 원래 처음엔 단순히 gpt4o에 모호한…
[CVPR 2022] Incorporating Semi-Supervised and Positive-Unlabeled Learning for Boosting Full Reference Image Quality Assessment
안녕하세요. 박성준 연구원입니다. 오늘은 약간 색다른 task의 논문을 리뷰하게 되었습니다. 그렇기 때문에 이번 리뷰는 좀 더 자세하게 서술해보려 합니다. 최근 unlabeled 데이터들을 잘 활용하는 방법에…
[arXiv 2024] PAVLM: Advancing Point Cloud based Affordance Understanding Via Vision-Language Model
안녕하세요. 제가 이번에 리뷰할 논문은 올해 10월에 공개된 논문입니다. 최근 affordance 관련 연구들을 리뷰하였는데, 이번에 리뷰할 논문은 3D point cloud에서의 Affordance 영역을 찾는 논문이라 읽어보게…
[NeurIPS 2024] Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data
안녕하세요, 마흔 여덟번째 x-review 입니다. 이번 논문은 2024년도 NeurIPS에 게재된 OV3D 논문으로,처음으로 monocular 3D detection에서 ov 개념을 도입한 논문 입니다. 그럼 바로 리뷰 시작하겠습니다. 1….
최신 댓글