Category: X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[TPAMI 2024] Turning a CLIP Model Into a Scene Text Spotter
1. Introduction Scene text spotting은 natural image내에 있는 text instance의 위치를 찾고 그 text가 무엇인지 인식하는 task입니다. 지금까지 이 spotting은 fully-supervised 방식으로 발전해오고 있었는데요, 본…
[ECCV 2024] Global-Local Collaborative Inference with LLM for Lidar-Based Open-Vocabulary Detection
안녕하세요, 쉰번째 x-review 입니다. 이번 논문은 ECCV 2024년도에 게재된 OV3D 논문인데, 처음으로 3D detection을 위해 제대로 LLM을 활용한 논문인 것 같습니다. 직접적으로 LLM을 3D detection에…
[CVPR 2023] DeCo: Decomposition and Reconstruction for Compositional Temporal Grounding via Coarse-to-Fine Contrastive Ranking
안녕하세요. 이번 주 X-Review에서는 23년도 CVPR에 게재된 Moment Retrieval 관련 논문 <DeCo: Decomposition and Reconstruction for Compositional Temporal Grounding via Coarse-to-Fine Contrastive Ranking>을 소개해드리겠습니다. 논문의…
[arXiv 2024] Open Vocabulary Monocular 3D Object Detection
안녕하세요, 마흔 아홉번째 x-review 입니다. 이번 논문은 한 2주 전 arXiv에 게재된 OV3D 논문으로, 지난주와 마찬가지로 monocular ov 3D 논문 입니다. CVPR 포맷으로 작성되어 있긴…
[arXiv 2024] LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding
안녕하세요. 제가 학부 패턴인식 수업에서 프로젝트를 진행하는 데, 그것에 대한 작은 주제로 MLLM(Multimodal LLM)을 활용한 zero-shot Visual Grounding을 시도해보고 있었습니다. 원래 처음엔 단순히 gpt4o에 모호한…
[CVPR 2022] Incorporating Semi-Supervised and Positive-Unlabeled Learning for Boosting Full Reference Image Quality Assessment
안녕하세요. 박성준 연구원입니다. 오늘은 약간 색다른 task의 논문을 리뷰하게 되었습니다. 그렇기 때문에 이번 리뷰는 좀 더 자세하게 서술해보려 합니다. 최근 unlabeled 데이터들을 잘 활용하는 방법에…
[arXiv 2024] PAVLM: Advancing Point Cloud based Affordance Understanding Via Vision-Language Model
안녕하세요. 제가 이번에 리뷰할 논문은 올해 10월에 공개된 논문입니다. 최근 affordance 관련 연구들을 리뷰하였는데, 이번에 리뷰할 논문은 3D point cloud에서의 Affordance 영역을 찾는 논문이라 읽어보게…
[NeurIPS 2024] Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data
안녕하세요, 마흔 여덟번째 x-review 입니다. 이번 논문은 2024년도 NeurIPS에 게재된 OV3D 논문으로,처음으로 monocular 3D detection에서 ov 개념을 도입한 논문 입니다. 그럼 바로 리뷰 시작하겠습니다. 1….
[CVPR 2022] RegionCLIP: Region-based Language-Image Pretraining
안녕하세요. 이번 리뷰할 논문은 RegionCLIP으로, 한 문장으로 요약하자면 “CLIP이 Detection, Segmentation 등에서 조금 더 유용히 활용되고자 제안된 방법”입니다. 비록 2년 전의 방법론이나, 최근의 VLM 기반의…
[TNNLS 2023] Domain Adaptation via Prompt Learning
오늘 리뷰할 논문은 Prompt Learning 을 DA 에 접목한 연구입니다.2022년에 arxiv, 그리고 2023년에 TNNLS에 게재된 논문이고 인용수가 160회에 육박하는 논문입니다. DA 수행을 위해 Prompt Learning…
안녕하세요 성준님. 좋은 리뷰 감사합니다. Definition 2.1에서 G와 G'을 정의하는 부분이 잘 이해가 가지 않아 질문드립니다. 제가 이해하기로 G는 backward…