[CVPR 2023] DeCo: Decomposition and Reconstruction for Compositional Temporal Grounding via Coarse-to-Fine Contrastive Ranking
안녕하세요. 이번 주 X-Review에서는 23년도 CVPR에 게재된 Moment Retrieval 관련 논문 <DeCo: Decomposition and Reconstruction for Compositional Temporal Grounding via Coarse-to-Fine Contrastive Ranking>을 소개해드리겠습니다. 논문의…
[arXiv 2024] Open Vocabulary Monocular 3D Object Detection
안녕하세요, 마흔 아홉번째 x-review 입니다. 이번 논문은 한 2주 전 arXiv에 게재된 OV3D 논문으로, 지난주와 마찬가지로 monocular ov 3D 논문 입니다. CVPR 포맷으로 작성되어 있긴…
[arXiv 2024] LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding
안녕하세요. 제가 학부 패턴인식 수업에서 프로젝트를 진행하는 데, 그것에 대한 작은 주제로 MLLM(Multimodal LLM)을 활용한 zero-shot Visual Grounding을 시도해보고 있었습니다. 원래 처음엔 단순히 gpt4o에 모호한…
[CVPR 2022] Incorporating Semi-Supervised and Positive-Unlabeled Learning for Boosting Full Reference Image Quality Assessment
안녕하세요. 박성준 연구원입니다. 오늘은 약간 색다른 task의 논문을 리뷰하게 되었습니다. 그렇기 때문에 이번 리뷰는 좀 더 자세하게 서술해보려 합니다. 최근 unlabeled 데이터들을 잘 활용하는 방법에…
[arXiv 2024] PAVLM: Advancing Point Cloud based Affordance Understanding Via Vision-Language Model
안녕하세요. 제가 이번에 리뷰할 논문은 올해 10월에 공개된 논문입니다. 최근 affordance 관련 연구들을 리뷰하였는데, 이번에 리뷰할 논문은 3D point cloud에서의 Affordance 영역을 찾는 논문이라 읽어보게…
[NeurIPS 2024] Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data
안녕하세요, 마흔 여덟번째 x-review 입니다. 이번 논문은 2024년도 NeurIPS에 게재된 OV3D 논문으로,처음으로 monocular 3D detection에서 ov 개념을 도입한 논문 입니다. 그럼 바로 리뷰 시작하겠습니다. 1….
[CVPR 2022] RegionCLIP: Region-based Language-Image Pretraining
안녕하세요. 이번 리뷰할 논문은 RegionCLIP으로, 한 문장으로 요약하자면 “CLIP이 Detection, Segmentation 등에서 조금 더 유용히 활용되고자 제안된 방법”입니다. 비록 2년 전의 방법론이나, 최근의 VLM 기반의…
[TNNLS 2023] Domain Adaptation via Prompt Learning
오늘 리뷰할 논문은 Prompt Learning 을 DA 에 접목한 연구입니다.2022년에 arxiv, 그리고 2023년에 TNNLS에 게재된 논문이고 인용수가 160회에 육박하는 논문입니다. DA 수행을 위해 Prompt Learning…
[EMNLP 2024] Interpretable Composition Attribution Enhancement for Visio-linguistic Compositional Understanding
안녕하세요, 이번 주 X-Review는 24년도 EMNLP에 게재된 논문 <Interpretable Composition Attribution Enhancement for Visio-linguistic Compositional Understanding>을 주제로 작성하겠습니다. 연구 중인 Video Moment Retrieval task도 결국…
ICAN 제2회 네이버랩스 전문가 초청 세미나 참관기
안녕하세요, 이번에 RCV에 새로 합류하게 된 안우현입니다. 저는 11월 13일에 참여했던 네이버랩스 전문가 초청 세미나에 대한 후기를 공유하고자 합니다. 이번 세미나의 연사로는 네이버랩스의 권재운 연구원님이…
안녕하세요, 영규님 댓글 감사합니다. 비동기(asynchronous) inference와 관련해 논문에서는 명시적·정량적으로 성능이 우수하다고 평가한 부분은 없고, 정성적으로 더 빠른 반응성과 연속적인 움직임을…