[월:] 2024년 12월

Posted in X-Review

[arXiv 2024] LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding

안녕하세요. 제가 학부 패턴인식 수업에서 프로젝트를 진행하는 데, 그것에 대한 작은 주제로 MLLM(Multimodal LLM)을 활용한 zero-shot Visual Grounding을 시도해보고 있었습니다. 원래 처음엔 단순히 gpt4o에 모호한…

Continue Reading
Posted in X-Review

[CVPR 2022] Incorporating Semi-Supervised and Positive-Unlabeled Learning for Boosting Full Reference Image Quality Assessment

안녕하세요. 박성준 연구원입니다. 오늘은 약간 색다른 task의 논문을 리뷰하게 되었습니다. 그렇기 때문에 이번 리뷰는 좀 더 자세하게 서술해보려 합니다. 최근 unlabeled 데이터들을 잘 활용하는 방법에…

Continue Reading
Posted in X-Review

[arXiv 2024] PAVLM: Advancing Point Cloud based Affordance Understanding Via Vision-Language Model

안녕하세요. 제가 이번에 리뷰할 논문은 올해 10월에 공개된 논문입니다. 최근 affordance 관련 연구들을 리뷰하였는데, 이번에 리뷰할 논문은 3D point cloud에서의 Affordance 영역을 찾는 논문이라 읽어보게…

Continue Reading
Posted in Paper X-Review

[NeurIPS 2024] Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data

안녕하세요, 마흔 여덟번째 x-review 입니다. 이번 논문은 2024년도 NeurIPS에 게재된 OV3D 논문으로,처음으로 monocular 3D detection에서 ov 개념을 도입한 논문 입니다. 그럼 바로 리뷰 시작하겠습니다. 1….

Continue Reading
Posted in X-Review

[CVPR 2022] RegionCLIP: Region-based Language-Image Pretraining

안녕하세요. 이번 리뷰할 논문은 RegionCLIP으로, 한 문장으로 요약하자면 “CLIP이 Detection, Segmentation 등에서 조금 더 유용히 활용되고자 제안된 방법”입니다. 비록 2년 전의 방법론이나, 최근의 VLM 기반의…

Continue Reading
Posted in Paper X-Review

[TNNLS 2023] Domain Adaptation via Prompt Learning

오늘 리뷰할 논문은 Prompt Learning 을 DA 에 접목한 연구입니다.2022년에 arxiv, 그리고 2023년에 TNNLS에 게재된 논문이고 인용수가 160회에 육박하는 논문입니다. DA 수행을 위해 Prompt Learning…

Continue Reading
Posted in Paper X-Review

[EMNLP 2024] Interpretable Composition Attribution Enhancement for Visio-linguistic Compositional Understanding

안녕하세요, 이번 주 X-Review는 24년도 EMNLP에 게재된 논문 <Interpretable Composition Attribution Enhancement for Visio-linguistic Compositional Understanding>을 주제로 작성하겠습니다. 연구 중인 Video Moment Retrieval task도 결국…

Continue Reading
Posted in B.S. X-Diary

ICAN 제2회 네이버랩스 전문가 초청 세미나 참관기

안녕하세요, 이번에 RCV에 새로 합류하게 된 안우현입니다. 저는 11월 13일에 참여했던 네이버랩스 전문가 초청 세미나에 대한 후기를 공유하고자 합니다. 이번 세미나의 연사로는 네이버랩스의 권재운 연구원님이…

Continue Reading
Posted in X-Review

[arXiv2024] LLaVA-MR: Large Language-and-Vision Assistant for Video Moment Retrieval

안녕하세요. 오늘 제가 리뷰할 논문은 아직 아카이브에만 등재된 논문이지만, 제목을 보고 궁금증이 생겨서 읽게된 LLaVA-MR입니다. 올해 하반기부터해서 Video Moment Retrieval(VMR) task에서도 사전학습된 foundation 모델을 활용하는…

Continue Reading
Posted in Paper X-Review

[2023 ICLR ] CLIP-VIP: ADAPTING PRE-TRAINED IMAGE-TEXT MODEL TO VIDEO-LANGUAGE ALIGNMENT

이번에 소개할 논문은 CLIP 모델을 대규모 비디오 데이터로 post-pretraining하여 비디오-텍스트 작업에서 성능을 향상시키는 방법을 제안한 논문입니다. 먼저, 기존 CLIP 모델을 비디오 데이터로 학습할 때 발생하는…

Continue Reading