2024년 12월 – 페이지 3 – Robotics and Computer Vision Lab

[arXiv 2024] LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding

안녕하세요. 제가 학부 패턴인식 수업에서 프로젝트를 진행하는 데, 그것에 대한 작은 주제로 MLLM(Multimodal LLM)을 활용한 zero-shot Visual Grounding을 시도해보고 있었습니다. 원래 처음엔 단순히 gpt4o에 모호한…

X-Review

[CVPR 2022] Incorporating Semi-Supervised and Positive-Unlabeled Learning for Boosting Full Reference Image Quality Assessment

안녕하세요. 박성준 연구원입니다. 오늘은 약간 색다른 task의 논문을 리뷰하게 되었습니다. 그렇기 때문에 이번 리뷰는 좀 더 자세하게 서술해보려 합니다. 최근 unlabeled 데이터들을 잘 활용하는 방법에…

X-Review

[arXiv 2024] PAVLM: Advancing Point Cloud based Affordance Understanding Via Vision-Language Model

안녕하세요. 제가 이번에 리뷰할 논문은 올해 10월에 공개된 논문입니다. 최근 affordance 관련 연구들을 리뷰하였는데, 이번에 리뷰할 논문은 3D point cloud에서의 Affordance 영역을 찾는 논문이라 읽어보게…

Paper X-Review

[NeurIPS 2024] Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data

안녕하세요, 마흔 여덟번째 x-review 입니다. 이번 논문은 2024년도 NeurIPS에 게재된 OV3D 논문으로,처음으로 monocular 3D detection에서 ov 개념을 도입한 논문 입니다. 그럼 바로 리뷰 시작하겠습니다. 1….

X-Review

[CVPR 2022] RegionCLIP: Region-based Language-Image Pretraining

안녕하세요. 이번 리뷰할 논문은 RegionCLIP으로, 한 문장으로 요약하자면 “CLIP이 Detection, Segmentation 등에서 조금 더 유용히 활용되고자 제안된 방법”입니다. 비록 2년 전의 방법론이나, 최근의 VLM 기반의…

Paper X-Review

[TNNLS 2023] Domain Adaptation via Prompt Learning

오늘 리뷰할 논문은 Prompt Learning 을 DA 에 접목한 연구입니다.2022년에 arxiv, 그리고 2023년에 TNNLS에 게재된 논문이고 인용수가 160회에 육박하는 논문입니다. DA 수행을 위해 Prompt Learning…

Paper X-Review

[EMNLP 2024] Interpretable Composition Attribution Enhancement for Visio-linguistic Compositional Understanding

안녕하세요, 이번 주 X-Review는 24년도 EMNLP에 게재된 논문 <Interpretable Composition Attribution Enhancement for Visio-linguistic Compositional Understanding>을 주제로 작성하겠습니다. 연구 중인 Video Moment Retrieval task도 결국…

B.S. X-Diary

ICAN 제2회 네이버랩스 전문가 초청 세미나 참관기

안녕하세요, 이번에 RCV에 새로 합류하게 된 안우현입니다. 저는 11월 13일에 참여했던 네이버랩스 전문가 초청 세미나에 대한 후기를 공유하고자 합니다. 이번 세미나의 연사로는 네이버랩스의 권재운 연구원님이…

X-Review

[arXiv2024] LLaVA-MR: Large Language-and-Vision Assistant for Video Moment Retrieval

안녕하세요. 오늘 제가 리뷰할 논문은 아직 아카이브에만 등재된 논문이지만, 제목을 보고 궁금증이 생겨서 읽게된 LLaVA-MR입니다. 올해 하반기부터해서 Video Moment Retrieval(VMR) task에서도 사전학습된 foundation 모델을 활용하는…

Paper X-Review

[2023 ICLR ] CLIP-VIP: ADAPTING PRE-TRAINED IMAGE-TEXT MODEL TO VIDEO-LANGUAGE ALIGNMENT

이번에 소개할 논문은 CLIP 모델을 대규모 비디오 데이터로 post-pretraining하여 비디오-텍스트 작업에서 성능을 향상시키는 방법을 제안한 논문입니다. 먼저, 기존 CLIP 모델을 비디오 데이터로 학습할 때 발생하는…

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

[월:] 2024년 12월

[arXiv 2024] LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding

[CVPR 2022] Incorporating Semi-Supervised and Positive-Unlabeled Learning for Boosting Full Reference Image Quality Assessment

[arXiv 2024] PAVLM: Advancing Point Cloud based Affordance Understanding Via Vision-Language Model

[NeurIPS 2024] Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data

[CVPR 2022] RegionCLIP: Region-based Language-Image Pretraining

[TNNLS 2023] Domain Adaptation via Prompt Learning

[EMNLP 2024] Interpretable Composition Attribution Enhancement for Visio-linguistic Compositional Understanding

ICAN 제2회 네이버랩스 전문가 초청 세미나 참관기

[arXiv2024] LLaVA-MR: Large Language-and-Vision Assistant for Video Moment Retrieval

[2023 ICLR ] CLIP-VIP: ADAPTING PRE-TRAINED IMAGE-TEXT MODEL TO VIDEO-LANGUAGE ALIGNMENT

학술대회 마감

최신 글

최신 댓글

학술대회 마감

태그

카테고리

최신 글

최신 댓글