[카테고리:] X-Review

Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.

Posted in X-Review

[CVPR 2022] Incorporating Semi-Supervised and Positive-Unlabeled Learning for Boosting Full Reference Image Quality Assessment

안녕하세요. 박성준 연구원입니다. 오늘은 약간 색다른 task의 논문을 리뷰하게 되었습니다. 그렇기 때문에 이번 리뷰는 좀 더 자세하게 서술해보려 합니다. 최근 unlabeled 데이터들을 잘 활용하는 방법에…

Continue Reading
Posted in X-Review

[arXiv 2024] PAVLM: Advancing Point Cloud based Affordance Understanding Via Vision-Language Model

안녕하세요. 제가 이번에 리뷰할 논문은 올해 10월에 공개된 논문입니다. 최근 affordance 관련 연구들을 리뷰하였는데, 이번에 리뷰할 논문은 3D point cloud에서의 Affordance 영역을 찾는 논문이라 읽어보게…

Continue Reading
Posted in Paper X-Review

[NeurIPS 2024] Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data

안녕하세요, 마흔 여덟번째 x-review 입니다. 이번 논문은 2024년도 NeurIPS에 게재된 OV3D 논문으로,처음으로 monocular 3D detection에서 ov 개념을 도입한 논문 입니다. 그럼 바로 리뷰 시작하겠습니다. 1….

Continue Reading
Posted in X-Review

[CVPR 2022] RegionCLIP: Region-based Language-Image Pretraining

안녕하세요. 이번 리뷰할 논문은 RegionCLIP으로, 한 문장으로 요약하자면 “CLIP이 Detection, Segmentation 등에서 조금 더 유용히 활용되고자 제안된 방법”입니다. 비록 2년 전의 방법론이나, 최근의 VLM 기반의…

Continue Reading
Posted in Paper X-Review

[TNNLS 2023] Domain Adaptation via Prompt Learning

오늘 리뷰할 논문은 Prompt Learning 을 DA 에 접목한 연구입니다.2022년에 arxiv, 그리고 2023년에 TNNLS에 게재된 논문이고 인용수가 160회에 육박하는 논문입니다. DA 수행을 위해 Prompt Learning…

Continue Reading
Posted in Paper X-Review

[EMNLP 2024] Interpretable Composition Attribution Enhancement for Visio-linguistic Compositional Understanding

안녕하세요, 이번 주 X-Review는 24년도 EMNLP에 게재된 논문 <Interpretable Composition Attribution Enhancement for Visio-linguistic Compositional Understanding>을 주제로 작성하겠습니다. 연구 중인 Video Moment Retrieval task도 결국…

Continue Reading
Posted in X-Review

[arXiv2024] LLaVA-MR: Large Language-and-Vision Assistant for Video Moment Retrieval

안녕하세요. 오늘 제가 리뷰할 논문은 아직 아카이브에만 등재된 논문이지만, 제목을 보고 궁금증이 생겨서 읽게된 LLaVA-MR입니다. 올해 하반기부터해서 Video Moment Retrieval(VMR) task에서도 사전학습된 foundation 모델을 활용하는…

Continue Reading
Posted in Paper X-Review

[2023 ICLR ] CLIP-VIP: ADAPTING PRE-TRAINED IMAGE-TEXT MODEL TO VIDEO-LANGUAGE ALIGNMENT

이번에 소개할 논문은 CLIP 모델을 대규모 비디오 데이터로 post-pretraining하여 비디오-텍스트 작업에서 성능을 향상시키는 방법을 제안한 논문입니다. 먼저, 기존 CLIP 모델을 비디오 데이터로 학습할 때 발생하는…

Continue Reading
Posted in Paper X-Review

[arXiv2024] SAMPart3D: Segment Any Part in 3D Objects

제가 이번에 리뷰할 논문은 SAM을 3D Part segmentation에 적용한 논문입니다. 11월에 공개된 따끈따끈한 논문으로, 최근 로봇의 grasping 관점에서 인식을 위한 방법론에도 관심을 가지고있다보니, part segmentation에…

Continue Reading
Posted in Conference X-Review

[NeurIPS 2024] Large Spatial Model: End-to-end Unposed Images to Semantic 3D

이번 리뷰 논문은 전에 소개해드린 3DLF의 느릴 수 밖에 없는 파이프라인과 추론 속도를 보강하기 위한 기법입니다. 해당 기법은 입력 영상으로부터 0.1 second 정도의 온보딩 과정만…

Continue Reading