[월:] 2024년 09월
[CVPR 2023] Detecting Everything in the Open World: Towards Universal Object Detection
안녕하세요. 지난 리뷰에서는 Universal Segmentation, Segmentation의 모든 Task 에 대한 연구를 소개 드렸다면, 이번 논문에서는 Detection 분야에서 “모든 환경에서, 모든 객체를 탐지하고자 하는” 연구를 소개…
[CoRL 2023 Oral] Language Embedded Radiance Fields for Zero-Shot Task-Oriented Grasping
이번 논문은 LEFT-TOGO라는 논문으로 저희가 진행하고 있는 LLM 로봇 과제에서 지향하는 목표 중 하나를 구현한 논문에 해당합니다. 해당 논문은 VLM의 특징 정보를 가진 NeRF인 LERF를…
[CVPR 2024] Domain-Specific Block Selection and Paired-View Pseudo-Labeling for Online Test-Time Adaptation
안녕하세요, 오랜만에 TTA 분야 논문 리뷰입니다.바로 시작하겠습니다. 1. Introduction source domain dataset에 대해 학습된 모델이 실상황에 deploy된 상황 속,학습때는 마주하지 못한 새로운 target domain 에…
[MM 2024] Let Me Finish My Sentence: Video Temporal Grounding with Holistic Text Understanding
안녕하세요, 오늘의 X-Review에서는 24년도 ACM MM 학회에 게재된 논문 <Let Me Finish My Sentence: Video Temporal Grounding with Holistic Text Understanding>을 소개해드리고자 합니다. 카이스트의 정준선…
[ICLR 2024] CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense Prediction
안녕하세요. 이번 주 X-Review에서는, 24년도 ICLR에 Spotlight으로 게재된 <CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense Prediction>이라는 논문을 소개해드리겠습니다. ICLR Spotlight으로 지정된 논문인데, 통찰력 있는…
[ECCV 2022] Towards Open-Vocabulary Scene Graph Generation with Prompt-based Finetuning
안녕하세요 이번에 소개할 논문은 기존의 Scene Graph Generation이 사전 정의된 객체 클래스들 사이의 관계만을 예측하는 한계를 해결하기 위한 새로운 접근 방식을 제안한 연구입니다. 이 논문은…
[ICIP 2023] TR3D: TOWARDS REAL-TIME INDOOR 3D OBJECT DETECTION
안녕하세요. 저번 주차에 FCAF3D 라는 Fully Convolutional 3D object detection 방법론 중 anchor-free 기법을 처음으로 제안한 논문을 리뷰했었습니다. FCAF3D에 대한 리뷰가 궁금하신 분들은 저의 리뷰…
[CVPR 2021] UP-DETR: Unsupervised Pre-training for Object Detection with Transformers
안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 CVPR 2021 및 TPAMI 2022에 게재된 UP-DETR이라는 논문으로, DETR에 대한 unsupervised learning을 다룬 논문입니다. 리뷰 시작하겠습니다. Introduction Self-Supervised Learning, Unsupervised…
[CVPR 2024] OMG-Seg: Is One Model Good Enough For All Segmentation?
안녕하세요. Vision 분야에서 Recognition에 대해 Detection에 대해 연구를 하고, 최근에는 Segmentation 분야에 대해 관심을 가지고 있습니다. 제 생각에선 Detection이든, Segmentation이든, 그 어떤 Task이든 연구와 실용성의…
[CVPR 2022] Grounded Language-Image Pre-training
지난번 리뷰에서 Grounding DINO 라는 최신 VLM 모델에 대해 다루면서, GLIP이라는 방법론을 간단하게 설명했었습니다. 단순하게 다루고 넘어가기엔, 어찌보면 CLIP 이후로 등장한 VLM의 근본이 되는 그런…
최신 댓글