Author: 허 재연

Posted in Paper X-Review

[ECCV 2024] Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection

안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 ECCV 2024에 게재된 논문으로, Visual Relationship DetectionI(VRD)를 open-vocabulary로 수행하는 Scene-Graph ViT라는 방법론을 제안한 논문입니다. Visual Relationship Detection은 장면 이해를 수행하기…

Continue Reading
Posted in Paper X-Review

[CVPR 2022] SGTR: End-to-end Scene Graph Generation with Transformer

안녕하세요, 허재연입니다. 이번에는 Scene Graph Generation(SGG)분야 논문을 들고 왔습니다. CVPR 2022년에 게재된 논문으로, DETR의 철학을 많이 참고한 느낌의 방법론입니다. task가 아직 저에게 꽤 낯설고 수식도…

Continue Reading
Posted in Paper X-Review

[CVPR 2022] DenseCLIP : Language-Guided Dense Prediction with Context-Aware Propmting

안녕하세요, 허재연입니다. 오늘 다룰 논문은 CLIP과 같은 image-text pair로 대규모 사전학습을 진행한 VLM모델들의 지식을 dense prediction task에 효율적으로 전이할 수 있는 방법을 제안한 논문입니다. 제안하는…

Continue Reading
Posted in Paper X-Review

[ICLR 2022] FILIP: FINE-GRAINED INTERACTIVE LANGUAGE-IMAGE PRE-TRAINING

안녕하세요, 허재연입니다. 이번 리뷰에서 다룰 논문은 보다 fine-grained 한 사전학습을 통해 FILIP이라는 새로운 VLM을 구축한 연구입니다. 리뷰 시작하겠습니다. Introduction CLIP, ALIGN과 같은 대규모 Vision-Language 사전학습법이…

Continue Reading
Posted in Paper X-Review

[ICCV 2023] A Simple Framework for Open-Vocabulary Segmentation and Detection

안녕하세요, 허재연입니다. 이번 리뷰에서는 다룰 논문은 OpenSeeD라는, Open Vocabulary Segmentation과 Detection를 둘 다 수행할 수 있는 프레임워크를 제안한 논문입니다. 리뷰 시작하도록 하겠습니다. Introduction 대표적인 대규모…

Continue Reading
Posted in Paper X-Review

[ICLR 2022] DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR

안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 ICLR 2022에 게재된 DAB-DETR입니다. OVOD 논문들을 읽다 등장하여 살펴본 논문이며, DETR의 object query에 주목하여 성능을 개선한 논문입니다. DETR 구조는 대부분…

Continue Reading
Posted in Paper X-Review

[CVPR 2023] CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching

안녕하세요, 허재연입니다. 이번 리뷰에서 다룰 논문은 CVPR 2023에 게재된 CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching 라는 논문으로, 기존 VLM을…

Continue Reading
Posted in Paper X-Review

[CVPR 2022] Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language Model

안녕하세요, 허재연입니다. 요즘에는 VLM과 OD의 결합으로 발전되고 있는 OVOD의 연구 동향을 팔로업 하고 있습니다. 제가 NLP쪽은 잘 몰라서 VLM의 prompt는 어떻게 사용하는지 항상 의문을 가지고…

Continue Reading
Posted in Paper X-Review

[ICML 2021] ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision

안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 google research에서 2021년 ICLR에 게재한 ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision 이라는 논문입니다. CLIP과…

Continue Reading
Posted in Paper X-Review

[ICML 2022] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

안녕하세요, 허재연입니다. 논문 제출 이후, 최근 연구 트렌드를 follow-up 하기 위해 힘쓰고 있습니다. 특히 Foundation Model, VLM 등의 연구들이 어떻게 대규모 사전학습 지식을 활용하는지, 이러한…

Continue Reading