Author: 홍 주영

Posted in Conference X-Review

[ECCV 2024] HYPE: Hyperbolic Entailment Filtering for Underspecified Images and Texts

이번에는 하이퍼볼릭 임베딩을 활용한 이미지-텍스트 데이터 필터링에 대한 논문을 리뷰해보겠습니다. 보다 구체적으로 말하자면, 단순히 이미지-텍스트 사이의 정렬만 집중하는 것이 아닌 CLIP에 Hyperbolic Embedding을 추가하여 데이터의…

Continue Reading
Posted in X-Review

[ECCV 2024] Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention

오늘은 Open-vocabulary Scene Graph Generation 에 대한 논문을 리뷰해보겠습니다. 해당 논문은 Grounding DINO를 Open-vocabulary SGG를 위해 개선한 논문입니다. 앞으로 진행할 연구의 베이스라인이 되는 논문으로, 아마…

Continue Reading
Posted in X-Review

[CVPR 2022] Grounded Language-Image Pre-training

지난번 리뷰에서 Grounding DINO 라는 최신 VLM 모델에 대해 다루면서, GLIP이라는 방법론을 간단하게 설명했었습니다. 단순하게 다루고 넘어가기엔, 어찌보면 CLIP 이후로 등장한 VLM의 근본이 되는 그런…

Continue Reading
Posted in X-Review

[ECCV 2024] Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection

저는 다시 Vision Language Model (VLM) 에 대한 리뷰를 진행해보도록 하겠습니다. VLM의 근본, 조상 격인 CLIP에 대한 리뷰는 아래 링크에서 확인하실 수 있으니, 아직 CLIP에…

Continue Reading
Posted in Paper X-Review

[CVPR 2022] Entropy-based Active Learning for Object Detection with Progressive Diversity Constraint

오랜만에 Object Detection을 위한 Active Learning 논문을 리뷰해보겠습니다. Multi-class가 존재하는 object detection 태스크에서, 보다 정확하고 균일한 데이터셋을 선택하는 방식을 제안한 연구입니다. Conference: CVPR 2022 Title:…

Continue Reading
Posted in Conference X-Review

[ICML 2021] (CLIP) Learning Transferable Visual Models From Natural Language Supervision

Vision Language Model(VLM)의 근본인 CLIP 논문에 대해 리뷰해보겠습니다. 아이디어와 코드는 아주아주 간단한데, 현재시간 기준 19,543회의 인용률을 달성할 정도로 어마어마한 파급력을 가져온 논문이라는 것은 누구나 다…

Continue Reading
Posted in Conference X-Review

[NerulPS 2022] Flamingo: a Visual Language Model for Few-Shot Learning

당분간 LMM 및 여러 VLM를 리뷰해보려고 하는데요, 이번에 리뷰할 논문은 구글 딥마인드에서 발표한 Visual Language Model(VLM)인 Flamingo 라는 논문입니다. 제목에서와 같이 Few-shot으로도 다양한 task를 수행할…

Continue Reading
Posted in Conference X-Review

[NeurIPS 2023] Visual Instruction Tuning

CVPR 세미나에서 발표했던 것처럼, 이번주부터는 Multi-modal(Text, Image) model에 대해 리뷰해보려고 합니다. 가장 첫번째로 Meta의 LLM 모델인 LLaMA를 사용한 Vision-Language 모델인 LLaVA에 대해 다뤄보겠습니다. Conference: NeurIPS…

Continue Reading
Posted in Ph.D. X-Diary

2024년 상반기 회고@홍주영

벌써 저의 박사과정 1학기가 순식간에 끝이 났습니다. 상반기를 돌아보면, 제안서 작성과 CVPR 학회 참여라는 두 가지 큰 경험이 있던 것 같습니다. 이 두 가지 경험을…

Continue Reading
Posted in X-Review

[CVPR 2024] Active Prompt Learning in Vision Language Models

Active Learning 과 Vision Language Model을 결합한 연구가 있어 리뷰해보도록 하겠습니다. 결국 Active Learning에도 CLIP을 결합한 연구가 등장하였네요. 사실 올 초 신진연구 제안서 작업을 할…

Continue Reading