Author: 홍 주영
[ECCV 2024] Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention
오늘은 Open-vocabulary Scene Graph Generation 에 대한 논문을 리뷰해보겠습니다. 해당 논문은 Grounding DINO를 Open-vocabulary SGG를 위해 개선한 논문입니다. 앞으로 진행할 연구의 베이스라인이 되는 논문으로, 아마…
[CVPR 2022] Grounded Language-Image Pre-training
지난번 리뷰에서 Grounding DINO 라는 최신 VLM 모델에 대해 다루면서, GLIP이라는 방법론을 간단하게 설명했었습니다. 단순하게 다루고 넘어가기엔, 어찌보면 CLIP 이후로 등장한 VLM의 근본이 되는 그런…
[ECCV 2024] Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection
저는 다시 Vision Language Model (VLM) 에 대한 리뷰를 진행해보도록 하겠습니다. VLM의 근본, 조상 격인 CLIP에 대한 리뷰는 아래 링크에서 확인하실 수 있으니, 아직 CLIP에…
[CVPR 2022] Entropy-based Active Learning for Object Detection with Progressive Diversity Constraint
오랜만에 Object Detection을 위한 Active Learning 논문을 리뷰해보겠습니다. Multi-class가 존재하는 object detection 태스크에서, 보다 정확하고 균일한 데이터셋을 선택하는 방식을 제안한 연구입니다. Conference: CVPR 2022 Title:…
[ICML 2021] (CLIP) Learning Transferable Visual Models From Natural Language Supervision
Vision Language Model(VLM)의 근본인 CLIP 논문에 대해 리뷰해보겠습니다. 아이디어와 코드는 아주아주 간단한데, 현재시간 기준 19,543회의 인용률을 달성할 정도로 어마어마한 파급력을 가져온 논문이라는 것은 누구나 다…
[NerulPS 2022] Flamingo: a Visual Language Model for Few-Shot Learning
당분간 LMM 및 여러 VLM를 리뷰해보려고 하는데요, 이번에 리뷰할 논문은 구글 딥마인드에서 발표한 Visual Language Model(VLM)인 Flamingo 라는 논문입니다. 제목에서와 같이 Few-shot으로도 다양한 task를 수행할…
[NeurIPS 2023] Visual Instruction Tuning
CVPR 세미나에서 발표했던 것처럼, 이번주부터는 Multi-modal(Text, Image) model에 대해 리뷰해보려고 합니다. 가장 첫번째로 Meta의 LLM 모델인 LLaMA를 사용한 Vision-Language 모델인 LLaVA에 대해 다뤄보겠습니다. Conference: NeurIPS…
2024년 상반기 회고@홍주영
벌써 저의 박사과정 1학기가 순식간에 끝이 났습니다. 상반기를 돌아보면, 제안서 작성과 CVPR 학회 참여라는 두 가지 큰 경험이 있던 것 같습니다. 이 두 가지 경험을…
[CVPR 2024] Active Prompt Learning in Vision Language Models
Active Learning 과 Vision Language Model을 결합한 연구가 있어 리뷰해보도록 하겠습니다. 결국 Active Learning에도 CLIP을 결합한 연구가 등장하였네요. 사실 올 초 신진연구 제안서 작업을 할…
[CVPR 2022] Active Learning by Feature Mixing
황유진 연구원과 제출한 논문에서 받은 리뷰 중, 해당 논문에 대해서도 성능 비교 실험에 추가해달라는 코멘트가 있었습니다. 이에 제가 작성한 리뷰를 살펴보니, 해당 논문을 자세하게 리뷰한…
안녕하세요 재윤님 답글 감사합니다. 새로운 비정형 질문들이 들어오면 해당 task 는 당연히 성능이 떨어지기도 할 것이고 저자가 구상한 의무문 ->…