Category: Paper
Paper Review
[arXiv 2025] CLIP-UP: A Simple and Efficient Mixture-of-Experts CLIP Training Recipe
with Sparse Upcycling
with Sparse Upcycling
안녕하세요 이번에 리뷰할 논문은 2025년 Apple에서 발표한 논문으로 CLIP 모델에 Mixture-of-Experts(MoE)를 적용하여 다양한 실험을 통해 CLIP 모델 확장 과정에서 발생할 수 있는 문제점을 분석하고 새로운…
[CVPR 2016]Deep Residual Learning for Image Recognition
안녕하세요 첫 X-Review로 ResNet 논문을 가져오게 되었습니다. 제가 연구실에 들어오고 처음 꼼꼼하게 읽게 된 논문입니다. 제가 읽은 논문이 많은 것은 아니지만 ResNet에서 쓰이는 skip connection이…
[NeurIPS2021]CLIP-It! Language-Guided Video Summarization
안녕하세요 오늘도 지난시간에 이어서 Video Summarization 연구를 소개하려 합니다. 지난 리뷰[Link]에서는 입력된 비디오에서 맥락적으로 중요한 부분을 선별하기 위한 데이터셋과 구조를 소개했습니다. 이와 다르게 본 논문은…
[ECCV 2024] Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection
안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 ECCV 2024에 게재된 논문으로, Visual Relationship DetectionI(VRD)를 open-vocabulary로 수행하는 Scene-Graph ViT라는 방법론을 제안한 논문입니다. Visual Relationship Detection은 장면 이해를 수행하기…
[CVPR 2024] OMNIPARSER: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition
안녕하세요, 60번째 X-Review입니다. 이번 논문은 2024년도 CVPR에 올라온 OMNIPARSER: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition논문입니다. 바로 시작하도록 하겠습니다. ?…
[CVPR 2024] ECoDepth: Effective Conditioning of Diffusion Models for Monocular Depth Estimation
안녕하세요, 64번째 x-review 입니다. CVPR 2024년도에 게재된 Monocular depth estimation 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction 보통 Monocular Depth Estimation이라고 칭하는데 본…
[ECCV 2020] End-to-End Object Detection with Transformers
안녕하세요 류지연입니다. 오늘 리뷰할 논문은 이전에 작성했던 TESTR 모델의 근간이 되는 DETR입니다. TESTR을 읽을 때 DETR에 대해서 알고자 간단하게 블로그만을 참고했었는데요 깊게 알고자 논문을 읽고…
[CVPR 2022] SGTR: End-to-end Scene Graph Generation with Transformer
안녕하세요, 허재연입니다. 이번에는 Scene Graph Generation(SGG)분야 논문을 들고 왔습니다. CVPR 2022년에 게재된 논문으로, DETR의 철학을 많이 참고한 느낌의 방법론입니다. task가 아직 저에게 꽤 낯설고 수식도…
CLIP-MOE: TOWARDS BUILDING MIXTURE OF EXPERTS FOR CLIP WITH DIVERSIFIED MULTIPLET UPCYCLING
안녕하세요. 이번 리뷰에서는 CLIP 모델에 Mixture of Expert(MoE)를 결합한 확장 연구를 소개하고자 합니다. 비록 2025 ICLR에서는 Reject된 논문이지만 모델 구조와 리뷰어들의 코멘트를 참고하여, 어떤 방식으로…
[CVPR 2022] Text Spotting Transformers
안녕하세요 류지연입니다.저는 이번주부터 Text Spotting이란 새로운 task에 대한 논문을 보고 있습니다. Text Spotting은 이미지 속 단어들의 위치를 찾고 각 단어를 인식하는 task를 말합니다. 자율주행 환경에서…
안녕하세요 인하님, 첫 댓글 환영합니다. 1. 기존에도 VLM의 reasoning 능력을 활용해서 high-level planning을 수행하고, 여기서의 어떤 bridge가 되는 정보를 low-level…