Category: Paper
Paper Review
[CVPR 2024 Highlight]SHiNe: Semantic Hierarchy Nexus for Open-vocabulary Object Detection
안녕하세요 이번 논문은 제가 하고있는 창의학기제에서 풀려고하는 문제점들을 서베이하다가 네이버에서 낸 논문이 있어서 읽어본 논문입니다. ( 네이버랩스 유럽이라 한국인 이름은 안보이네요..) 그럼 리뷰 시작하겠습니다. Abstarct…
[ICCV 2025] Hybrid-Tower: Fine-grained Pseudo-query Interaction and Generation for Text-to-Video Retrieval
이번에 소개할 논문은 2025 ICCV에 accept된 논문으로, text-video retrieval 분야에서 정확성과 효율성을 모두 달성한 연구입니다. 그럼 바로 리뷰 시작하겠습니다. 1. Introduction Text-to-Video Retrieval (T2VR)은 주어진…
[CVPR 2024] OED: Towards One-stage End-to-End Dynamic Scene Graph Generation
안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 CVPR 2024에 게재된 논문으로, DETR 구조를 기반으로 Video Scene Graph Generation을 수행한 논문입니다. 리뷰 시작하도록 하겠습니다. Introduction Scene Graph Generation은…
[NeurIPS 2021]DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification
안녕하세요. 지난주에 이어 이번에도 토큰 프루닝(token pruning) 관련 논문을 들고 왔습니다. 오늘 소개해 드릴 논문은 2021년 NeurIPS에 발표된 DynamicViT: Efficient Vision Transformers with Dynamic Token…
[AAAI 2025] Patch-level Sounding Object Tracking for Audio-Visual Question Answering
안녕하세요 오늘의 X-Review 또한 Audio-Visual Question Answering task를 수행하는 방법론 논문을 소개해드리고자 합니다. 25년도 AAAI에 게재된 논문입니다. 그럼 바로 리뷰 시작하겠습니다. 1. Introduction 그림 1-(a)에서…
[ACCV2024]Vision language models are blind: Failing to translate detailed visual features into words
오늘은 앞서 리뷰한 VLM is biased? 라는 질문을 다룬 논문의 이전 논문을 소개하려합니다. 본 논문은 VLM이 이미지를 보고 대답할때 실제로 보고있는것인지 확인하기 위한 벤치마크를 제시합니다….
Improving Language Understanding by Generative Pre-Training
안녕하세요 황찬미입니다.첫 x-review로 GPT1에 대한 논문을 리뷰해보고자 합니다. 9월이 된 후로 LLM관련된 내용을 공부하는 중인데 대학생활을 함께한 GPT가 몇번이고 언급되길래 이 GPT…과연 어떻게 태어나게 된…
[CVPR 2024] Open-Vocabulary Calibration for Fine-tuned CLIP
안녕하세요 이번에 들고온 논문은 Open-vocabulary 세팅에서 파인튜닝된 CLIP 이 가지는 confidence calibration 문제를 다룬 논문입니다. 바로 논문리뷰 시작하겠습니다. Abstract 비전 언어 모델들은 최근 다양한 Open…
[AAAI 2025]HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models
안녕하세요. 이번 주도 지난번 토큰 프루닝 관련 주제에 이어서 현재 제가 실험 중에 참고했던 논문 한 편을 소개해드리려고 합니다. 고해상도 이미지를 다루는 Vision-Language Model(VLM)이 점점…
[CVPR 2025] Object-aware Sound Source Localization via Audio-Visual Scene Understanding
안녕하세요. 이번 X-Review에서는 25년도 CVPR에 게재된 논문 <Object-aware Sound Source Localization via Audio-Visual Scene Understanding>을 소개해드리고자 합니다. Sound Source Localization이라는 task를 다루는 논문은 처음 읽어보는데요….
안녕하세요 유진님 좋은 리뷰 감사합니다. 설명해주신 것 처럼 free-form에서는 LLM이 출력할 수 있는 문장이 많아 정답 라벨 집합 Y를 깔끔하게…