Category: Paper

Paper Review

Posted in Paper X-Review

[TMM 2024] End-to-End Video Scene Graph Generation With Temporal Propagation Transformer

안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 2024년 IEEE TRANSACTIONS ON MULTIMEDIA(TMM)에 발행된 논문으로, Video Scene Graph Generation을 다룹니다. CVPR 2024에서 제안된 OED 이외에 DETR 기반의 VidSGG…

Continue Reading
Posted in Paper X-Review

[ACL Findings 2025] Detecting and Mitigating Challenges in Zero-Shot Video Summarization with Video LLMs

Video LLMs을 통한 비디오 요약이 가능할까요? 해당 질문에 대한 답을 위해 분석을 진행한 논문이 여기 있습니다. 리뷰를 시작하겠습니다. 본 논문은 Zero-shot으로 비디오 요약을 수행하려할때 확인하게…

Continue Reading
Posted in Paper X-Review

[Arxiv 2023]ONE-PEACE: EXPLORING ONE GENERAL REPRESENTATION MODEL TOWARD UNLIMITED MODALITIES

안녕하세요 오늘은 여러 모달리티를 잘 엮어서 하나의 범용 표현 모델을 만든 논문을 들고왔습니다. 사실 최초 읽은 이유는 audio 모달리티에 대한 얻을 수 있는 인사이트가 없나…

Continue Reading
Posted in Paper X-Review

[CVPR 2025]Token Cropr Faster ViTs for Quite a Few Taskscopr

안녕하세요 이번주도 저번 주에 이어서 토큰 프루닝 관련 논문을 들고 왔습니다. 아마 이번주를 마지막으로 다음 주 부터는 토큰 프루닝 관련 논문보다는 다른 분야의 논문을 찾아서…

Continue Reading
Posted in Paper X-Review

[ECCV 2020] End-to-End Object Detection with Transformers

안녕하세요 황찬미입니다 !두번째 x-review로 transformer를 ODtask로 사용한 DETR에 대해서 리뷰하겠습니다! 1. Intro Faster R-cnn과 같은 전통적인 OD모델은 앵커박스나 region proposal같은 엄청나게 많은 후보박스를 만들고 그…

Continue Reading
Posted in Paper X-Review

[2025 ICLR] BRIDGING INFORMATION ASYMMETRY IN TEXT-VIDEO RETRIEVAL: A DATA CENTRIC APPROACH

이번에 소개할 논문도 Text-Video Retrieval(TVR) 연구의 논문입니다. 이 논문은 기존 TVR 연구들이 텍스트와 비디오 간의 “대칭적 관계”를 가정했던 한계를 지적하며, “정보 비대칭성”이라는 근본적인 문제에 주목해서…

Continue Reading
Posted in Paper X-Review

[CVPR 2024 Highlight]SHiNe: Semantic Hierarchy Nexus for Open-vocabulary Object Detection

안녕하세요 이번 논문은 제가 하고있는 창의학기제에서 풀려고하는 문제점들을 서베이하다가 네이버에서 낸 논문이 있어서 읽어본 논문입니다. ( 네이버랩스 유럽이라 한국인 이름은 안보이네요..) 그럼 리뷰 시작하겠습니다. Abstarct…

Continue Reading
Posted in Paper X-Review

[ICCV 2025] Hybrid-Tower: Fine-grained Pseudo-query Interaction and Generation for Text-to-Video Retrieval

이번에 소개할 논문은 2025 ICCV에 accept된 논문으로, text-video retrieval 분야에서 정확성과 효율성을 모두 달성한 연구입니다. 그럼 바로 리뷰 시작하겠습니다. 1. Introduction Text-to-Video Retrieval (T2VR)은 주어진…

Continue Reading
Posted in Conference Paper X-Review

[CVPR 2024] OED: Towards One-stage End-to-End Dynamic Scene Graph Generation

안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 CVPR 2024에 게재된 논문으로, DETR 구조를 기반으로 Video Scene Graph Generation을 수행한 논문입니다. 리뷰 시작하도록 하겠습니다. Introduction Scene Graph Generation은…

Continue Reading
Posted in Paper X-Review

[NeurIPS 2021]DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification

안녕하세요. 지난주에 이어 이번에도 토큰 프루닝(token pruning) 관련 논문을 들고 왔습니다. 오늘 소개해 드릴 논문은 2021년 NeurIPS에 발표된 DynamicViT: Efficient Vision Transformers with Dynamic Token…

Continue Reading