Category: Paper

Paper Review

Posted in Paper X-Review

[arXiv 2022] Disentangled Representation Learning for Text-Video Retrieval

안녕하세요 이번에 소개할 논문은 Text-Video Retrieval 모델들의 핵심 모듈인 Cross-modality interaction이 성능에 어떻게 영향을 미치는지에 대한 분석이 부족하다는 것을 문제 정의 삼아 이를 분석하고 새로운…

Continue Reading
Posted in Paper X-Review

[NeurIPS 2024]Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering

안녕하세요, 오늘은 AVQA 논문들을 팔로우업 하면서 읽어보게 된 논문입니다. AVQA 태스크를 어느정도 들어보셔서 알고 계시겠지만, 기본적으로 오디오와 비디오의 정보를 이해하고 그에 관련한 자연어 질의에 대답해야…

Continue Reading
Posted in Conference Paper X-Review

[CoRL 2025] Learning from 10 Demos: Generalisable and Sample-Efficient Policy Learning with Oriented Affordance Frames

이번 리뷰 논문은 IL이 가진 문제점, 장기적인 작업에 따른 일반화와 강건함을 가지기 위해서는 대량의 시연 데이터가 필요하다는 단점을 극복하기 위한 방법을 제시합니다. 적은 시연 데이터…

Continue Reading
Posted in Paper X-Review

[AAAI 2024] Object-Aware Adaptive-Positivity Learning for Audio-Visual Question Answering

안녕하세요. 오늘 리뷰에서는 24년도 AAAI에 게재된 AVQA 관련 논문을 소개해드리겠습니다. 제가 지금 진행중인 실험들과 결이 비슷해 자세히 읽어보게 되었습니다. 바로 리뷰 시작하겠습니다. 1. Introduction Audio-Visual…

Continue Reading
Posted in Paper X-Review

[TMM 2024] End-to-End Video Scene Graph Generation With Temporal Propagation Transformer

안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 2024년 IEEE TRANSACTIONS ON MULTIMEDIA(TMM)에 발행된 논문으로, Video Scene Graph Generation을 다룹니다. CVPR 2024에서 제안된 OED 이외에 DETR 기반의 VidSGG…

Continue Reading
Posted in Paper X-Review

[ACL Findings 2025] Detecting and Mitigating Challenges in Zero-Shot Video Summarization with Video LLMs

Video LLMs을 통한 비디오 요약이 가능할까요? 해당 질문에 대한 답을 위해 분석을 진행한 논문이 여기 있습니다. 리뷰를 시작하겠습니다. 본 논문은 Zero-shot으로 비디오 요약을 수행하려할때 확인하게…

Continue Reading
Posted in Paper X-Review

[Arxiv 2023]ONE-PEACE: EXPLORING ONE GENERAL REPRESENTATION MODEL TOWARD UNLIMITED MODALITIES

안녕하세요 오늘은 여러 모달리티를 잘 엮어서 하나의 범용 표현 모델을 만든 논문을 들고왔습니다. 사실 최초 읽은 이유는 audio 모달리티에 대한 얻을 수 있는 인사이트가 없나…

Continue Reading
Posted in Paper X-Review

[CVPR 2025]Token Cropr Faster ViTs for Quite a Few Taskscopr

안녕하세요 이번주도 저번 주에 이어서 토큰 프루닝 관련 논문을 들고 왔습니다. 아마 이번주를 마지막으로 다음 주 부터는 토큰 프루닝 관련 논문보다는 다른 분야의 논문을 찾아서…

Continue Reading
Posted in Paper X-Review

[ECCV 2020] End-to-End Object Detection with Transformers

안녕하세요 황찬미입니다 !두번째 x-review로 transformer를 ODtask로 사용한 DETR에 대해서 리뷰하겠습니다! 1. Intro Faster R-cnn과 같은 전통적인 OD모델은 앵커박스나 region proposal같은 엄청나게 많은 후보박스를 만들고 그…

Continue Reading
Posted in Paper X-Review

[2025 ICLR] BRIDGING INFORMATION ASYMMETRY IN TEXT-VIDEO RETRIEVAL: A DATA CENTRIC APPROACH

이번에 소개할 논문도 Text-Video Retrieval(TVR) 연구의 논문입니다. 이 논문은 기존 TVR 연구들이 텍스트와 비디오 간의 “대칭적 관계”를 가정했던 한계를 지적하며, “정보 비대칭성”이라는 근본적인 문제에 주목해서…

Continue Reading