Category: Paper
Paper Review
[CVPR 2025] Video Summarization with Large Language Models
안녕하세요 LLM을 사용하여 비디오 요약을 해결한 논문을 살펴보려고 합니다!리뷰 시작하겠습니다. <Intro> 기존 기술은 visual features(시각적 단서)와 temporal dynamics(시간적 특징)에 의존하는데 이 비전 정보 중심의 방법들은…
[ICCV 2025] Toward Better Out-painting: Improving the Image Composition with Initialization Policy Model
이번 리뷰 논문은 Foreground Conditioned Out-painting (FCO)라는 기법에 대한 논문 입니다. FCO는 fig 3과 같이 전경 (fig 3 – Cond.Image)과 text prompt가 주어졌을 때, 전경은…
[arXiv 2025] AV-Master: Dual-Path Comprehensive Perception Makes Better Audio-Visual Question Answering
안녕하세요. 오늘의 X-Review는 Audio Visual Question Answering 방법론 논문입니다. 25년 10월 아카이브에 공개되었으며, 현재 실험중인 상황에서 최근 제안된 AVQA 방법론들을 읽는 중인데 정리 목적으로 글을…
[AAAI 2025] V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning
안녕하세요 황찬미입니다!오늘도 비디오 요약 관련 최신 논문을 살펴보려고 합니다!! 그럼 바로 리뷰 시작하겠습니다 [Intro] 비디오 요약 연구는 오래됐지만 두가지의 큰 장애물이 있습니다. 먼저 데이터가 너무…
[RSS 2022]ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints
안녕하세요. 이번에 소개드릴 논문도 UC 버클리 Sergey Levine 교수님 연구실에서 2022년에 발표한 ViKiNG: Vision-Based Navigation with Kilometers-Scale Generalization이라는 논문입니다. 어쩌다보니 리뷰를 해당 연구실에서 낸 논문만…
[CVPR 2020] Counterfactual Samples Synthesizing for Robust Visual Question Answering
안녕하세요. 이번 X-Review에선 20년도 CVPR에 게재된 VQA 논문을 소개해드리고자합니다. 나온지 시간이 꽤 된 논문이지만 지금 개인 연구에 적용한 아이디어와 거의 동일하여 리뷰하게 되었습니다. 간단하게는 Visual…
[NeurIPS 2020]Object-Centric Learning with Slot Attention
제가 이번에 리뷰할 논문은 Slot Attention 이라는 개념을 도입한 논문입니다. Object-centric 이라는 표현이 이 논문에서 처음 등장한 것은 아니지만, 이미지가 여러 객체들의 조합으로 표현이 가능하다는…
[ICRA 2024]NoMaD : Goal Masked Diffusion Policies for Navigation and Exploration
안녕하세요. 이번에 소개드릴 논문은 ICRA 2024에 게재된 NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration이라는 논문입니다. GNM, ViNT에 이어 UC 버클리 Sergey Levine 교수님…
[NeurIPS2024] Benchmarking LLMs via Uncertainty Quantification
본 논문은 LLM을 불확실성 측면에서 평가하는 벤치마크를 제시하는 논문입니다. 벤치마크의 필요성 기존의 벤치마크는 LLM을 평가할때 예측의 정확도를 주로 리포팅했습니다. 그러나 논문에서 확인한 결과, 예측의 정확도와…
[ACM MM 2024]Boosting Audio Visual Question Answering via Key Semantic-Aware Cues
이번에 읽을 해당 논문은 현우님과 같이 연구할 주제에서 baseline 이 되는 논문입니다. 현우님이 기존에 x-review를 작성하셨지만, 해당 논문으로부터 연구를 진행해야할 만큼 제대로 한번 읽어보는 것이…
안녕하세요. 현우님 좋은 리뷰 감사합니다. 방법론 중 Global Preference Activation Path에서 질의에 따라 중요한 모달리티를 학습한다고 설명하셨는데, 본 방법에서는 명시적인…