Author: 김 현우
[TCSVT 2024] Question-Aware Global-Local Video Understanding Network for Audio-Visual Question Answering
안녕하세요. 오늘 X-Review에서 소개해드릴 논문은 24년도 TCSVT 저널에 게재된 <Question-Aware Global-Local Video Understanding Network for Audio-Visual Question Answering>입니다. 저널의 review 기간을 감안한다면 절대적 성능은 그리…
[arXiv 2025] AV-Master: Dual-Path Comprehensive Perception Makes Better Audio-Visual Question Answering
안녕하세요. 오늘의 X-Review는 Audio Visual Question Answering 방법론 논문입니다. 25년 10월 아카이브에 공개되었으며, 현재 실험중인 상황에서 최근 제안된 AVQA 방법론들을 읽는 중인데 정리 목적으로 글을…
[CVPR 2020] Counterfactual Samples Synthesizing for Robust Visual Question Answering
안녕하세요. 이번 X-Review에선 20년도 CVPR에 게재된 VQA 논문을 소개해드리고자합니다. 나온지 시간이 꽤 된 논문이지만 지금 개인 연구에 적용한 아이디어와 거의 동일하여 리뷰하게 되었습니다. 간단하게는 Visual…
[WACV 2024] Tackling Data Bias in MUSIC-AVQA: Crafting a Balanced Dataset for Unbiased Question-Answering
안녕하세요. 오늘의 X-Review에서 소개해드릴 논문은 24년도 WACV에 게재된 <Tackling Data Bias in MUSIC-AVQA: Crafting a Balanced Dataset for Unbiased Question-Answering> 입니다. 현재 개인적으로 Audio-Visual Question…
[CVPR 2025] VisionZip: Longer is Better but Not Necessary in Vision Language Models
안녕하세요. 오늘의 X-Review는 25년도 CVPR에 게재된 VisionZip이라는 논문입니다. 제목에서도 알 수 있듯 VLM의 vision token efficiency와 관련된 논문이며, 개인적으로는 VisionZip의 방법론 자체도 좋지만 이 방법론의…
[AAAI 2024] Object-Aware Adaptive-Positivity Learning for Audio-Visual Question Answering
안녕하세요. 오늘 리뷰에서는 24년도 AAAI에 게재된 AVQA 관련 논문을 소개해드리겠습니다. 제가 지금 진행중인 실험들과 결이 비슷해 자세히 읽어보게 되었습니다. 바로 리뷰 시작하겠습니다. 1. Introduction Audio-Visual…
[AAAI 2025] Patch-level Sounding Object Tracking for Audio-Visual Question Answering
안녕하세요 오늘의 X-Review 또한 Audio-Visual Question Answering task를 수행하는 방법론 논문을 소개해드리고자 합니다. 25년도 AAAI에 게재된 논문입니다. 그럼 바로 리뷰 시작하겠습니다. 1. Introduction 그림 1-(a)에서…
[CVPR 2025] Object-aware Sound Source Localization via Audio-Visual Scene Understanding
안녕하세요. 이번 X-Review에서는 25년도 CVPR에 게재된 논문 <Object-aware Sound Source Localization via Audio-Visual Scene Understanding>을 소개해드리고자 합니다. Sound Source Localization이라는 task를 다루는 논문은 처음 읽어보는데요….
[AAAI 2025] Audio-Visual Adaptive Fusion Network for Question Answering Based on Contrastive Learning
안녕하세요. 이번 주 X-Review에서는 25년도 AAAI에 게재된 Audio-Visual Question Answering(AVQA) 관련 논문을 소개해드리겠습니다. 최근 Audio-Visual alignment learning 대한 여러가지 방법론 및 기타 아이디어를 얻어올 수…
[CVPR 2025] Question-Aware Gaussian Experts for Audio-Visual Question Answering
안녕하세요. 오늘의 X-Review에서는 25년도 CVPR에 게재된 <Question-Aware Gaussian Experts for Audio-Visual Question Answering> 논문을 소개드리겠습니다. CVPR 리뷰 과정에서 좋은 평가를 받아 Highlight으로 선정된 논문입니다. 1….
안녕하세요, 영규님. 좋은 리뷰 감사드립니다. 리뷰를 읽으며 개인적으로 궁금한 점이 생겨 질문드립니다. 제가 이해하기로는 현재 소개된 월드 모델들은 주로 비디오와…