Author: 김 현우
[김현우] 2025년을 보내며
안녕하세요. 2025년 올 한 해를 마무리하며 이번 1년은 어떻게 보냈는지 글로 작성해보겠습니다. 올해 상반기에는 기업 인턴십을 하며 보냈고, 하반기에는 다시 연구실로 돌아와 석사 3학기를 지냈습니다….
[TCSVT 2024] Question-Aware Global-Local Video Understanding Network for Audio-Visual Question Answering
안녕하세요. 오늘 X-Review에서 소개해드릴 논문은 24년도 TCSVT 저널에 게재된 <Question-Aware Global-Local Video Understanding Network for Audio-Visual Question Answering>입니다. 저널의 review 기간을 감안한다면 절대적 성능은 그리…
[arXiv 2025] AV-Master: Dual-Path Comprehensive Perception Makes Better Audio-Visual Question Answering
안녕하세요. 오늘의 X-Review는 Audio Visual Question Answering 방법론 논문입니다. 25년 10월 아카이브에 공개되었으며, 현재 실험중인 상황에서 최근 제안된 AVQA 방법론들을 읽는 중인데 정리 목적으로 글을…
[CVPR 2020] Counterfactual Samples Synthesizing for Robust Visual Question Answering
안녕하세요. 이번 X-Review에선 20년도 CVPR에 게재된 VQA 논문을 소개해드리고자합니다. 나온지 시간이 꽤 된 논문이지만 지금 개인 연구에 적용한 아이디어와 거의 동일하여 리뷰하게 되었습니다. 간단하게는 Visual…
[WACV 2024] Tackling Data Bias in MUSIC-AVQA: Crafting a Balanced Dataset for Unbiased Question-Answering
안녕하세요. 오늘의 X-Review에서 소개해드릴 논문은 24년도 WACV에 게재된 <Tackling Data Bias in MUSIC-AVQA: Crafting a Balanced Dataset for Unbiased Question-Answering> 입니다. 현재 개인적으로 Audio-Visual Question…
[CVPR 2025] VisionZip: Longer is Better but Not Necessary in Vision Language Models
안녕하세요. 오늘의 X-Review는 25년도 CVPR에 게재된 VisionZip이라는 논문입니다. 제목에서도 알 수 있듯 VLM의 vision token efficiency와 관련된 논문이며, 개인적으로는 VisionZip의 방법론 자체도 좋지만 이 방법론의…
[AAAI 2024] Object-Aware Adaptive-Positivity Learning for Audio-Visual Question Answering
안녕하세요. 오늘 리뷰에서는 24년도 AAAI에 게재된 AVQA 관련 논문을 소개해드리겠습니다. 제가 지금 진행중인 실험들과 결이 비슷해 자세히 읽어보게 되었습니다. 바로 리뷰 시작하겠습니다. 1. Introduction Audio-Visual…
[AAAI 2025] Patch-level Sounding Object Tracking for Audio-Visual Question Answering
안녕하세요 오늘의 X-Review 또한 Audio-Visual Question Answering task를 수행하는 방법론 논문을 소개해드리고자 합니다. 25년도 AAAI에 게재된 논문입니다. 그럼 바로 리뷰 시작하겠습니다. 1. Introduction 그림 1-(a)에서…
[CVPR 2025] Object-aware Sound Source Localization via Audio-Visual Scene Understanding
안녕하세요. 이번 X-Review에서는 25년도 CVPR에 게재된 논문 <Object-aware Sound Source Localization via Audio-Visual Scene Understanding>을 소개해드리고자 합니다. Sound Source Localization이라는 task를 다루는 논문은 처음 읽어보는데요….
[AAAI 2025] Audio-Visual Adaptive Fusion Network for Question Answering Based on Contrastive Learning
안녕하세요. 이번 주 X-Review에서는 25년도 AAAI에 게재된 Audio-Visual Question Answering(AVQA) 관련 논문을 소개해드리겠습니다. 최근 Audio-Visual alignment learning 대한 여러가지 방법론 및 기타 아이디어를 얻어올 수…
질문 감사합니다. φ_db와 φ_llm을 곱하는 게 아니 더하는 등의 다양한 조합에 대해서는 논문에 따로 언급하고있지 않습니다. (Supplementary Material에도 따로 없네요)…