Author: 김 현우

Posted in Paper X-Review

[TMLR 2026] A Survey of Token Compression for Efficient Multimodal Large Language Models (1)

안녕하세요. 오늘의 X-Review는 MLLM에서의 이미지, 비디오, 오디오 관련 token compression 서베이 논문을 소개해드리고자합니다. 저번주 Audio-Visual Question Answering task에 대한 논문을 제출한 뒤, 졸업 전까지 VLM을…

Continue Reading
Posted in Paper X-Review

[NIPS 2025] Don’t Just Chase “Highlighted Tokens” in MLLMs: Revisiting Visual Holistic Context Retention

이번 주 X-Review에선 25년도 NeurIPS에 게재된 논문 <Don’t Just Chase “Highlighted Tokens” in MLLMs: Revisiting Visual Holistic Context Retention>을 소개해드리겠습니다. 88.9%의 pruning ratio에도 기존 성능의…

Continue Reading
Posted in M.S. X-Diary

[김현우] 2025년을 보내며

안녕하세요. 2025년 올 한 해를 마무리하며 이번 1년은 어떻게 보냈는지 글로 작성해보겠습니다. 올해 상반기에는 기업 인턴십을 하며 보냈고, 하반기에는 다시 연구실로 돌아와 석사 3학기를 지냈습니다….

Continue Reading
Posted in Paper X-Review

[TCSVT 2024] Question-Aware Global-Local Video Understanding Network for Audio-Visual Question Answering

안녕하세요. 오늘 X-Review에서 소개해드릴 논문은 24년도 TCSVT 저널에 게재된 <Question-Aware Global-Local Video Understanding Network for Audio-Visual Question Answering>입니다. 저널의 review 기간을 감안한다면 절대적 성능은 그리…

Continue Reading
Posted in Paper X-Review

[arXiv 2025] AV-Master: Dual-Path Comprehensive Perception Makes Better Audio-Visual Question Answering

안녕하세요. 오늘의 X-Review는 Audio Visual Question Answering 방법론 논문입니다. 25년 10월 아카이브에 공개되었으며, 현재 실험중인 상황에서 최근 제안된 AVQA 방법론들을 읽는 중인데 정리 목적으로 글을…

Continue Reading
Posted in Paper X-Review

[CVPR 2020] Counterfactual Samples Synthesizing for Robust Visual Question Answering

안녕하세요. 이번 X-Review에선 20년도 CVPR에 게재된 VQA 논문을 소개해드리고자합니다. 나온지 시간이 꽤 된 논문이지만 지금 개인 연구에 적용한 아이디어와 거의 동일하여 리뷰하게 되었습니다. 간단하게는 Visual…

Continue Reading
Posted in Paper X-Review

[WACV 2024] Tackling Data Bias in MUSIC-AVQA: Crafting a Balanced Dataset for Unbiased Question-Answering

안녕하세요. 오늘의 X-Review에서 소개해드릴 논문은 24년도 WACV에 게재된 <Tackling Data Bias in MUSIC-AVQA: Crafting a Balanced Dataset for Unbiased Question-Answering> 입니다. 현재 개인적으로 Audio-Visual Question…

Continue Reading
Posted in Paper X-Review

[CVPR 2025] VisionZip: Longer is Better but Not Necessary in Vision Language Models

안녕하세요. 오늘의 X-Review는 25년도 CVPR에 게재된 VisionZip이라는 논문입니다. 제목에서도 알 수 있듯 VLM의 vision token efficiency와 관련된 논문이며, 개인적으로는 VisionZip의 방법론 자체도 좋지만 이 방법론의…

Continue Reading
Posted in Paper X-Review

[AAAI 2024] Object-Aware Adaptive-Positivity Learning for Audio-Visual Question Answering

안녕하세요. 오늘 리뷰에서는 24년도 AAAI에 게재된 AVQA 관련 논문을 소개해드리겠습니다. 제가 지금 진행중인 실험들과 결이 비슷해 자세히 읽어보게 되었습니다. 바로 리뷰 시작하겠습니다. 1. Introduction Audio-Visual…

Continue Reading
Posted in Paper X-Review

[AAAI 2025] Patch-level Sounding Object Tracking for Audio-Visual Question Answering

안녕하세요 오늘의 X-Review 또한 Audio-Visual Question Answering task를 수행하는 방법론 논문을 소개해드리고자 합니다. 25년도 AAAI에 게재된 논문입니다. 그럼 바로 리뷰 시작하겠습니다. 1. Introduction 그림 1-(a)에서…

Continue Reading