Author: 신 인택

Posted in Paper X-Review

[IJCV 2025] Guiding Audio-Visual Question Answering with Collective Question Reasoning

Guiding Audio-Visual Question Answering with Collective Question Reasoning 안녕하세요 이번에도 AVQA 관련된 논문을 들고왔습니다. 방법론적으로 현재 연구중인 상황에서 각 모달리티별 아웃풋들을 어떻게 잘 Fusion 해서…

Continue Reading
Posted in Paper X-Review

[CVPR 2025] What’s in the Image? A Deep-Dive into the Vision of Vision Language Models

안녕하세요. 새해 첫 엑스리뷰로는 기존에 읽어왔던 AVQA 관련 논문보단 VLM 에 관련된 논문을 들고왔습니다. 뭔가 한 태스크에 시야가 갇히는 느낌이 없지않아 있어서, 좀 다른 시야를…

Continue Reading
Posted in Paper X-Review

[WACV 2024] CAD – Contextual Multi-modal Alignment for Dynamic AVQA

제가 이번에 리뷰할 논문도 Audio Visual Question answering 태스크를 다루는 논문입니다. 저희가 실험중인 성능과 비슷한 성능을 달성하기도 했고, 실험 성능중 Audio 와 관련된 성능은 저희…

Continue Reading
Posted in B.S. X-Diary

[신인택] 2025년을 보내며

안녕하세요 신인택 연구원입니다. 연구실에 들어와서 URP 후기나 상반기 회고록을 작성하였지만, 1년을 마무리하는 글을 벌써 작성하게 될줄은 몰랐네요. 분명 첫 후기에는 석사 입학까지 1년이 남은 시점이라는…

Continue Reading
Posted in Paper X-Review

[NeurIPS 2020]Object-Centric Learning with Slot Attention

제가 이번에 리뷰할 논문은 Slot Attention 이라는 개념을 도입한 논문입니다. Object-centric 이라는 표현이 이 논문에서 처음 등장한 것은 아니지만, 이미지가 여러 객체들의 조합으로 표현이 가능하다는…

Continue Reading
Posted in Paper X-Review

[ACM MM 2024]Boosting Audio Visual Question Answering via Key Semantic-Aware Cues

이번에 읽을 해당 논문은 현우님과 같이 연구할 주제에서 baseline 이 되는 논문입니다. 현우님이 기존에 x-review를 작성하셨지만, 해당 논문으로부터 연구를 진행해야할 만큼 제대로 한번 읽어보는 것이…

Continue Reading
Posted in Paper X-Review

[ECCV 2024 Workshops]Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time

안녕하세요, 오늘도 AVQA 관련해서 논문 팔로우업도 할겸, 읽어보게 된 논문을 들고왔습니다. 이후 AVQA 관련 논문을 적을때 어떤 figure 어떤 실험들이 필요로하게 될지 생각의 폭을 넓히기…

Continue Reading
Posted in Paper X-Review

[NeurIPS 2024]Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering

안녕하세요, 오늘은 AVQA 논문들을 팔로우업 하면서 읽어보게 된 논문입니다. AVQA 태스크를 어느정도 들어보셔서 알고 계시겠지만, 기본적으로 오디오와 비디오의 정보를 이해하고 그에 관련한 자연어 질의에 대답해야…

Continue Reading
Posted in Paper X-Review

[Arxiv 2023]ONE-PEACE: EXPLORING ONE GENERAL REPRESENTATION MODEL TOWARD UNLIMITED MODALITIES

안녕하세요 오늘은 여러 모달리티를 잘 엮어서 하나의 범용 표현 모델을 만든 논문을 들고왔습니다. 사실 최초 읽은 이유는 audio 모달리티에 대한 얻을 수 있는 인사이트가 없나…

Continue Reading
Posted in Paper X-Review

[CVPR 2024 Highlight]SHiNe: Semantic Hierarchy Nexus for Open-vocabulary Object Detection

안녕하세요 이번 논문은 제가 하고있는 창의학기제에서 풀려고하는 문제점들을 서베이하다가 네이버에서 낸 논문이 있어서 읽어본 논문입니다. ( 네이버랩스 유럽이라 한국인 이름은 안보이네요..) 그럼 리뷰 시작하겠습니다. Abstarct…

Continue Reading