Category: Paper
Paper Review
[NeurIPS 2020]Object-Centric Learning with Slot Attention
제가 이번에 리뷰할 논문은 Slot Attention 이라는 개념을 도입한 논문입니다. Object-centric 이라는 표현이 이 논문에서 처음 등장한 것은 아니지만, 이미지가 여러 객체들의 조합으로 표현이 가능하다는…
[ICRA 2024]NoMaD : Goal Masked Diffusion Policies for Navigation and Exploration
안녕하세요. 이번에 소개드릴 논문은 ICRA 2024에 게재된 NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration이라는 논문입니다. GNM, ViNT에 이어 UC 버클리 Sergey Levine 교수님…
[NeurIPS2024] Benchmarking LLMs via Uncertainty Quantification
본 논문은 LLM을 불확실성 측면에서 평가하는 벤치마크를 제시하는 논문입니다. 벤치마크의 필요성 기존의 벤치마크는 LLM을 평가할때 예측의 정확도를 주로 리포팅했습니다. 그러나 논문에서 확인한 결과, 예측의 정확도와…
[ACM MM 2024]Boosting Audio Visual Question Answering via Key Semantic-Aware Cues
이번에 읽을 해당 논문은 현우님과 같이 연구할 주제에서 baseline 이 되는 논문입니다. 현우님이 기존에 x-review를 작성하셨지만, 해당 논문으로부터 연구를 진행해야할 만큼 제대로 한번 읽어보는 것이…
[arXiv 2024] SLOWFAST-LLAVA: A STRONG TRAINING-FREEBASELINE FOR VIDEO LARGE LANGUAGE MODELS
안녕하세요 이번에는 새롭게 video understanding, question answering, explanation tasks를 수행하는 Video large language model 논문에 대해 소개하고자 합니다. Video-LLM 모델을 이해하기 위해서는 먼저 Image-LLM(Image Large…
[CVPR 2024] Scaling Up Video Summarization Pretraining with Large Language Model
안녕하세요 !오늘도 video summarization관련 논문에 대해 리뷰해보겠습니다특히 이번에 다룰 논문은 LLM이 텍스트만 요약하는 게 아니라 비디오 요약도 도와줄 수 있다!!는 아이디어에서 출발한 재밌는 연구입니다 그럼…
[CoRL 2023] ViNT: A Foundation Model for Visual Navigation
안녕하세요 이번에 리뷰할 논문은 2023년도에 CoRL에 게재된 ViNT: A Foundation Model for Visual Navigation이라는 논문입니다. 저저번에 리뷰했던 GNM: A General Navigation Model to Drive Any…
[WACV 2024] Tackling Data Bias in MUSIC-AVQA: Crafting a Balanced Dataset for Unbiased Question-Answering
안녕하세요. 오늘의 X-Review에서 소개해드릴 논문은 24년도 WACV에 게재된 <Tackling Data Bias in MUSIC-AVQA: Crafting a Balanced Dataset for Unbiased Question-Answering> 입니다. 현재 개인적으로 Audio-Visual Question…
[NeurIPS 2024]To Believe or Not to Believe Your LLM: Iterative Prompting for Estimating Epistemic Uncertainty
짧은 소개 본 논문은 LLM 답변의 불확실성을 수치화하기 위한 방법을 제시한 논문입니다. 특히 할루시네이션에 직접적인 영향을 미치는 지식부족형 불확실성을 수치화하는 기법을 제시하였으며, 수학적으로 증명할 수…
[ICRA 2021]ViNG: Learning Open-World Navigation with Visual Goals
안녕하세요. 이번에 리뷰할 논문은 ViNG: Learning Open-World Navigation with Visual Goals라는 논문 입니다. 이 논문은 2020년 ICRA에 게재된 논문이고 Visual Goal-Conditioned Navigation을 다룹니다. 사실 지지난번에…
안녕하세요 유진님 좋은 리뷰 감사합니다. 설명해주신 것 처럼 free-form에서는 LLM이 출력할 수 있는 문장이 많아 정답 라벨 집합 Y를 깔끔하게…