Category: X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[NeurIPS2024] Benchmarking LLMs via Uncertainty Quantification
본 논문은 LLM을 불확실성 측면에서 평가하는 벤치마크를 제시하는 논문입니다. 벤치마크의 필요성 기존의 벤치마크는 LLM을 평가할때 예측의 정확도를 주로 리포팅했습니다. 그러나 논문에서 확인한 결과, 예측의 정확도와…
[ACM MM 2024]Boosting Audio Visual Question Answering via Key Semantic-Aware Cues
이번에 읽을 해당 논문은 현우님과 같이 연구할 주제에서 baseline 이 되는 논문입니다. 현우님이 기존에 x-review를 작성하셨지만, 해당 논문으로부터 연구를 진행해야할 만큼 제대로 한번 읽어보는 것이…
[arXiv 2024] SLOWFAST-LLAVA: A STRONG TRAINING-FREEBASELINE FOR VIDEO LARGE LANGUAGE MODELS
안녕하세요 이번에는 새롭게 video understanding, question answering, explanation tasks를 수행하는 Video large language model 논문에 대해 소개하고자 합니다. Video-LLM 모델을 이해하기 위해서는 먼저 Image-LLM(Image Large…
[CVPR2025] VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos
안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 CVPR2025에 게재된 VideoTree 모델로 Long Video Understanding 논문입니다. Prerequisite Information 대규모 언어 모델(LLM)은 방대한 양의 텍스트 데이터를 학습하여 사람처럼…
[CVPR 2024] Scaling Up Video Summarization Pretraining with Large Language Model
안녕하세요 !오늘도 video summarization관련 논문에 대해 리뷰해보겠습니다특히 이번에 다룰 논문은 LLM이 텍스트만 요약하는 게 아니라 비디오 요약도 도와줄 수 있다!!는 아이디어에서 출발한 재밌는 연구입니다 그럼…
[CoRL 2023] ViNT: A Foundation Model for Visual Navigation
안녕하세요 이번에 리뷰할 논문은 2023년도에 CoRL에 게재된 ViNT: A Foundation Model for Visual Navigation이라는 논문입니다. 저저번에 리뷰했던 GNM: A General Navigation Model to Drive Any…
[IROS 2025] RoboEngine: Plug-and-Play Robot Data Augmentation with Semantic Robot Segmentation and Background Generation
안녕하세요, 이번주는 로봇 데이터 증강에 관한 논문입니다. 새로운 데이터 취득 없이 기존의 데이터셋을 효과적으로 증강하면 대규모 데이터셋이 더 의미있어 지지 않을까? 하던 와중에 보게된 논문이고…
[WACV 2024] Tackling Data Bias in MUSIC-AVQA: Crafting a Balanced Dataset for Unbiased Question-Answering
안녕하세요. 오늘의 X-Review에서 소개해드릴 논문은 24년도 WACV에 게재된 <Tackling Data Bias in MUSIC-AVQA: Crafting a Balanced Dataset for Unbiased Question-Answering> 입니다. 현재 개인적으로 Audio-Visual Question…
[CVPR 2022] Vision Transformer with Deformable Attention
오늘은 Deformable Attention Transformer 를 주제로 리뷰를 작성하고자 합니다. 현재 진행중인 실험에서 deformable attention 컨셉을 사용중이기에, 해당 논문을 읽어보게 되었습니다.바로 리뷰 시작하겠습니다. 1. Introduction 널리…
[ICCV 2025] Quantifying and Narrowing the Unknown: Interactive Text-to-Video Retrieval via Uncertainty Minimization
오늘도 Text Video Retrieval 페이퍼에 대해 리뷰해보겠습니다. 다만 신기한 논문 제목에서부터 Interactive Text-to-Video Retrieval(Interactive TVR) 인 것처럼, 기존에 제가 리뷰하던 단순 TVR이 아닌 User와 상호작용하면서…
안녕하세요 석준님 좋은 댓글 감사합니다. Q1. 생성되는 subgoal 이라는 것은 장면 ‘이미지’ 인가, 아니면 ‘경로’ 인가요? 먼저 ViNT에서 Diffusion 모델이…