[ICRA 2024]NoMaD : Goal Masked Diffusion Policies for Navigation and Exploration
안녕하세요. 이번에 소개드릴 논문은 ICRA 2024에 게재된 NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration이라는 논문입니다. GNM, ViNT에 이어 UC 버클리 Sergey Levine 교수님…
[NeurIPS 2025] PhysX-3D: Physical-Grounded 3D Asset Generation
안녕하세요 이번주는 3D 생성 모델에 대한 리뷰를 진행해보려고 합니다. 3D 생성 모델들은 다량의 합성 데이터를 바탕으로 기하와 텍스쳐의 복원 능력이 좋아지면서 최근에 등장한 structured latent…
[Neurips2022] FlashAttention: Fast and Memory-Efficient Exact Attentionwith IO-Awareness
이번에 소개드릴 논문은 FlashAttention이라는 논문입니다. 사실 FlashAttention은 예전부터 경량화 관련된 논문을 읽으면 자주 등장했던 용어로 제가 관심을 가지고 있었는데 계속 미루고 미루다가 이번에 한번 읽어보게되었습니다….
[ICML 2025] Visual Abstraction: A Plug-and-Play Approach for Text-Visual Retrieval
오늘은 늘 리뷰하던 Text-Video Retrieval이 아닌 Text-Visual Retrieval 페이퍼를 리뷰해보겠습니다 1. Introduction Text-Visual Retrieval은 사용자가 입력한 문장을 기반으로 가장 관련 있는 이미지나 영상을 찾는 작업입니다….
한국로봇학회 전문가 심포지엄 참관기
안녕하세요! 11월 13일에 다녀온 전문가 심포지엄 참관기를 작성해보려고 합니다. 이번 심포지엄은 ‘AI 휴머노이드의 현재와 미래’를 주제로 하는 제 1회 심포지엄이었습니다. 이 분야에서 열정적으로 연구하고 계시는…
[NeurIPS2024] Benchmarking LLMs via Uncertainty Quantification
본 논문은 LLM을 불확실성 측면에서 평가하는 벤치마크를 제시하는 논문입니다. 벤치마크의 필요성 기존의 벤치마크는 LLM을 평가할때 예측의 정확도를 주로 리포팅했습니다. 그러나 논문에서 확인한 결과, 예측의 정확도와…
[ACM MM 2024]Boosting Audio Visual Question Answering via Key Semantic-Aware Cues
이번에 읽을 해당 논문은 현우님과 같이 연구할 주제에서 baseline 이 되는 논문입니다. 현우님이 기존에 x-review를 작성하셨지만, 해당 논문으로부터 연구를 진행해야할 만큼 제대로 한번 읽어보는 것이…
[arXiv 2024] SLOWFAST-LLAVA: A STRONG TRAINING-FREEBASELINE FOR VIDEO LARGE LANGUAGE MODELS
안녕하세요 이번에는 새롭게 video understanding, question answering, explanation tasks를 수행하는 Video large language model 논문에 대해 소개하고자 합니다. Video-LLM 모델을 이해하기 위해서는 먼저 Image-LLM(Image Large…
[CVPR2025] VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos
안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 CVPR2025에 게재된 VideoTree 모델로 Long Video Understanding 논문입니다. Prerequisite Information 대규모 언어 모델(LLM)은 방대한 양의 텍스트 데이터를 학습하여 사람처럼…
[CVPR 2024] Scaling Up Video Summarization Pretraining with Large Language Model
안녕하세요 !오늘도 video summarization관련 논문에 대해 리뷰해보겠습니다특히 이번에 다룰 논문은 LLM이 텍스트만 요약하는 게 아니라 비디오 요약도 도와줄 수 있다!!는 아이디어에서 출발한 재밌는 연구입니다 그럼…
안녕하세요 예은님 댓글 감사합니다. 일단 ViNG이 classification을 채택한 이유는 거리의 불확실성과 이동 가능성의 확률적 특성을 반영하기 위해서라고 보시면 정확합니다. 여기서…