Paper – Page 2 – Robotics and Computer Vision Lab

[AAAI 2025] V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning

안녕하세요 황찬미입니다!오늘도 비디오 요약 관련 최신 논문을 살펴보려고 합니다!! 그럼 바로 리뷰 시작하겠습니다 [Intro] 비디오 요약 연구는 오래됐지만 두가지의 큰 장애물이 있습니다. 먼저 데이터가 너무…

[RSS 2022]ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints

안녕하세요. 이번에 소개드릴 논문도 UC 버클리 Sergey Levine 교수님 연구실에서 2022년에 발표한 ViKiNG: Vision-Based Navigation with Kilometers-Scale Generalization이라는 논문입니다. 어쩌다보니 리뷰를 해당 연구실에서 낸 논문만…

Paper X-Review

[CVPR 2020] Counterfactual Samples Synthesizing for Robust Visual Question Answering

안녕하세요. 이번 X-Review에선 20년도 CVPR에 게재된 VQA 논문을 소개해드리고자합니다. 나온지 시간이 꽤 된 논문이지만 지금 개인 연구에 적용한 아이디어와 거의 동일하여 리뷰하게 되었습니다. 간단하게는 Visual…

Paper X-Review

[NeurIPS 2020]Object-Centric Learning with Slot Attention

제가 이번에 리뷰할 논문은 Slot Attention 이라는 개념을 도입한 논문입니다. Object-centric 이라는 표현이 이 논문에서 처음 등장한 것은 아니지만, 이미지가 여러 객체들의 조합으로 표현이 가능하다는…

Paper X-Review

[ICRA 2024]NoMaD : Goal Masked Diffusion Policies for Navigation and Exploration

안녕하세요. 이번에 소개드릴 논문은 ICRA 2024에 게재된 NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration이라는 논문입니다. GNM, ViNT에 이어 UC 버클리 Sergey Levine 교수님…

Paper X-Review

[NeurIPS2024] Benchmarking LLMs via Uncertainty Quantification

본 논문은 LLM을 불확실성 측면에서 평가하는 벤치마크를 제시하는 논문입니다. 벤치마크의 필요성 기존의 벤치마크는 LLM을 평가할때 예측의 정확도를 주로 리포팅했습니다. 그러나 논문에서 확인한 결과, 예측의 정확도와…

Paper X-Review

[ACM MM 2024]Boosting Audio Visual Question Answering via Key Semantic-Aware Cues

이번에 읽을 해당 논문은 현우님과 같이 연구할 주제에서 baseline 이 되는 논문입니다. 현우님이 기존에 x-review를 작성하셨지만, 해당 논문으로부터 연구를 진행해야할 만큼 제대로 한번 읽어보는 것이…

Paper X-Review

[arXiv 2024] SLOWFAST-LLAVA: A STRONG TRAINING-FREEBASELINE FOR VIDEO LARGE LANGUAGE MODELS

안녕하세요 이번에는 새롭게 video understanding, question answering, explanation tasks를 수행하는 Video large language model 논문에 대해 소개하고자 합니다. Video-LLM 모델을 이해하기 위해서는 먼저 Image-LLM(Image Large…

Paper X-Review

[CVPR 2024] Scaling Up Video Summarization Pretraining with Large Language Model

안녕하세요 !오늘도 video summarization관련 논문에 대해 리뷰해보겠습니다특히 이번에 다룰 논문은 LLM이 텍스트만 요약하는 게 아니라 비디오 요약도 도와줄 수 있다!!는 아이디어에서 출발한 재밌는 연구입니다 그럼…

Paper X-Review

[CoRL 2023] ViNT: A Foundation Model for Visual Navigation

안녕하세요 이번에 리뷰할 논문은 2023년도에 CoRL에 게재된 ViNT: A Foundation Model for Visual Navigation이라는 논문입니다. 저저번에 리뷰했던 GNM: A General Navigation Model to Drive Any…

Category: Paper

[AAAI 2025] V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning

[RSS 2022]ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints

[CVPR 2020] Counterfactual Samples Synthesizing for Robust Visual Question Answering

[NeurIPS 2020]Object-Centric Learning with Slot Attention

[ICRA 2024]NoMaD : Goal Masked Diffusion Policies for Navigation and Exploration

[NeurIPS2024] Benchmarking LLMs via Uncertainty Quantification

[ACM MM 2024]Boosting Audio Visual Question Answering via Key Semantic-Aware Cues

[arXiv 2024] SLOWFAST-LLAVA: A STRONG TRAINING-FREEBASELINE FOR VIDEO LARGE LANGUAGE MODELS

[CVPR 2024] Scaling Up Video Summarization Pretraining with Large Language Model

[CoRL 2023] ViNT: A Foundation Model for Visual Navigation

Conference Deadline

NEW POST

New Comment