Category: X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[WACV 2024] CAD – Contextual Multi-modal Alignment for Dynamic AVQA
제가 이번에 리뷰할 논문도 Audio Visual Question answering 태스크를 다루는 논문입니다. 저희가 실험중인 성능과 비슷한 성능을 달성하기도 했고, 실험 성능중 Audio 와 관련된 성능은 저희…
[arXiv 2025]Deep Video Discovery : Agentic Search with Tool Usefor Long-form Video Understanding
그래서 AI가 그렇게 좋다는데, 지금 기술로 Video Understanding은 어디까지 가능하지?와 같은 질문에 해답이 될 수 있는 논문을 소개합니다. 본 논문은 Agentic Search를 통한 Longvideo benchmark에서의…
[CoRL 2025] Robot Learning from Any Images
안녕하세요 이번주는 real to sim to real 접근을 통한 나름(?) 참신한 방법을 통해 로봇 데이터 scaling의 가능성을 제안한 연구를 리뷰해보려고 합니다. 많은 연구들이 sim to…
[TCSVT 2024] Question-Aware Global-Local Video Understanding Network for Audio-Visual Question Answering
안녕하세요. 오늘 X-Review에서 소개해드릴 논문은 24년도 TCSVT 저널에 게재된 <Question-Aware Global-Local Video Understanding Network for Audio-Visual Question Answering>입니다. 저널의 review 기간을 감안한다면 절대적 성능은 그리…
[CVPR 2025] Video Summarization with Large Language Models
안녕하세요 LLM을 사용하여 비디오 요약을 해결한 논문을 살펴보려고 합니다!리뷰 시작하겠습니다. <Intro> 기존 기술은 visual features(시각적 단서)와 temporal dynamics(시간적 특징)에 의존하는데 이 비전 정보 중심의 방법들은…
[ICCV 2025] Toward Better Out-painting: Improving the Image Composition with Initialization Policy Model
이번 리뷰 논문은 Foreground Conditioned Out-painting (FCO)라는 기법에 대한 논문 입니다. FCO는 fig 3과 같이 전경 (fig 3 – Cond.Image)과 text prompt가 주어졌을 때, 전경은…
[ICCV 2025] How Can Objects Help Video-Language Understanding?
안녕하세요. 이번에 소개할 논문은 명시적 객체 표현이 Video-Language Understanding에서 실제로 도움이 되는지, 그리고 도움이 된다면 어떤 방식으로 통합하는 것이 가장 효율적인지를 다루는 연구입니다. 즉, 모델이…
[ICCV2025] SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts
Intro 최근 비전-언어 네비게이션(Vision-and-Language Navigation) 분야는 다양한 태스크로 분화되었습니다. 저자들은 이를 언어 지시어의 세밀함(Granularity)에 따라 크게 두 가지로 분류합니다. 이들은 겉보기에 다른 목표를 가진 것처럼…
[NeurIPS2025]AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding
짧은 논문 소개 본 연구는 MLLM(Multimodal Large Language Model)을 활용하여 긴 영상에 대한 질의응답 테스크 정확도를 개선하는 RAG 프레임워크를 제시한 것입니다. 연구에서는 기존 RAG 연구가…
[CVPR 2025 Oral] Temporally Consistent Object-Centric Learning by Contrasting Slots
안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 CVPR 2025에서 Oral presentation으로 선정됐던 논문으로, video data를 활용한 self-supervised object centric learning 기법을 다룹니다. 제 개인 연구에서 어떻게 하면…
안녕하세요 찬미님! 글 잘 읽었습니다! 저도 인생에서 가장 중요한 것은 재미라고 생각합니다! 살면서 계속 할 일인데 재미가 없으면 지속 가능성도…