Author: 황 유진
[arxiv 2025] Vision Language Models are Biased
Video를 위한 RAG를 구축하기 위해서는 VLM 모델 활용이 필수적입니다. 그러나 최근 몇 연구에서는 VLM이 데이터에 대한 이해능력에 대해 의혹을 제기하고 있는데요, 해당 논문을 통해 VLM에게…
[CVPRW2024]ViTA: An Efficient Video-to-Text Algorithm using VLM for RAG-based VideoAnalysis System
안녕하세요, 오늘 소개드릴 논문은 비디오 modality를 위한 RAG 프레임워크를 제안한 논문입니다. RAG의 기본적인 동작 도메인인 텍스트 도메인보다 데이터 용량이 큰 비디오 도메인을 다루는 만큼, 효율성을…
[AAAI2025] Video Repurposing from User Generated Content: A Large-scale Dataset and Benchmark
오늘 소개드릴 논문은 비디오 요약과 관련된 문제를 새롭게 정의 하고 데이터셋을 구축한 논문입니다. 테스크 명은 Video Repurposing 인데요, 본문에서 소개를 해보겠습니다. (Q)인스타그램, 틱톡, 유튜브 쇼츠등…
[arXiv2025] VideoRAG: Retrieval-Augmented Generation over Video Corpus
오늘 소개드릴 논문은 RAG에 관련된 논문입니다. 앞서서 비디오 요약(Video Summerization)에 관련된 연구를 몇가지 소개드렸는데요, 이러한 비디오에서 비디오로의 요약은 어떻게 사용될 수 있을까요? 본 논문을 통해…
2025년 상반기 회고
벌써 2025년도 상반기가 마무리 되었습니다. 본 회고에서는 작성자의 상반기 회고와 산업 동향을 포함합니다. 🐈 상반기 회고 상반기 회고에 앞서 1월에 목표도 연구실 여러분께 공개했었는데요, 해당…
[CVPR2024] Towards Automated Movie Trailer Generation
안녕하세요 오늘 소개드릴 논문은 “Towards Automated Movie Trailer Generation” 입니다. 본 논문의 테스크는 Movie Trailer Generation(영화 예고편 생성) 입니다. 저희 연구실에서는 생소할 수도 있는 주제인데요,…
[CVPR2023]Causalainer: Causal Explainer for Automatic Video Summarization
비디오 요약은 입력된 비디오에서 중요하다고 여겨지는 프레임을 선택하거나 중요도 순으로 점수를 매기는 과제입니다. 그러나 모델이 데이터에 대해 중요도하다고 평가하는 이유에 대해 분석할 방법이 없다는 것이…
[CVPR2023]Align and Attend: Multimodal Summarization with Dual Contrastive Losses
오늘 소개드릴 논문은 multimodal summarization 논문입니다. 논문이 말하길 기존 연구의 경우 멀티모달의 동시성있는 정보를 잘 활용하지 못했고, 데이터 내제적인(본질적인) 정보의 활용이 부족했다고 합니다. 본 논문은…
[arXiv2025]Video Summarization with Large Language Models
대형 언어 모델(LLMs)을 비디오 요약에 활용하는 기본적인 접근법이 어떻게 될까요?저는 위 질문에 대해 답을 찾기 위해 해당 논문을 읽게 되었습니다. 직관적인 제목처럼 제가 보았던 논문중에서…
[AAAI2024]V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning
앞서서 사용자 질의 반영 비디오 요약과 일반 비디오 요약을 통합한 프레임워크를 소개드렸는데요, 오늘 소개드릴 논문은 더 광범위한 비디오 요약 테스크를 한번에 수행하는 방법을 소개합니다. 비디오…
안녕하세요 우현님, 좋은 리뷰 감사합니다! 이번 여름 URP에서 YOLO-World를 가볍게 다루었었는데, 세부적인 구조가 궁금해서 열심히 찾아보았던 기억이 납니다. 그땐 제대로…