Author: 박 성준
[ICCV2025] Object-centric Video Question Answering with Visual Grounding and Referring
안녕하세요. 박성준 연구원입니다. 최근 ICCV2025에 공개된 Video Question Grounding 연구입니다. Introduction 최근에 제가 관심가지고 서베이 중인 분야인 Video Question Grounding은 기본적으로 Video Question Answering이지만, 모델이…
[CVPR2025] Cross-modal Causal Relation Alignment for Video Question Grounding
안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 CVPR 2025 Highlight 논문으로 Video Question Grounding(VQG)을 다룬 논문입니다. Introduction Video Question Answering(VideoQA)는 비디오와 자연어 질문을 입력 받아서 해당…
[CVPR 2024] Can I Trust Your Answer? Visually Grounded Video Question Answering
안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 Video Question Answering (VideoQA) 연구입니다. VideoQA 모델이 생성하는 답변이 시각적 정보에 얼마나 근거하고 있는 지를 Video Grounding을 통해 평가하고…
2025년 상반기를 돌아보며
안녕하세요. 박성준 연구원입니다. 2025년 상반기가 마무리됨에 따라 2025년에 느낀점 및 앞으로의 방향성 등을 글로 남기고자 상반기 회고를 작성하게 되었습니다. 우선 가장 먼저 올해 초에도 멘토로…
CVPR 2025 참관기
안녕하세요. 박성준 연구원입니다. 오늘은 CVPR2025 참관 후기입니다. 이번 CVPR2025는 6월 11일부터 15일까지 총 5일동안 미국 내슈빌에서 개최되었으며, 2일의 Workshop 및 Tutorial 그리고 3일의 Main Conference로…
[ICLR 2025] Dense Video Object Captioning from Disjoint Supervision
안녕하세요. 박성준 연구원입니다. 오늘 리뷰는 ICLR 2025 스포트라이트에 선정된 구글 딥마인드 연구입니다. 본 연구는 dense video object captioning이라는 task를 다룬 연구입니다. 익숙한 키워드들이 포함되어 있는데…
[ICML 2025] FG-CLIP: Fine-Grained Visual and Textual Alignment
안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 fine-grained CLIP입니다. 대규모 이미지-텍스트 모델인 CLIP의 fine-grained 능력을 향상시킨 연구입니다. Introduction CLIP은 대규모 이미지-텍스트 모델로 zeroshot 이미지 분류와 같은…
[ICLR 2025] How new data permeates LLM knowledge and how to dilute it
안녕하세요. 박성준 연구원입니다. 오늘의 리뷰는 ICLR 2025에 Spotlight에 선정된 연구입니다. Google DeepMind에서 게재한 논문으로 요즘 핫한(?) LLM에 대한 내용으로 LLM에 주입되는 새로운 정보가 기존 지식에…
[CVPR2023] Finetune like you pretrain: Improved finetuning of zero-shot vision models
안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 Finetune Like You Pretrain(FLYP)로 대규모 이미지-텍스트 사전학습 모델의 미세조정 방법을 다룬 연구입니다. Introduction 대규모 이미지-텍스트 사전학습 모델인 CLIP의 등장…
[CVPR 2019] Learning a Unified Classifier Incrementally via Rebalancing
안녕하세요 박성준 연구원입니다. 오늘 리뷰할 논문은 incremental learning을 다룬 논문입니다. Incremental Learning 인공지능은 대부분 오프라인 학습을 기반으로 설계되어 있습니다. 오프라인 방식은 대량의 데이터를 미리 수집한…
질문 감사합니다. 우선 action encoder로 사용한 RenderNet을 찾아보니, 일관성 있는 캐릭터와 고품질 이미지를 생성하고 제어할 수 있는 강력한 AI 이미지…