Author: 박 성준

Posted in X-Diary

2025년도 하계 URP 조교를 마치며

안녕하세요. 박성준 연구원입니다. 2025 하계 URP 조교를 마치며 느낀점을 기록하고자 X-Diary를 작성합니다. 이번 8주 동안의 URP는 조교로 참여한 URP 중 가장 느끼는 점이 많은 것…

Continue Reading
Posted in X-Review

[ICCV2025] Object-centric Video Question Answering with Visual Grounding and Referring

안녕하세요. 박성준 연구원입니다. 최근 ICCV2025에 공개된 Video Question Grounding 연구입니다. Introduction 최근에 제가 관심가지고 서베이 중인 분야인 Video Question Grounding은 기본적으로 Video Question Answering이지만, 모델이…

Continue Reading
Posted in X-Review

[CVPR2025] Cross-modal Causal Relation Alignment for Video Question Grounding

안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 CVPR 2025 Highlight 논문으로 Video Question Grounding(VQG)을 다룬 논문입니다. Introduction Video Question Answering(VideoQA)는 비디오와 자연어 질문을 입력 받아서 해당…

Continue Reading
Posted in X-Review

[CVPR 2024] Can I Trust Your Answer? Visually Grounded Video Question Answering

안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 Video Question Answering (VideoQA) 연구입니다. VideoQA 모델이 생성하는 답변이 시각적 정보에 얼마나 근거하고 있는 지를 Video Grounding을 통해 평가하고…

Continue Reading
Posted in X-Diary

2025년 상반기를 돌아보며

안녕하세요. 박성준 연구원입니다. 2025년 상반기가 마무리됨에 따라 2025년에 느낀점 및 앞으로의 방향성 등을 글로 남기고자 상반기 회고를 작성하게 되었습니다. 우선 가장 먼저 올해 초에도 멘토로…

Continue Reading
Posted in X-Diary

CVPR 2025 참관기

안녕하세요. 박성준 연구원입니다. 오늘은 CVPR2025 참관 후기입니다. 이번 CVPR2025는 6월 11일부터 15일까지 총 5일동안 미국 내슈빌에서 개최되었으며, 2일의 Workshop 및 Tutorial 그리고 3일의 Main Conference로…

Continue Reading
Posted in X-Review

[ICLR 2025] Dense Video Object Captioning from Disjoint Supervision

안녕하세요. 박성준 연구원입니다. 오늘 리뷰는 ICLR 2025 스포트라이트에 선정된 구글 딥마인드 연구입니다. 본 연구는 dense video object captioning이라는 task를 다룬 연구입니다. 익숙한 키워드들이 포함되어 있는데…

Continue Reading
Posted in X-Review

[ICML 2025] FG-CLIP: Fine-Grained Visual and Textual Alignment

안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 fine-grained CLIP입니다. 대규모 이미지-텍스트 모델인 CLIP의 fine-grained 능력을 향상시킨 연구입니다. Introduction CLIP은 대규모 이미지-텍스트 모델로 zeroshot 이미지 분류와 같은…

Continue Reading
Posted in X-Review

[ICLR 2025] How new data permeates LLM knowledge and how to dilute it

안녕하세요. 박성준 연구원입니다. 오늘의 리뷰는 ICLR 2025에 Spotlight에 선정된 연구입니다. Google DeepMind에서 게재한 논문으로 요즘 핫한(?) LLM에 대한 내용으로 LLM에 주입되는 새로운 정보가 기존 지식에…

Continue Reading
Posted in X-Review

[CVPR2023] Finetune like you pretrain: Improved finetuning of zero-shot vision models

안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 Finetune Like You Pretrain(FLYP)로 대규모 이미지-텍스트 사전학습 모델의 미세조정 방법을 다룬 연구입니다. Introduction 대규모 이미지-텍스트 사전학습 모델인 CLIP의 등장…

Continue Reading