Author: 박 성준
[CVPR2023] Teaching Structured Vision & Language Concepts to Vision & Language Models
안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 Vision-Language 모델의 compositional 이해 능력을 개선한 논문입니다. Introduction CLIP과 같은 Vision-Language 모델은 이미지와 텍스트를 함께 학습하는 것으로 Classification, Detection,…
SIM-COT: Supervised Implicit Chain-of-Thought
안녕하세요. 오늘 리뷰할 논문은 SIM-COT: Supervised Implicit Chain-of-Thought입니다. 아직 학회에 게재된 논문은 아니지만 InternVL으로 유명(?)한 InternLM의 논문으로 LLM의 CoT에 관한 연구입니다. Introduction “측정할 수 있는…
[NIPS2023] Self-Chained Image-Language Model for Video Localization and Question Answering
안녕하세요. 박성준 연구원입니다. 오늘도 Video Question Grounding 논문입니다. Introduction 비디오 정보와 자연어 정보를 같이 이해할 수 있는 Video-LM은 이미지-언어 모델인 Image-LM에 비해 더 높은 계산…
2025년도 하계 URP 조교를 마치며
안녕하세요. 박성준 연구원입니다. 2025 하계 URP 조교를 마치며 느낀점을 기록하고자 X-Diary를 작성합니다. 이번 8주 동안의 URP는 조교로 참여한 URP 중 가장 느끼는 점이 많은 것…
[ICCV2025] Object-centric Video Question Answering with Visual Grounding and Referring
안녕하세요. 박성준 연구원입니다. 최근 ICCV2025에 공개된 Video Question Grounding 연구입니다. Introduction 최근에 제가 관심가지고 서베이 중인 분야인 Video Question Grounding은 기본적으로 Video Question Answering이지만, 모델이…
[CVPR2025] Cross-modal Causal Relation Alignment for Video Question Grounding
안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 CVPR 2025 Highlight 논문으로 Video Question Grounding(VQG)을 다룬 논문입니다. Introduction Video Question Answering(VideoQA)는 비디오와 자연어 질문을 입력 받아서 해당…
[CVPR 2024] Can I Trust Your Answer? Visually Grounded Video Question Answering
안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 Video Question Answering (VideoQA) 연구입니다. VideoQA 모델이 생성하는 답변이 시각적 정보에 얼마나 근거하고 있는 지를 Video Grounding을 통해 평가하고…
2025년 상반기를 돌아보며
안녕하세요. 박성준 연구원입니다. 2025년 상반기가 마무리됨에 따라 2025년에 느낀점 및 앞으로의 방향성 등을 글로 남기고자 상반기 회고를 작성하게 되었습니다. 우선 가장 먼저 올해 초에도 멘토로…
CVPR 2025 참관기
안녕하세요. 박성준 연구원입니다. 오늘은 CVPR2025 참관 후기입니다. 이번 CVPR2025는 6월 11일부터 15일까지 총 5일동안 미국 내슈빌에서 개최되었으며, 2일의 Workshop 및 Tutorial 그리고 3일의 Main Conference로…
[ICLR 2025] Dense Video Object Captioning from Disjoint Supervision
안녕하세요. 박성준 연구원입니다. 오늘 리뷰는 ICLR 2025 스포트라이트에 선정된 구글 딥마인드 연구입니다. 본 연구는 dense video object captioning이라는 task를 다룬 연구입니다. 익숙한 키워드들이 포함되어 있는데…
안녕하세요 우진님 후기글 잘 읽었습니다. 학회 일정이 너무 빠듯해서 막상 학회 내용에 대해서는 말해볼 기회가 좀 적었던 것 같습니다. 그러다보니…