2025년도 하계 URP 조교를 마치며
안녕하세요, 이번주는 2025년 하계 URP를 마치고 후기를 작성해보려 합니다. 이번 기수에 처음으로 메인 멘토도 하고, 교육 한 주차를 맡아서 진행한 만큼 URP 멘티로 참가할때나, 서브…
2025년도 하계 URP 조교를 마치며
안녕하세요 이번 x-diary로 URP 조교를 마치며를 적게되었습니다. 생각보다 2달이라는 시간이 굉장히 빨리 지나 그때그때의 감정들을 적어놓지는 못했지만, 최대한 느꼈던 감정 상태를 떠올리며 작성해보겠습니다. 이번 URP…
2025년도 URP 조교를 마치며
지난 x-diary들을 돌아보니 그 동안 항상 무언갈 배우는 입장이었고, 그 배움의 과정에서 느낀점들을 적어왔었는데요. URP 조교를 마무리하며 누군갈 멘토링하고 난 후 회고를 적는 건 처음이라…
[ICCV 2023] Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature Alignment
오랜만에 Text-to-Video Retrieval (VTR) 연구에 대해 리뷰해보려고 합니다. 최근 비디오에 포함되어 있는 ‘오디오’라는 모달리티를 활용하는 연구로도 지속적인 관심이 생겨나고 있는 것 같은데, VTR에서는 어떻게 연구가…
[ICCV 2025] RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation
안녕하세요. 이번엔 VLM high-level planning과 RL+IL의 low-level execution 간의 각각의 장단점을 보완해서 중간에 저자들이 제안한 symbolic bridge 방식으로 안정적으로 통합하는 general manipulation 프레임워크를 들고 왔습니다….
[2025 arXiv] TEACH: TEXT ENCODING AS CURRICULUM HINTS FOR SCENE TEXT RECOGNITION
1. INTRODUCTION Scene Text Recognition은 이미지에서 텍스트를 읽어내는 태스크로 Optical Character Recognition (OCR)의 하위 범주에 속합니다. 문서 속 텍스트를 읽는 document OCR과 비교했을 때 더…
[CVPRW2024]ViTA: An Efficient Video-to-Text Algorithm using VLM for RAG-based VideoAnalysis System
안녕하세요, 오늘 소개드릴 논문은 비디오 modality를 위한 RAG 프레임워크를 제안한 논문입니다. RAG의 기본적인 동작 도메인인 텍스트 도메인보다 데이터 용량이 큰 비디오 도메인을 다루는 만큼, 효율성을…
[arXiv 2025]Affordance-R1: Reinforcement Learning for Generalizable Affordance Reasoning in Multimodal Large Language Model
제가 이번에 리뷰할 논문은 8월11일에 아카이브에 공개된 논문으로, Affordance에 대한 Chain-Of-Thought를 위해 reward를 도입하여 학습한 방식입니다. 새로운 접근법 같기도 하고, CoT를 위한 데이터도 공개했다는 점에서…
[2023 CVPR] Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge Transferring
안녕하세요. 이번에 소개할 논문은 사전 학습된 CLIP 모델을 비디오 도메인으로 확장할 때 시간 모델링에 대한 분석을 다룬 연구입니다. 비디오 태스크에는 Retrieval과 같은 고수준(high-level) 태스크와, Video…
[ICCV2025] Object-centric Video Question Answering with Visual Grounding and Referring
안녕하세요. 박성준 연구원입니다. 최근 ICCV2025에 공개된 Video Question Grounding 연구입니다. Introduction 최근에 제가 관심가지고 서베이 중인 분야인 Video Question Grounding은 기본적으로 Video Question Answering이지만, 모델이…
안녕하세요 인하님 리뷰 잘 읽었습니다~ 열심히 로봇 만드는거는 자주 봤는데 저랑는 다른 분야다 보니 구체적으로 이 손으로 어떤걸 하고 계신지는…