Posted in X-Diary

[2025-하계][황찬미] URP를 마치며

안녕하세요. 이번 동계 urp프로그램에 참여한 황찬미입니다. 저는 이 기간동안 배운 점들과 앞으로 URP에 참여할 후배들에게 전하고 싶은 이야기를 후기에 담아보았습니다. [URP 참여 후기] 저는 이미…

Continue Reading
Posted in X-Diary

2025년도 하계 URP 조교를 마치며

안녕하세요, 이번주는 2025년 하계 URP를 마치고 후기를 작성해보려 합니다. 이번 기수에 처음으로 메인 멘토도 하고, 교육 한 주차를 맡아서 진행한 만큼 URP 멘티로 참가할때나, 서브…

Continue Reading
Posted in B.S. X-Diary

2025년도 하계 URP 조교를 마치며

안녕하세요 이번 x-diary로 URP 조교를 마치며를 적게되었습니다. 생각보다 2달이라는 시간이 굉장히 빨리 지나 그때그때의 감정들을 적어놓지는 못했지만, 최대한 느꼈던 감정 상태를 떠올리며 작성해보겠습니다. 이번 URP…

Continue Reading
Posted in X-Diary

2025년도 URP 조교를 마치며

지난 x-diary들을 돌아보니 그 동안 항상 무언갈 배우는 입장이었고, 그 배움의 과정에서 느낀점들을 적어왔었는데요. URP 조교를 마무리하며 누군갈 멘토링하고 난 후 회고를 적는 건 처음이라…

Continue Reading
Posted in X-Review

[ICCV 2023] Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature Alignment

오랜만에 Text-to-Video Retrieval (VTR) 연구에 대해 리뷰해보려고 합니다. 최근 비디오에 포함되어 있는 ‘오디오’라는 모달리티를 활용하는 연구로도 지속적인 관심이 생겨나고 있는 것 같은데, VTR에서는 어떻게 연구가…

Continue Reading
Posted in X-Review

[ICCV 2025] RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation

안녕하세요. 이번엔 VLM high-level planning과 RL+IL의 low-level execution 간의 각각의 장단점을 보완해서 중간에 저자들이 제안한 symbolic bridge 방식으로 안정적으로 통합하는 general manipulation 프레임워크를 들고 왔습니다….

Continue Reading
Posted in X-Review

[2025 arXiv] TEACH: TEXT ENCODING AS CURRICULUM HINTS FOR SCENE TEXT RECOGNITION

1. INTRODUCTION Scene Text Recognition은 이미지에서 텍스트를 읽어내는 태스크로 Optical Character Recognition (OCR)의 하위 범주에 속합니다. 문서 속 텍스트를 읽는 document OCR과 비교했을 때 더…

Continue Reading
Posted in Paper X-Review

[CVPRW2024]ViTA: An Efficient Video-to-Text Algorithm using VLM for RAG-based VideoAnalysis System

안녕하세요, 오늘 소개드릴 논문은 비디오 modality를 위한 RAG 프레임워크를 제안한 논문입니다. RAG의 기본적인 동작 도메인인 텍스트 도메인보다 데이터 용량이 큰 비디오 도메인을 다루는 만큼, 효율성을…

Continue Reading
Posted in X-Review

[arXiv 2025]Affordance-R1: Reinforcement Learning for Generalizable Affordance Reasoning in Multimodal Large Language Model

제가 이번에 리뷰할 논문은 8월11일에 아카이브에 공개된 논문으로, Affordance에 대한 Chain-Of-Thought를 위해 reward를 도입하여 학습한 방식입니다. 새로운 접근법 같기도 하고, CoT를 위한 데이터도 공개했다는 점에서…

Continue Reading
Posted in X-Review

[2023 CVPR] Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge Transferring

안녕하세요. 이번에 소개할 논문은 사전 학습된 CLIP 모델을 비디오 도메인으로 확장할 때 시간 모델링에 대한 분석을 다룬 연구입니다. 비디오 태스크에는 Retrieval과 같은 고수준(high-level) 태스크와, Video…

Continue Reading