Recent Posts

Posted in M.S. X-Diary

[2025 상반기] 산업체 인턴쉽 후기

안녕하세요, 2025년 4월~ 9월, 총 6개월간 네이버랩스 Robot Vision & Learning 팀에서 인턴쉽을 진행한 석사과정 3학기 권석준입니다. 제가 진행했던 인턴쉽에 대해 후기로 남겨보고자 합니 1….

Continue Reading
Posted in X-Diary

CoRL 2025 참관기

안녕하세요. 9월 27일~10월 2일까지 4일간 진행된 CoRL 학회 참관기 입니다. 우선, 해당 학회는 robot learning 학회로, 최근 핫한 연구 분야인 로보틱스 학회입니다. 먼저 이런 학회에…

Continue Reading
Posted in Paper X-Review

[arXiv2025]Does Your Vision-Language Model Get Lost in the Long Video Sampling Dilemma?

본 논문은 비디오 연구에서 Sampling Dilemma 문제를 수면 위로 올리며, 이를 위한 벤치마크 데이터셋을 공개하는 논문입니다. Sampling Dilemma란 무엇인지에서 부터 논문이 어떻게 벤치마크를 구성했는지 리뷰를…

Continue Reading
Posted in X-Diary

CoRL 2025 참관기

안녕하세요. 교수님이 주신 좋은 기회로 저희 로보틱스 팀원들이 모두 참석했던 CoRL 2025 참관기를 작성해보고자 합니다. 학회는 9/27(토)~9/30(화)까지 4일간 코엑스에서 진행되었습니다. 국제 탑티어 학회는 처음 참관하기도…

Continue Reading
Posted in Paper X-Review

[ICRA 2023]GNM: A General Navigation Model to Drive Any Robot

안녕하세요. 이번에 소개드릴 논문은 Visual Navigation 분야의 연구로 ICRA 2023에 게재된 GNM: A General Navigation Model to Drive Any Robot 입니다. Visual Navigation 분야는 저에게…

Continue Reading
Posted in Paper X-Review

[ICML 2021] Learning Transferable Visual Models From Natural Language Supervision

< Intro > 1. Zero-shot image classification 제로샷 이미지 분류는 한마디로 말하자면 학습데이터에 존재하지 않는 새로운 class에 대해 classification을 할수 있는 기술을 말합니다전통적인 이미지 분류에서는…

Continue Reading
Posted in X-Review

[CVPR2023] Teaching Structured Vision & Language Concepts to Vision & Language Models

안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 Vision-Language 모델의 compositional 이해 능력을 개선한 논문입니다. Introduction CLIP과 같은 Vision-Language 모델은 이미지와 텍스트를 함께 학습하는 것으로 Classification, Detection,…

Continue Reading
Posted in X-Diary

CoRL 2025 참관 후기

안녕하세요, 이번에는 CoRL 학회 참석 후기를 작성해보려고 합니다. 운이 좋게 현재 관심을 뜨겁게 받고 있는 로봇 분야의 학회가 한국에서 열려 너무 좋았고, 그것을 직접 체험할…

Continue Reading
Posted in Paper X-Review

[arXiv 2022] Disentangled Representation Learning for Text-Video Retrieval

안녕하세요 이번에 소개할 논문은 Text-Video Retrieval 모델들의 핵심 모듈인 Cross-modality interaction이 성능에 어떻게 영향을 미치는지에 대한 분석이 부족하다는 것을 문제 정의 삼아 이를 분석하고 새로운…

Continue Reading
Posted in Paper X-Review

[NeurIPS 2024]Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering

안녕하세요, 오늘은 AVQA 논문들을 팔로우업 하면서 읽어보게 된 논문입니다. AVQA 태스크를 어느정도 들어보셔서 알고 계시겠지만, 기본적으로 오디오와 비디오의 정보를 이해하고 그에 관련한 자연어 질의에 대답해야…

Continue Reading