[ICML 2021] Learning Transferable Visual Models From Natural Language Supervision
< Intro > 1. Zero-shot image classification 제로샷 이미지 분류는 한마디로 말하자면 학습데이터에 존재하지 않는 새로운 class에 대해 classification을 할수 있는 기술을 말합니다전통적인 이미지 분류에서는…
[CVPR2023] Teaching Structured Vision & Language Concepts to Vision & Language Models
안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 Vision-Language 모델의 compositional 이해 능력을 개선한 논문입니다. Introduction CLIP과 같은 Vision-Language 모델은 이미지와 텍스트를 함께 학습하는 것으로 Classification, Detection,…
CoRL 2025 참관 후기
안녕하세요, 이번에는 CoRL 학회 참석 후기를 작성해보려고 합니다. 운이 좋게 현재 관심을 뜨겁게 받고 있는 로봇 분야의 학회가 한국에서 열려 너무 좋았고, 그것을 직접 체험할…
[arXiv 2022] Disentangled Representation Learning for Text-Video Retrieval
안녕하세요 이번에 소개할 논문은 Text-Video Retrieval 모델들의 핵심 모듈인 Cross-modality interaction이 성능에 어떻게 영향을 미치는지에 대한 분석이 부족하다는 것을 문제 정의 삼아 이를 분석하고 새로운…
[NeurIPS 2024]Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering
안녕하세요, 오늘은 AVQA 논문들을 팔로우업 하면서 읽어보게 된 논문입니다. AVQA 태스크를 어느정도 들어보셔서 알고 계시겠지만, 기본적으로 오디오와 비디오의 정보를 이해하고 그에 관련한 자연어 질의에 대답해야…
CoRL 2025 참관기
안녕하세요, 9월 27-30일에 다녀온 CoRL 2025 참관기로 오랜만에 X-Diary를 작성해보려고 합니다. 이번 CoRL이 서울에서 열려서 좋은 기회로 다녀오게 되었습니다. 코엑스만 들어가면 마치 외국에 와있는 것…
[CoRL 2025] Learning from 10 Demos: Generalisable and Sample-Efficient Policy Learning with Oriented Affordance Frames
이번 리뷰 논문은 IL이 가진 문제점, 장기적인 작업에 따른 일반화와 강건함을 가지기 위해서는 대량의 시연 데이터가 필요하다는 단점을 극복하기 위한 방법을 제시합니다. 적은 시연 데이터…
CoRL 2025 참관기
이번주는 CoRL 2025 참관기를 적어보려고 합니다. 9월 말에 참석했던 학회였고, 올해 초에 재찬이가 발표하러 간 학회 말고는 처음으로 제대로 참석한 학회라 기대도 많이하고 설렘도 가득했었는데,…
[AAAI 2024] Object-Aware Adaptive-Positivity Learning for Audio-Visual Question Answering
안녕하세요. 오늘 리뷰에서는 24년도 AAAI에 게재된 AVQA 관련 논문을 소개해드리겠습니다. 제가 지금 진행중인 실험들과 결이 비슷해 자세히 읽어보게 되었습니다. 바로 리뷰 시작하겠습니다. 1. Introduction Audio-Visual…
SmolVLM: Redefining small and efficientmultimodal models
이번에 소개드릴 논문도 어쩌다보니 VLM 관련 논문입니다. 근데 이제 efficiency를 고려한. 무언가 의도한건 아니지만 자꾸 효율성을 강조하는 논문들을 찾아읽게되는 것 같네요 허허. 해당 논문은 아직…
안녕하세요 태주님 댓글 감사합니다. 답변을 드리자면, A1. 저자가 real data 수를 바꿔가며 실험을 진행할 때, Real data가 150개일땐 Real data…