[arXiv 2022] Disentangled Representation Learning for Text-Video Retrieval
안녕하세요 이번에 소개할 논문은 Text-Video Retrieval 모델들의 핵심 모듈인 Cross-modality interaction이 성능에 어떻게 영향을 미치는지에 대한 분석이 부족하다는 것을 문제 정의 삼아 이를 분석하고 새로운…
[NeurIPS 2024]Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering
안녕하세요, 오늘은 AVQA 논문들을 팔로우업 하면서 읽어보게 된 논문입니다. AVQA 태스크를 어느정도 들어보셔서 알고 계시겠지만, 기본적으로 오디오와 비디오의 정보를 이해하고 그에 관련한 자연어 질의에 대답해야…
CoRL 2025 참관기
안녕하세요, 9월 27-30일에 다녀온 CoRL 2025 참관기로 오랜만에 X-Diary를 작성해보려고 합니다. 이번 CoRL이 서울에서 열려서 좋은 기회로 다녀오게 되었습니다. 코엑스만 들어가면 마치 외국에 와있는 것…
[CoRL 2025] Learning from 10 Demos: Generalisable and Sample-Efficient Policy Learning with Oriented Affordance Frames
이번 리뷰 논문은 IL이 가진 문제점, 장기적인 작업에 따른 일반화와 강건함을 가지기 위해서는 대량의 시연 데이터가 필요하다는 단점을 극복하기 위한 방법을 제시합니다. 적은 시연 데이터…
CoRL 2025 참관기
이번주는 CoRL 2025 참관기를 적어보려고 합니다. 9월 말에 참석했던 학회였고, 올해 초에 재찬이가 발표하러 간 학회 말고는 처음으로 제대로 참석한 학회라 기대도 많이하고 설렘도 가득했었는데,…
[AAAI 2024] Object-Aware Adaptive-Positivity Learning for Audio-Visual Question Answering
안녕하세요. 오늘 리뷰에서는 24년도 AAAI에 게재된 AVQA 관련 논문을 소개해드리겠습니다. 제가 지금 진행중인 실험들과 결이 비슷해 자세히 읽어보게 되었습니다. 바로 리뷰 시작하겠습니다. 1. Introduction Audio-Visual…
SmolVLM: Redefining small and efficientmultimodal models
이번에 소개드릴 논문도 어쩌다보니 VLM 관련 논문입니다. 근데 이제 efficiency를 고려한. 무언가 의도한건 아니지만 자꾸 효율성을 강조하는 논문들을 찾아읽게되는 것 같네요 허허. 해당 논문은 아직…
[ICCV 2023] UATVR: Uncertainty-Adaptive Text-Video Retrieval
당분간 최근 Video Text Retrieval 를 정리해보려고 합니다. 1. Introduction 최근 Text-Video Retrieval 연구는 텍스트와 비디오를 같은 임베딩 공간으로 매핑하여 유사도를 계산하는 방식으로 발전해왔습니다. 하지만…
[TMM 2024] End-to-End Video Scene Graph Generation With Temporal Propagation Transformer
안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 2024년 IEEE TRANSACTIONS ON MULTIMEDIA(TMM)에 발행된 논문으로, Video Scene Graph Generation을 다룹니다. CVPR 2024에서 제안된 OED 이외에 DETR 기반의 VidSGG…
[ACL Findings 2025] Detecting and Mitigating Challenges in Zero-Shot Video Summarization with Video LLMs
Video LLMs을 통한 비디오 요약이 가능할까요? 해당 질문에 대한 답을 위해 분석을 진행한 논문이 여기 있습니다. 리뷰를 시작하겠습니다. 본 논문은 Zero-shot으로 비디오 요약을 수행하려할때 확인하게…
안녕하세요 인하님 리뷰 잘 읽었습니다~ 열심히 로봇 만드는거는 자주 봤는데 저랑는 다른 분야다 보니 구체적으로 이 손으로 어떤걸 하고 계신지는…