[일:] 2024년 08월 04일
[CVPR 2023]LOCATE: Localize and Transfer Object Parts for Weakly Supervised Affordance Grounding
안녕하세요. 제가 이번에 리뷰할 논문은 물체와 상호작용을 위한 특정 영역을 인식하기 위한 Affordance Grounding 논문입니다. Abstract 사람은 관찰을 통해 지식을 습득하는 능력이 있어 새로운 물건을…
[2022 CVPR] UniVIP: A Unified Framework for Self-Supervised Visual Pre-training
안녕하세요 정의철 연구원입니다. 이번에 소개할 논문은 기존의 SSL 방법들이 ImageNet과 같은 단일 중심 객체 이미지에서 성공을 거두었지만 scene과 instance 간의 상관 관계 및 scene 내의…
[arXiv 2024] AffectGPT: Dataset and Framework for Explainable Multimodal Emotion Recognition
pdf Code&Dataset 안녕하세요! 따근따근한🔥🔥 7월 10일에 arXiv에 등록된 EMER 저자의 후속 논문을 가지고 와봤습니다. EMER 논문이 새로운 감정 인식의 포문을 연 논문이라 생각이 들지만 조금…
[NeurIPS 2023] CoDA: Collaborative Novel Box Discovery and Cross-modal Alignment for Open-vocabulary 3D Object Detection
안녕하세요, 마흔 한번째 x-review 입니다. 이번 논문은 2023년도 NeurIPS에 게재된 CoDA: Collaborative Novel Box Discovery and Cross-modal Alignment for Open-vocabulary 3D Object Detection입니다. 그럼 바로…
[arXiv 2024] MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval
안녕하세요, 이번 주도 Video Moment Retrieval task와 관련하여 리뷰를 작성해보겠습니다. 오늘 소개해드릴 논문은 올해 6월 arXiv에 게재된 <MLLM as Video Narrator: Mitigating Modality Imbalance in…
[ICML 2021] (CLIP) Learning Transferable Visual Models From Natural Language Supervision
Vision Language Model(VLM)의 근본인 CLIP 논문에 대해 리뷰해보겠습니다. 아이디어와 코드는 아주아주 간단한데, 현재시간 기준 19,543회의 인용률을 달성할 정도로 어마어마한 파급력을 가져온 논문이라는 것은 누구나 다…
최신 댓글