[일:] 2025년 01월 19일
[EMNLP 2024] Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality
홍 주영 01/19/2025 [EMNLP 2024] Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality에 댓글 1개
오늘 리뷰할 논문은 Vision-Language Models(VLM)의 Compositional Reasoning 능력을 향상시키면서 멀티모달 성능을 유지하는 방법에 대한 것입니다. Compositional Reasoning이란 개별 요소(예: 단어, 이미지 특징 등)를 조합해 새로운…
최신 댓글