Category: X-Review

Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.

Posted in X-Review

[CVPR2022]Compositional Temporal Grounding with Structured Variational Cross-Graph Correspondence Learning

안녕하세요 오늘 제가 리뷰할 논문은 Compositional Moment Retrieval을 제안하는 논문입니다. Moment Retrieval task에서 쿼리의 compositionality를 고려한 task를 소개하는 논문입니다. Introduction Moment Retrieval은 비디오와 자연어 쿼리를…

Continue Reading
Posted in Conference X-Review

[IROS 2024 Oral]ManipVQA: Injecting Robotic Affordance and Physically Grounded Information into Multi-Modal Large Language Models

제가 이번에 리뷰할 논문은 Affordance 인식을 위해 MLLM을 적용한 방법론으로, 제가 최근 리뷰한 UniAff에서 기존 방법론과의 비교에 활용된 방법론 입니다.(자세한 내용은 이전 리뷰 참고해주세요!) Abstract…

Continue Reading
Posted in News Paper X-Review

[2024 CVPR] The Neglected Tails in Vision-Language Models

안녕하세요 이번에 소개할 논문은 Vision-Language Models(VLMs)에서 발생하는 long-tailed 문제를 다룬 논문입니다. long-tailed 문제란 학습 데이터에 특정 클래스나 concept(클래스와 유사한 개념)이 적게 포함되어 모델 성능이 불균형해지는…

Continue Reading
Posted in Conference X-Review

[EMNLP 2024] Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality

오늘 리뷰할 논문은 Vision-Language Models(VLM)의 Compositional Reasoning 능력을 향상시키면서 멀티모달 성능을 유지하는 방법에 대한 것입니다. Compositional Reasoning이란 개별 요소(예: 단어, 이미지 특징 등)를 조합해 새로운…

Continue Reading
Posted in Conference X-Review

[CVPR 2024] MAFA: Managing False Negatives for Vision-Language Pre-training

오늘 리뷰할 논문은 Vision-Language Pre-training(VLP) 과정에서 발생하는 “false negatives” 문제를 다룹니다. Vision Language Model (VLM)은 웹에서 수집한 이미지-텍스트 페어를 활용해 학습합니다. 학습 시, 하나의 이미지에…

Continue Reading
Posted in Paper X-Review

[RA-L 2024]CLARA : Classifying and Disambiguating User Commands for Reliable Interactive Robotic Agents

안녕하세요. 이번에 새롭게 분야를 넓히게 되면서 Robot과 관련된 논문을 읽게 되었습니다. 최근에 Robot과 LLM이 잘 케미를 이루며 새로운 시너지를 내는 듯한 논문이 많은데, 해당 논문도…

Continue Reading
Posted in Paper X-Review

[PMLR2023]Prediction-Oriented Bayesian Active Learning

오늘 리뷰할 논문은 이미지 분류 모델의 예측 성능 개선에 중점을 맞추어 모델 불확실성을 산출하고, 이를 통해 성능을 개선하는 능동 학습 (Active Learning)에 관련된 논문입니다. 특히…

Continue Reading
Posted in X-Review

[arXiv 2025] SeqAfford: Sequential 3D Affordance Reasoning via Multimodal Large Language Model

아카이브에 2024년 12월에 개제된 논문입니다. ICLR 2025에 제출했다가 취소한 것으로 보이는데.. sequential 3D affordance reasoning이라는 새로운 task를 제안하였다는 것이 흥미로워 리뷰를 하게 되었습니다. Abstract 3D…

Continue Reading
Posted in X-Review

[NIPS2018] How Does Batch Normalization Help Optimization?

안녕하세요 오늘 제가 리뷰 할 논문은 Batch Normalization에 대해 다뤄 NIPS 2018에 게재된 논문입니다. 제가 최근에 URP 1주차 인공지능 기초를 준비하며 제가 Batch Normalization에 대해서…

Continue Reading
Posted in Conference Paper X-Review

[AAAI 2025] FastLGS: Speeding up Language Embedded Gaussians with Feature Grid Mapping

이번 리뷰 논문은 3D Language Field 중 출판된 가장 최신 기법으로 실시간성과 성능 모두 SOTA를 달성한 기법에 해당합니다. 기존 기법들은 첫 시도들을 제안한 기법이라면 해다…

Continue Reading