[카테고리:] X-Review

Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.

Posted in X-Review

[arXiv 2024] Reconciling Reality through Simulation: A Real-to-Sim-to-Real Approach for Robust Manipulation

안녕하세요, 이번주는 디지털 트윈 환경을 이용해 기존의 모방학습과 강화학습의 정책들을 더 강인하게 만드는 프레임워크에 대한 논문입니다. 기존의 엄청난 인력을 요구하고 강인한 정책을 학습하기 힘든 모방학습과…

Continue Reading
Posted in Paper X-Review

[arXiv 2024] Segment Anything with Multiple Modalities

1. Introduction 여러 프롬프트를 사용하는 SAM은 대표적인 VFM으로서 genaralization 능력을 갖추었다고 평가받고 있습니다. 그러나 SAM은 billon 단위의 대규모 RGB 이미지 마스크만으로 학습되어 다른 비전 센서…

Continue Reading
Posted in Paper X-Review

[CVPR 2024] Open-Vocabulary Video Anomaly Detection

안녕하세요, 오늘의 X-Review에서는 24년도 CVPR에 게재된 논문 <Open-Vocabulary Video Anomaly Detection>을 소개해드리겠습니다. 논문의 제목이 task의 이름이기에 이 task를 최초로 제안한 논문입니다. 저자가 제안하는 Open-Vocabulary Video…

Continue Reading
Posted in X-Review

[Arxiv 2024] Relation-aware Hierarchical Prompt for Open-vocabulary Scene Graph Generation

오늘도 Open-vocabulary Scene Graph Generation (Ov-SGG) 에 대한 논문을 리뷰하겠습니다. Ov-SGG에서는 학습 때 보지 못한 객체(object)나 객체 사이의 관계(relation)도 예측해야 합니다. 저는 현재 이 novel…

Continue Reading
Posted in Paper X-Review

[EMNLP 2024] Detecting Ambiguous Utterances in an Intelligent Assistant

안녕하세요. 최근에 모호한 명령어를 정확하게 수행하는 Task 관련하여 흥미가 생겨 해당 논문 분야로 새롭게 읽어봤습니다. EMNLP 논문으로, 모호한 발화를 잘 탐지하기 위해서 데이터셋 구축 및…

Continue Reading
Posted in X-Review

[AAAI 2024] GroundVLP: Harnessing Zero-Shot Visual Grounding from Vision- Language Pre-training and Open-Vocabulary Object Detection

안녕하세요. 이번 논문은 Zero-shot Visual Grounding 태스크 중 VLP(Vision Language Pretraining model)와 OVD를 결합한 논문입니다. zero-shot grounding을 주제로 국문저널급을 한편을 쓰기로 되어 있어서 가장 최신의…

Continue Reading
Posted in X-Review

[arXiv 2024] Open-World Amodal Appearance Completion

안녕하세요, 이번주 x-review도 Amodal Completion에 관한 논문을 준비했습니다. 이번 논문은 여타 Amodal Completion 논문들과는 다르게 open world 환경에서 추가적인 학습 없이 자연어 쿼리를 기반으로 가려진…

Continue Reading
Posted in X-Review

[CVPR2022]Compositional Temporal Grounding with Structured Variational Cross-Graph Correspondence Learning

안녕하세요 오늘 제가 리뷰할 논문은 Compositional Moment Retrieval을 제안하는 논문입니다. Moment Retrieval task에서 쿼리의 compositionality를 고려한 task를 소개하는 논문입니다. Introduction Moment Retrieval은 비디오와 자연어 쿼리를…

Continue Reading
Posted in Conference X-Review

[IROS 2024 Oral]ManipVQA: Injecting Robotic Affordance and Physically Grounded Information into Multi-Modal Large Language Models

제가 이번에 리뷰할 논문은 Affordance 인식을 위해 MLLM을 적용한 방법론으로, 제가 최근 리뷰한 UniAff에서 기존 방법론과의 비교에 활용된 방법론 입니다.(자세한 내용은 이전 리뷰 참고해주세요!) Abstract…

Continue Reading
Posted in News Paper X-Review

[2024 CVPR] The Neglected Tails in Vision-Language Models

안녕하세요 이번에 소개할 논문은 Vision-Language Models(VLMs)에서 발생하는 long-tailed 문제를 다룬 논문입니다. long-tailed 문제란 학습 데이터에 특정 클래스나 concept(클래스와 유사한 개념)이 적게 포함되어 모델 성능이 불균형해지는…

Continue Reading