[카테고리:] X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[arXiv 2024] Reconciling Reality through Simulation: A Real-to-Sim-to-Real Approach for Robust Manipulation
안녕하세요, 이번주는 디지털 트윈 환경을 이용해 기존의 모방학습과 강화학습의 정책들을 더 강인하게 만드는 프레임워크에 대한 논문입니다. 기존의 엄청난 인력을 요구하고 강인한 정책을 학습하기 힘든 모방학습과…
[arXiv 2024] Segment Anything with Multiple Modalities
1. Introduction 여러 프롬프트를 사용하는 SAM은 대표적인 VFM으로서 genaralization 능력을 갖추었다고 평가받고 있습니다. 그러나 SAM은 billon 단위의 대규모 RGB 이미지 마스크만으로 학습되어 다른 비전 센서…
[CVPR 2024] Open-Vocabulary Video Anomaly Detection
안녕하세요, 오늘의 X-Review에서는 24년도 CVPR에 게재된 논문 <Open-Vocabulary Video Anomaly Detection>을 소개해드리겠습니다. 논문의 제목이 task의 이름이기에 이 task를 최초로 제안한 논문입니다. 저자가 제안하는 Open-Vocabulary Video…
[Arxiv 2024] Relation-aware Hierarchical Prompt for Open-vocabulary Scene Graph Generation
오늘도 Open-vocabulary Scene Graph Generation (Ov-SGG) 에 대한 논문을 리뷰하겠습니다. Ov-SGG에서는 학습 때 보지 못한 객체(object)나 객체 사이의 관계(relation)도 예측해야 합니다. 저는 현재 이 novel…
[EMNLP 2024] Detecting Ambiguous Utterances in an Intelligent Assistant
안녕하세요. 최근에 모호한 명령어를 정확하게 수행하는 Task 관련하여 흥미가 생겨 해당 논문 분야로 새롭게 읽어봤습니다. EMNLP 논문으로, 모호한 발화를 잘 탐지하기 위해서 데이터셋 구축 및…
[AAAI 2024] GroundVLP: Harnessing Zero-Shot Visual Grounding from Vision- Language Pre-training and Open-Vocabulary Object Detection
안녕하세요. 이번 논문은 Zero-shot Visual Grounding 태스크 중 VLP(Vision Language Pretraining model)와 OVD를 결합한 논문입니다. zero-shot grounding을 주제로 국문저널급을 한편을 쓰기로 되어 있어서 가장 최신의…
[arXiv 2024] Open-World Amodal Appearance Completion
안녕하세요, 이번주 x-review도 Amodal Completion에 관한 논문을 준비했습니다. 이번 논문은 여타 Amodal Completion 논문들과는 다르게 open world 환경에서 추가적인 학습 없이 자연어 쿼리를 기반으로 가려진…
[CVPR2022]Compositional Temporal Grounding with Structured Variational Cross-Graph Correspondence Learning
안녕하세요 오늘 제가 리뷰할 논문은 Compositional Moment Retrieval을 제안하는 논문입니다. Moment Retrieval task에서 쿼리의 compositionality를 고려한 task를 소개하는 논문입니다. Introduction Moment Retrieval은 비디오와 자연어 쿼리를…
[IROS 2024 Oral]ManipVQA: Injecting Robotic Affordance and Physically Grounded Information into Multi-Modal Large Language Models
제가 이번에 리뷰할 논문은 Affordance 인식을 위해 MLLM을 적용한 방법론으로, 제가 최근 리뷰한 UniAff에서 기존 방법론과의 비교에 활용된 방법론 입니다.(자세한 내용은 이전 리뷰 참고해주세요!) Abstract…
[2024 CVPR] The Neglected Tails in Vision-Language Models
안녕하세요 이번에 소개할 논문은 Vision-Language Models(VLMs)에서 발생하는 long-tailed 문제를 다룬 논문입니다. long-tailed 문제란 학습 데이터에 특정 클래스나 concept(클래스와 유사한 개념)이 적게 포함되어 모델 성능이 불균형해지는…
최신 댓글