Category: X-Review

Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.

Posted in X-Review

[NeurIPS 2024] Introspective Planning: Aligning Robots’ Uncertainty with Inherent Task Ambiguity

안녕하세요. 이번에도 로봇 작업 관점에서의 hallucination 및 작업 모호성 문제 해결을 위한 uncertainty 추정 관련 연구를 들고 왔습니다. 사실 NIPS 에 실린 논문이라 기대를 많이…

Continue Reading
Posted in X-Review

[ECCV 2024]FreeZe: Training-free zero-shot 6D pose estimation with geometric and vision foundation models

안녕하세요 5번째 X-review 입니다. 오늘은 지난주에 이어서 Zero-shot 6D pose estimation에 대해 작성해보려합니다.ECCV2024에 기재된 논문으로 geometric 정보와 vison정보를 모두 foundation model을 통해서 학습없이 6D를 추정하는…

Continue Reading
Posted in Conference X-Review

[ICRA 2025(Best Paper Finalist)]UAD: Unsupervised Affordance Distillation for Generalization in Robotic Manipulation

Abstract 개방형 작업 지시가 주어지는 비정형 환경에서 로봇이 물체를 조작하기 위해서는 세분화된 affordance를 이해하는 것이 필요하지만, 기존의 방식은 수동 annotatgion 정보나, 작업에 대하여 사전에 미리…

Continue Reading
Posted in Paper X-Review

[ICLR 2025]DEPTH PRO: Sharp Monocular Metric Depth In Less Than a Second

안녕하세요. 이번 X-Review에서는 2025년 ICLR에 게재된 애플에서 연구한 논문 “Depth Pro: Sharp Monocular Metric Depth in Less Than a Second”를 소개드리고자 합니다. 저번 주에 소개드렸던…

Continue Reading
Posted in Paper X-Review

[CVPR 2025] Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models

안녕하세요, 예순 일곱번째 X-Review입니다. 이번 논문은 2025년도 CVPR에 올라온 Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models입니다. 바로 시작하도록 하겠습니다.  1. Introduction…

Continue Reading
Posted in Paper X-Review

[CVPR 2023]Finetune Like You Pretrain: Improved Finetuning of Zero-Shot Vision Models

이번에 가져온 논문은 제가 OWL_ViT에 파인튜닝 기법으로 사용해볼 FLYP 논문입니다. 기존에 존재하는 다른 파인튜닝 방법론보다 성능이 더 좋다는 것이 논문에 구체적으로 설명되어 있기도 하고 연구하고…

Continue Reading
Posted in X-Review

[ICRA 2025] Real2Gen : Imitation Learning from a Single Human Demonstration with Generative Foundation Models

안녕하세요 이번주 리뷰는 human demonstration 영상과 생성형 모델을 활용한 효율적인 모방학습 데이터셋을 취득하는 방법에 관한 논문입니다. 모방학습이 로봇을 조작하는 방법의 확실한 트렌드로 자리잡고 있지만 모방학습용…

Continue Reading
Posted in Paper X-Review

[AAAI 2025](Oral) DepthFM: Fast Generative Monocular Depth Estimation with Flow Matching

안녕하세요, 72번째 x-review 입니다. 이번 논문은 AAAI 2025년도에 Oral paper로 게재된 DepthAM이라는 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction Monocular Depth Estimation(MDE)은 크게…

Continue Reading
Posted in Paper X-Review

[ECCV 2022] TS2-Net: Token Shift and Selection Transformer for Text-Video Retrieval

안녕하세요 이번에도 Text-Video Retrieval 논문을 리뷰하고자 합니다. 개인 연구를 진행하면서 어떻게 하면 encoder 내부에서 비디오의 spatial-temporal 정보를 모델링 할지 고민을 하고 있는데 마침 제가 생각했던…

Continue Reading
Posted in Conference X-Review

[CVPR 2025] Language-Guided Image Tokenization for Generation

오늘부터는 CVPR 2025의 Oral 및 Highlight 논문들을 중심으로 다양한 연구를 리뷰해보려 합니다. 이번에 살펴볼 논문은 박성준 연구원의 CVPR 참관기 세미나에서 소개되었던 페이퍼로, 제가 집중하지 않는…

Continue Reading