Category: Paper

Paper Review

Posted in Paper X-Review

[arXiv 2025] DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge

이번 리뷰 논문은 최신 VLA 논문입니다. 현재 VLA 방법론들의 평가 방법이 난잡한 상황에서 많은 기법들이 CALVIN과 LIBERO 벤치마크를 이용해서 평가를 하는 흐름으로 보입니다. 해당 기법은…

Continue Reading
Posted in Paper X-Review

[arXiv 2025] Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator

안녕하세요, 73번째 x-review 입니다. 이번 논문은 2025년 arXiv에 올라와 있는 Distill Any Depth라는 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction Monocular Depth Estimation(MDE)…

Continue Reading
Posted in Paper X-Review

[NeurlPS 2024]SARDet-100K: Towards Open-Source Benchmark and ToolKit for Large-Scale SAR Object Detection

이번 x-review 로는 SAR (합성개구레이더 (Synthetic-aperture radar))이라는 데이터를 이용한 Object detection 논문입니다. 논문 제목으로 알 수 있듯 SAR 도메인의 Detection의 대규모 벤치마크를 제안하면서 동시에 어떻게…

Continue Reading
Posted in Paper X-Review

[2025 TCSVT] MonoDiffusion: Self-Supervised Monocular Depth Estimation Using Diffusion Model

이번에 소개드릴 논문은 self-supervised monocular depth estimation 쪽 논문입니다. 해당 task로 논문을 쓰고 있어서 당분간 주기적으로 해당 분야의 최신 논문 리뷰를 작성할 것 같네요. self-supervised…

Continue Reading
Posted in Conference Paper X-Review

[CoRL 2024] 3D Diffuser Actor: Policy Diffusion with 3D Scene Representations

오랜만에 robot policy learning 논문을 가지고 왔습니다. 해당 기법은 3D Diffusion Policy와 유사하게 3차원 공간 정보를 활용하여 human demonstration에 대해 diffusion을 이용하여 모방하는 방법을 이용합니다….

Continue Reading
Posted in Paper X-Review

[CVPR 2025] Unbiased Video Scene Graph Generation via Visual and Semantic Dual Debiasing

안녕하세요, 오늘 리뷰할 논문은 CVPR2025에 게재된 논문으로, Video 기반 SGG를 다룬 논문입니다. SGG 분야 자체가 연구가 활발한 편이 아니긴 한데, 이번 CVPR을 둘러보니 단순 image…

Continue Reading
Posted in Paper X-Review

[ICLR 2025]DEPTH PRO: Sharp Monocular Metric Depth In Less Than a Second

안녕하세요. 이번 X-Review에서는 2025년 ICLR에 게재된 애플에서 연구한 논문 “Depth Pro: Sharp Monocular Metric Depth in Less Than a Second”를 소개드리고자 합니다. 저번 주에 소개드렸던…

Continue Reading
Posted in Paper X-Review

[CVPR 2025] Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models

안녕하세요, 예순 일곱번째 X-Review입니다. 이번 논문은 2025년도 CVPR에 올라온 Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models입니다. 바로 시작하도록 하겠습니다.  1. Introduction…

Continue Reading
Posted in Paper X-Review

[CVPR 2023]Finetune Like You Pretrain: Improved Finetuning of Zero-Shot Vision Models

이번에 가져온 논문은 제가 OWL_ViT에 파인튜닝 기법으로 사용해볼 FLYP 논문입니다. 기존에 존재하는 다른 파인튜닝 방법론보다 성능이 더 좋다는 것이 논문에 구체적으로 설명되어 있기도 하고 연구하고…

Continue Reading
Posted in Paper X-Review

[AAAI 2025](Oral) DepthFM: Fast Generative Monocular Depth Estimation with Flow Matching

안녕하세요, 72번째 x-review 입니다. 이번 논문은 AAAI 2025년도에 Oral paper로 게재된 DepthAM이라는 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction Monocular Depth Estimation(MDE)은 크게…

Continue Reading