Category: X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[NeurlPS 2024]SARDet-100K: Towards Open-Source Benchmark and ToolKit for Large-Scale SAR Object Detection
이번 x-review 로는 SAR (합성개구레이더 (Synthetic-aperture radar))이라는 데이터를 이용한 Object detection 논문입니다. 논문 제목으로 알 수 있듯 SAR 도메인의 Detection의 대규모 벤치마크를 제안하면서 동시에 어떻게…
[ICCV 2025] Everything is a Video: Unifying Modalities through Next-Frame Prediction
ICCV 2025 억셉 리스트가 공개되었고, 제목에 이끌려 읽게된 논문에 대해 리뷰해보겠습니다. 오늘 알아볼 논문은, 멀티모달 러닝 태스크입니다. 다양한 모달리티를 어떻게 학습하면 좋을까? 에 대한 연구는…
[2025 TCSVT] MonoDiffusion: Self-Supervised Monocular Depth Estimation Using Diffusion Model
이번에 소개드릴 논문은 self-supervised monocular depth estimation 쪽 논문입니다. 해당 task로 논문을 쓰고 있어서 당분간 주기적으로 해당 분야의 최신 논문 리뷰를 작성할 것 같네요. self-supervised…
[CoRL 2024] 3D Diffuser Actor: Policy Diffusion with 3D Scene Representations
오랜만에 robot policy learning 논문을 가지고 왔습니다. 해당 기법은 3D Diffusion Policy와 유사하게 3차원 공간 정보를 활용하여 human demonstration에 대해 diffusion을 이용하여 모방하는 방법을 이용합니다….
[CVPR 2025] Unbiased Video Scene Graph Generation via Visual and Semantic Dual Debiasing
안녕하세요, 오늘 리뷰할 논문은 CVPR2025에 게재된 논문으로, Video 기반 SGG를 다룬 논문입니다. SGG 분야 자체가 연구가 활발한 편이 아니긴 한데, 이번 CVPR을 둘러보니 단순 image…
[TPAMI 2018] SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition
안녕하세요 오늘도 Scene text recognition 주제의 논문을 들고 왔습니다. 특히 단어가 가지는 의미 정보를 활용한 recognition 연구에 관심이 있어 해당 주제 위주로 공부하고 있습니다. 제가…
[NeurIPS 2024] Introspective Planning: Aligning Robots’ Uncertainty with Inherent Task Ambiguity
안녕하세요. 이번에도 로봇 작업 관점에서의 hallucination 및 작업 모호성 문제 해결을 위한 uncertainty 추정 관련 연구를 들고 왔습니다. 사실 NIPS 에 실린 논문이라 기대를 많이…
[ECCV 2024]FreeZe: Training-free zero-shot 6D pose estimation with geometric and vision foundation models
안녕하세요 5번째 X-review 입니다. 오늘은 지난주에 이어서 Zero-shot 6D pose estimation에 대해 작성해보려합니다.ECCV2024에 기재된 논문으로 geometric 정보와 vison정보를 모두 foundation model을 통해서 학습없이 6D를 추정하는…
[ICRA 2025(Best Paper Finalist)]UAD: Unsupervised Affordance Distillation for Generalization in Robotic Manipulation
Abstract 개방형 작업 지시가 주어지는 비정형 환경에서 로봇이 물체를 조작하기 위해서는 세분화된 affordance를 이해하는 것이 필요하지만, 기존의 방식은 수동 annotatgion 정보나, 작업에 대하여 사전에 미리…
[ICLR 2025]DEPTH PRO: Sharp Monocular Metric Depth In Less Than a Second
안녕하세요. 이번 X-Review에서는 2025년 ICLR에 게재된 애플에서 연구한 논문 “Depth Pro: Sharp Monocular Metric Depth in Less Than a Second”를 소개드리고자 합니다. 저번 주에 소개드렸던…
안우현 연구원님 안녕하세요, 하나씩 답변 드리도록 하겠습니다. 1. 논문에 백본 네트워크와 트랜스포머 인코더/디코더 모듈의 초기화 방법은 설명되어 있지만, CMM module의…