Posted in X-Review

[CVPR 2025] Ouroboros3D: Image-to-3D Generation via 3D-aware Recursive Diffusion

안녕하세요 이번주는 Image to 3D 논문을 읽어보았습니다. 현실을 시뮬레이터로 옮기는 Real to Sim의 자동화 방법을 고민하다 최근에 TRELLIS라는 모델의 데모를 해보면서 하나의 2D 이미지만 가지고…

Continue Reading
Posted in X-Review

[CVPR 2024]SAM-6D: Segment Anything Model Meets Zero-Shot 6D Object Pose Estimation

안녕하세요 4번째 논문리뷰입니다! 이번에 소개해드릴 논문은 2024 CVPR에 기재된 SAM-6D입니다. 6D Pose Estimation은 R(rotation),t(translation)을 동시에 추정하는 과제로 환경과 객체 특성에 따라 모델이 쉽게 overfitting되는 문제가…

Continue Reading
Posted in Paper X-Review

[arXiv 2024]ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation

안녕하세요 이번에 들고온 리뷰할 논문은 Scale Depth 라는 논문입니다. 2024년 10월에 아카이브에 올라왔지만 아직 어느 학회에도 게재가 되지는 않은 논문입니다. 다른 Depth 논문들과는 다르게 이미지를…

Continue Reading
Posted in Paper X-Review

[AAAI 2024](Oral) AnomalyGPT: Detecting Industrial Anomalies Using Large Vision-Language Models

안녕하세요, 예순 여섯번째 X-Review입니다. 이번 논문은 2024년도 AAAI에 올라온 AnomalyGPT: Detecting Industrial Anomalies Using Large Vision-Language Models입니다. 바로 시작하도록 하겠습니다.  1. Introduction 본 논문은 Large…

Continue Reading
Posted in X-Review

[CVPR 2024] WorDepth: Variational Language Prior for Monocular Depth Estimation

안녕하세요, 71번째 x-review 입니다. 이번 논문은 CVPR 2024년도에 게재된 WorDepth라는 language를 MDE에 활용한 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction 3차원 장면을 2차원…

Continue Reading
Posted in X-Review

[TIP 2024] CLIP4STR: A Simple Baseline for Scene TextRecognition with Pre-trained Vision-LanguageModel

안녕하세요. 오늘은 CLIP을 Scene Text Recognition task에 적용한 연구에 대한 리뷰를 하게 되었습니다. CLIP이 가지는 text perception의 능력에 주목해 구조는 간단하지만서도 이를 효과적으로 활용해 SoTA…

Continue Reading
Posted in Paper X-Review

[ECCV 2022]Simple Open-Vocabulary Object Detection with Vision Transformers

안녕하세요 이번 논문으로는 OWL-ViT를 가져왔습니다. Open world Localization with vision transformer 라는 뜻인데 말을 보면 유추할 수 있듯이 Open world 상황에서 기존 CLIP이 classification만 가능했다면…

Continue Reading
Posted in Conference X-Review

[CVPR2025] Masking meets Supervision: A Strong Learning Alliance

이번에 리뷰로 작성할 논문은 CVPR2025에 게재된 논문으로 네이버 AI Lab에서 작성한 논문입니다. self-supervised learning에서 자주 소개되었던 Masked Image Modeling을 supervised learning framework에 적용하였을 때의 문제점을…

Continue Reading
Posted in Paper X-Review

[CVPR 2024] PromptAD: Learning Prompts with only Normal Samples for Few-Shot Anomaly Detection

안녕하세요, 예순 다섯번째 X-Review입니다. 이번 논문은 2024년도 CVPR에 올라온 PromptAD: Learning Prompts with only Normal Samples for Few-Shot Anomaly Detection입니다. 바로 시작하도록 하겠습니다. 1. Introduction…

Continue Reading
Posted in X-Review

[ICRA 2024] Universal Visual Decomposer: Long-Horizon Manipulation Made Easy

안녕하세요. 저번 리뷰는 Long-text Uncertainty Quantification(LUQ) 이라는 불확실성 추정 기반으로 LLM의 Long-text response에서의 hallucination현상을 정량적으로 추론해보자는 개념의 방법론을 들고왔었는데요. 갑자기 또 매니퓰레이션과 policy 관점에서의 무언가를…

Continue Reading