Recent Posts

Posted in Paper X-Review

[CVPR 2025] Universal Scene Graph Generation

안녕하세요, 허재연입니다. 오늘 살펴볼 논문은 CVPR 2025 논문으로, 학회에 참석했을 때 포스터 세션에서 직접 저자에게 컨셉을 설명 들었던 논문입니다. 저자들이 SGG를 주제로 CVPR2025에 논문을 두…

Continue Reading
Posted in X-Review

[CVPR2024] Towards Automated Movie Trailer Generation

안녕하세요 오늘 소개드릴 논문은 “Towards Automated Movie Trailer Generation” 입니다. 본 논문의 테스크는 Movie Trailer Generation(영화 예고편 생성) 입니다. 저희 연구실에서는 생소할 수도 있는 주제인데요,…

Continue Reading
Posted in Conference X-Review

[ECCV 2024] KDProR: A Knowledge-Decoupling Probabilistic Framework for Video-Text Retrieval

오늘도 CLIP 기반의 Video-Text Retrieval 에 대한 리뷰입니다. 학습 시 정보를 잊는다는 것을 극복하고자 “외부 저장소”라는걸 추가했다는 것이 제법 재밌는 생각인 것 같습니다. 1. Introduction…

Continue Reading
Posted in Conference X-Review

[CVPR2025] CustomKD: Customizing Large Vision Foundation for Edge Model Improvement via Knowledge Distillation

이번에 소개드릴 논문은 퀄컴에서 작성한 논문이며, 퀄컴의 관심 분야답게 모델의 효율성을 위한 Knowledge Distillation을 목적으로 합니다. CVPR 참관하면서 포스터로 접하게 된 논문인데 컨셉이 그리 복잡하지…

Continue Reading
Posted in X-Review

[CVPR 2025] Ouroboros3D: Image-to-3D Generation via 3D-aware Recursive Diffusion

안녕하세요 이번주는 Image to 3D 논문을 읽어보았습니다. 현실을 시뮬레이터로 옮기는 Real to Sim의 자동화 방법을 고민하다 최근에 TRELLIS라는 모델의 데모를 해보면서 하나의 2D 이미지만 가지고…

Continue Reading
Posted in X-Review

[CVPR 2024]SAM-6D: Segment Anything Model Meets Zero-Shot 6D Object Pose Estimation

안녕하세요 4번째 논문리뷰입니다! 이번에 소개해드릴 논문은 2024 CVPR에 기재된 SAM-6D입니다. 6D Pose Estimation은 R(rotation),t(translation)을 동시에 추정하는 과제로 환경과 객체 특성에 따라 모델이 쉽게 overfitting되는 문제가…

Continue Reading
Posted in Paper X-Review

[arXiv 2024]ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation

안녕하세요 이번에 들고온 리뷰할 논문은 Scale Depth 라는 논문입니다. 2024년 10월에 아카이브에 올라왔지만 아직 어느 학회에도 게재가 되지는 않은 논문입니다. 다른 Depth 논문들과는 다르게 이미지를…

Continue Reading
Posted in Paper X-Review

[AAAI 2024](Oral) AnomalyGPT: Detecting Industrial Anomalies Using Large Vision-Language Models

안녕하세요, 예순 여섯번째 X-Review입니다. 이번 논문은 2024년도 AAAI에 올라온 AnomalyGPT: Detecting Industrial Anomalies Using Large Vision-Language Models입니다. 바로 시작하도록 하겠습니다.  1. Introduction 본 논문은 Large…

Continue Reading
Posted in X-Review

[CVPR 2024] WorDepth: Variational Language Prior for Monocular Depth Estimation

안녕하세요, 71번째 x-review 입니다. 이번 논문은 CVPR 2024년도에 게재된 WorDepth라는 language를 MDE에 활용한 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction 3차원 장면을 2차원…

Continue Reading
Posted in X-Review

[TIP 2024] CLIP4STR: A Simple Baseline for Scene TextRecognition with Pre-trained Vision-LanguageModel

안녕하세요. 오늘은 CLIP을 Scene Text Recognition task에 적용한 연구에 대한 리뷰를 하게 되었습니다. CLIP이 가지는 text perception의 능력에 주목해 구조는 간단하지만서도 이를 효과적으로 활용해 SoTA…

Continue Reading