[CVPR 2025] Language-Guided Image Tokenization for Generation
오늘부터는 CVPR 2025의 Oral 및 Highlight 논문들을 중심으로 다양한 연구를 리뷰해보려 합니다. 이번에 살펴볼 논문은 박성준 연구원의 CVPR 참관기 세미나에서 소개되었던 페이퍼로, 제가 집중하지 않는…
[CVPR2025] NavigationWorld Models
이번에 소개드릴 논문은 CVPR2025에 게재된 논문으로 Visual Navigation task 관련 논문입니다. 메타, 뉴욕대, 버클리 AI research에서 작성한 논문이고 교신저자가 르쿤이 형이여서 그런지 포스터 섹션에서도 많은…
[CVPR 2025] Universal Scene Graph Generation
안녕하세요, 허재연입니다. 오늘 살펴볼 논문은 CVPR 2025 논문으로, 학회에 참석했을 때 포스터 세션에서 직접 저자에게 컨셉을 설명 들었던 논문입니다. 저자들이 SGG를 주제로 CVPR2025에 논문을 두…
[CVPR2024] Towards Automated Movie Trailer Generation
안녕하세요 오늘 소개드릴 논문은 “Towards Automated Movie Trailer Generation” 입니다. 본 논문의 테스크는 Movie Trailer Generation(영화 예고편 생성) 입니다. 저희 연구실에서는 생소할 수도 있는 주제인데요,…
[ECCV 2024] KDProR: A Knowledge-Decoupling Probabilistic Framework for Video-Text Retrieval
오늘도 CLIP 기반의 Video-Text Retrieval 에 대한 리뷰입니다. 학습 시 정보를 잊는다는 것을 극복하고자 “외부 저장소”라는걸 추가했다는 것이 제법 재밌는 생각인 것 같습니다. 1. Introduction…
[CVPR2025] CustomKD: Customizing Large Vision Foundation for Edge Model Improvement via Knowledge Distillation
이번에 소개드릴 논문은 퀄컴에서 작성한 논문이며, 퀄컴의 관심 분야답게 모델의 효율성을 위한 Knowledge Distillation을 목적으로 합니다. CVPR 참관하면서 포스터로 접하게 된 논문인데 컨셉이 그리 복잡하지…
[CVPR 2025] Ouroboros3D: Image-to-3D Generation via 3D-aware Recursive Diffusion
안녕하세요 이번주는 Image to 3D 논문을 읽어보았습니다. 현실을 시뮬레이터로 옮기는 Real to Sim의 자동화 방법을 고민하다 최근에 TRELLIS라는 모델의 데모를 해보면서 하나의 2D 이미지만 가지고…
[CVPR 2024]SAM-6D: Segment Anything Model Meets Zero-Shot 6D Object Pose Estimation
안녕하세요 4번째 논문리뷰입니다! 이번에 소개해드릴 논문은 2024 CVPR에 기재된 SAM-6D입니다. 6D Pose Estimation은 R(rotation),t(translation)을 동시에 추정하는 과제로 환경과 객체 특성에 따라 모델이 쉽게 overfitting되는 문제가…
[arXiv 2024]ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation
안녕하세요 이번에 들고온 리뷰할 논문은 Scale Depth 라는 논문입니다. 2024년 10월에 아카이브에 올라왔지만 아직 어느 학회에도 게재가 되지는 않은 논문입니다. 다른 Depth 논문들과는 다르게 이미지를…
[AAAI 2024](Oral) AnomalyGPT: Detecting Industrial Anomalies Using Large Vision-Language Models
안녕하세요, 예순 여섯번째 X-Review입니다. 이번 논문은 2024년도 AAAI에 올라온 AnomalyGPT: Detecting Industrial Anomalies Using Large Vision-Language Models입니다. 바로 시작하도록 하겠습니다. 1. Introduction 본 논문은 Large…
질문 감사합니다. φ_db와 φ_llm을 곱하는 게 아니 더하는 등의 다양한 조합에 대해서는 논문에 따로 언급하고있지 않습니다. (Supplementary Material에도 따로 없네요)…