Category: Conference

Conference Reivew

Posted in Conference Paper X-Review

[ICCV 2025] SVTRv2: CTCBeats Encoder-Decoder Models in Scene Text Recognition

안녕하세요 2025년 ICCV에 accept된 Scene Text Recognition (STR) 논문 중 한 편인 SVTRv2을 가져왔습니다. 기존에 많이 사용됐던 CTC 기반의 방법론에 모듈을 추가해 트랜스포머 기반의 text…

Continue Reading
Posted in Conference X-Review

[CVPRw 2024] Strategies to Leverage Foundation Model Knowledge in Object Affordance Grounding

최근 미학습 물체 파지 과제를 위해 속성 정보를 이용하여 미학습 물체를 찾는 연구를 하고있었는데, 개인연구로 진행하던 affordance grounding에도 이러한 속성 정보를 활용한 연구가 나와 리뷰하게…

Continue Reading
Posted in Conference Paper X-Review

[ICLR 2025] Weakly Supervised Video Scene Graph Generation via Natural Language Supervision

안녕하세요, 허재연입니다. 지난 주에 이어서 Video SGG논문을 가져왔습니다. SGG쪽 연구를 꾸준히 하시던 저자들이 ICLR2025에 게재한 논문이고, LLM 기반의 Weakly Supervised Learning 기법을 제안한 논문이라 읽어보았습니다….

Continue Reading
Posted in Conference Paper X-Review

[CoRL 2024] 3D Diffuser Actor: Policy Diffusion with 3D Scene Representations

오랜만에 robot policy learning 논문을 가지고 왔습니다. 해당 기법은 3D Diffusion Policy와 유사하게 3차원 공간 정보를 활용하여 human demonstration에 대해 diffusion을 이용하여 모방하는 방법을 이용합니다….

Continue Reading
Posted in Conference X-Review

[ICRA 2025(Best Paper Finalist)]UAD: Unsupervised Affordance Distillation for Generalization in Robotic Manipulation

Abstract 개방형 작업 지시가 주어지는 비정형 환경에서 로봇이 물체를 조작하기 위해서는 세분화된 affordance를 이해하는 것이 필요하지만, 기존의 방식은 수동 annotatgion 정보나, 작업에 대하여 사전에 미리…

Continue Reading
Posted in Conference X-Review

[CVPR 2025] Language-Guided Image Tokenization for Generation

오늘부터는 CVPR 2025의 Oral 및 Highlight 논문들을 중심으로 다양한 연구를 리뷰해보려 합니다. 이번에 살펴볼 논문은 박성준 연구원의 CVPR 참관기 세미나에서 소개되었던 페이퍼로, 제가 집중하지 않는…

Continue Reading
Posted in Conference X-Review

[CVPR2025] NavigationWorld Models

이번에 소개드릴 논문은 CVPR2025에 게재된 논문으로 Visual Navigation task 관련 논문입니다. 메타, 뉴욕대, 버클리 AI research에서 작성한 논문이고 교신저자가 르쿤이 형이여서 그런지 포스터 섹션에서도 많은…

Continue Reading
Posted in Conference X-Review

[ECCV 2024] KDProR: A Knowledge-Decoupling Probabilistic Framework for Video-Text Retrieval

오늘도 CLIP 기반의 Video-Text Retrieval 에 대한 리뷰입니다. 학습 시 정보를 잊는다는 것을 극복하고자 “외부 저장소”라는걸 추가했다는 것이 제법 재밌는 생각인 것 같습니다. 1. Introduction…

Continue Reading
Posted in Conference X-Review

[CVPR2025] CustomKD: Customizing Large Vision Foundation for Edge Model Improvement via Knowledge Distillation

이번에 소개드릴 논문은 퀄컴에서 작성한 논문이며, 퀄컴의 관심 분야답게 모델의 효율성을 위한 Knowledge Distillation을 목적으로 합니다. CVPR 참관하면서 포스터로 접하게 된 논문인데 컨셉이 그리 복잡하지…

Continue Reading
Posted in Conference X-Review

[CVPR2025] Masking meets Supervision: A Strong Learning Alliance

이번에 리뷰로 작성할 논문은 CVPR2025에 게재된 논문으로 네이버 AI Lab에서 작성한 논문입니다. self-supervised learning에서 자주 소개되었던 Masked Image Modeling을 supervised learning framework에 적용하였을 때의 문제점을…

Continue Reading