Category: Conference
Conference Reivew
[ICCV2023] Reinforce Data, Multiply Impact: Improved Model Accuracy and Robustness with Dataset Reinforcement
이번에 소개드릴 논문은 2023 ICCV에 게재된 논문으로 애플에서 쓴 논문입니다. 원래는 애플에서 MobileCLIP2가 나왔다는 소식을 듣고 해당 논문을 읽으려고 했는데, 해당 논문에서 Reinforced training이라는 기법을…
[ICCV2025] FlashDepth: Real-time streaming Video Depth Estimation at 2K Resolution
이번에 소개드릴 논문은 Video Depth Estimation 논문입니다. 근데 이제 고해상도에 빠른 추론 속도를 곁드린. 보통 Depth estimation은 단일 프레임에 대해서 입력으로 하는 경우가 대부분이고 종종…
[CoRL 2024(oral)] D3Fields: Dynamic 3D Descriptor Field for Zero-Shot Generalizable Rearrangement
Abstract scene representation은 로봇 조작에서 중요하며 다음 3가지 특성 3D, dynamic, semantic을 모두 만족하기를 바랍니다. 그러나 지금까지는 이러한 3가지 특성을 모두 가지는 representation이 없었으며 따라서…
[ICCV 2025] Selective Contrastive Learning for Weakly Supervised Affordance Grounding
Abstrcat 물체와의 상호작용을 위해서는 상호작용이 이루어지는 영역에 대하여 알아야 합니다. weakly-supervised affordance grounding(WSAG)은 사람의 학습 방식을 모방하여 제 3자가 물체와 상호작용하는 영상을 통해 픽셀 수준의…
[ICCV2025] Mind the Gap: Aligning Vision Foundation Models to Image Feature Matching
이번에 소개드릴 논문은 ICCV2025에 게재된 논문으로 feature matching task를 다루고 있습니다. 제가 예전에 homography estimation 논문을 작성할 때 feature matching 방법론들 논문을 종종 보곤 했었는데…
[CVPR2025] NVILA: Efficient Frontier Visual Language Models
오늘 소개드릴 논문은 CVPR2025에 게재된 NVIDIA 논문이고 제목에서도 보시면 아시다시피 효율적인 VLM을 만드는 방법에 대해서 소개하는 논문입니다. 근데 제가 논문을 검색해서 찾을 때는 CVPR 포멧이…
[ICCV 2025]A0: An Affordance-Aware Hierarchical Model for General Robotic Manipulation
제가 이번에 리뷰할 논문은 ICCV 2025에 paper list에 있는 논문입니다. 2단계로 이루어져서 affordance를 찾고 그에 대한 action을 생성하는 과정으로 이루어집니다. affordance learning이 실제 application에 적용되도록…
[CVPR2025] GeoDepth
이번에 리뷰로 작성할 논문은 CVPR2025에 게재된 GeoDepth라는 논문이며, 해당 논문은 self-supervised monocular depth estimation task를 다루고 있습니다. Intro 지난번 리뷰에서도 마찬가지로 self-supervised monocular depth estimation(SDE)는…
[ICCV 2023] Dynamic Token Pruning in Plain Vision Transformers for Semantic Segmentation
안녕하세요. 이번 논문은 Segmentation 태스크에서 Token Pruning을 수행한 연구로, MLLM은 아니지만 현재 제가 연구하고 있는 분야가 MLLM을 활용한 Segmentation에서의 Token Pruning이기에 “Token Pruning이 Segmentation에 적용될…
[ICCV 2025] SVTRv2: CTCBeats Encoder-Decoder Models in Scene Text Recognition
안녕하세요 2025년 ICCV에 accept된 Scene Text Recognition (STR) 논문 중 한 편인 SVTRv2을 가져왔습니다. 기존에 많이 사용됐던 CTC 기반의 방법론에 모듈을 추가해 트랜스포머 기반의 text…
안녕하세요 현우님! 좋은 리뷰 감사합니다. 질문 하나 드리고자 합니다. Local branch는 질문에 따라 필요한 정보를 동적으로 추출해야 하는 곳인데, 여기서…