Category: Conference
Conference Reivew
[ICRA 2025] RT-Affordance: Affordances are Versatile Intermediate Representations for Robot Manipulation
구글 딥마인드에서 ICRA 2025에 게재한 방법론으로 affordance가 실제 로봇 작업에서 어떻게 활용 가능할 지 연구한 논문입니다. Abstract 해당 연구는 로봇 조작의 일반화를 위한 intermediate policy…
[CVPR2024] MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training
이번에 소개드릴 논문은 CVPR2024에 게재된 MobileCLIP이라는 논문입니다. 지난주에 리뷰한 논문도 애플에서 쓴 논문이고 지금 소개드릴 논문도 애플의 논문입니다. 애플이 2023년도에 CVPR이었나 탑티어 학회에서 FastViT라는 논문을…
[CVPR 2024] OED: Towards One-stage End-to-End Dynamic Scene Graph Generation
안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 CVPR 2024에 게재된 논문으로, DETR 구조를 기반으로 Video Scene Graph Generation을 수행한 논문입니다. 리뷰 시작하도록 하겠습니다. Introduction Scene Graph Generation은…
[CoRL 2025] O3Afford: One-Shot 3D Object-to-Object Affordance Grounding for Generalizable Robotic Manipulation
Abstract 로봇 조작에서 인지와 행동을 연결하기 위해 물체의 상호작용 영역을 인식하는 것은 중요합니다. 실제 세계에서의 상호작용은 두 물체 사이의 상호작용이지만, 기존 연구들은 단일 이미지에만 집중하여…
[ICCV2023] Reinforce Data, Multiply Impact: Improved Model Accuracy and Robustness with Dataset Reinforcement
이번에 소개드릴 논문은 2023 ICCV에 게재된 논문으로 애플에서 쓴 논문입니다. 원래는 애플에서 MobileCLIP2가 나왔다는 소식을 듣고 해당 논문을 읽으려고 했는데, 해당 논문에서 Reinforced training이라는 기법을…
[ICCV2025] FlashDepth: Real-time streaming Video Depth Estimation at 2K Resolution
이번에 소개드릴 논문은 Video Depth Estimation 논문입니다. 근데 이제 고해상도에 빠른 추론 속도를 곁드린. 보통 Depth estimation은 단일 프레임에 대해서 입력으로 하는 경우가 대부분이고 종종…
[CoRL 2024(oral)] D3Fields: Dynamic 3D Descriptor Field for Zero-Shot Generalizable Rearrangement
Abstract scene representation은 로봇 조작에서 중요하며 다음 3가지 특성 3D, dynamic, semantic을 모두 만족하기를 바랍니다. 그러나 지금까지는 이러한 3가지 특성을 모두 가지는 representation이 없었으며 따라서…
[ICCV 2025] Selective Contrastive Learning for Weakly Supervised Affordance Grounding
Abstrcat 물체와의 상호작용을 위해서는 상호작용이 이루어지는 영역에 대하여 알아야 합니다. weakly-supervised affordance grounding(WSAG)은 사람의 학습 방식을 모방하여 제 3자가 물체와 상호작용하는 영상을 통해 픽셀 수준의…
[ICCV2025] Mind the Gap: Aligning Vision Foundation Models to Image Feature Matching
이번에 소개드릴 논문은 ICCV2025에 게재된 논문으로 feature matching task를 다루고 있습니다. 제가 예전에 homography estimation 논문을 작성할 때 feature matching 방법론들 논문을 종종 보곤 했었는데…
[CVPR2025] NVILA: Efficient Frontier Visual Language Models
오늘 소개드릴 논문은 CVPR2025에 게재된 NVIDIA 논문이고 제목에서도 보시면 아시다시피 효율적인 VLM을 만드는 방법에 대해서 소개하는 논문입니다. 근데 제가 논문을 검색해서 찾을 때는 CVPR 포멧이…
안녕하세요 우현님 글 읽어주셔서 감사합니다. 우선 human video는 여러 형태로 존재할 수 있지만 제가 학회에 참석하면서 본 거의 대부분의 human…