신 정민 – Robotics and Computer Vision Lab

홍 주영 on [ICML 2026] Are Object-Centric Representations Better At Compositional Generalization?07/27/2026
Q1. k-means 실험의 목적? >> DINOv2+k-means와 DINOv2+CA는 DINOSAURv2의 장점이 단순히 token을 줄였기 때문인지 확인하는 비교 실험입니다. 아마 리뷰어가 "그냥 토큰…
이 예은 on [arXiv 2025] UniFGVC: Universal Training-Free Few-Shot Fine-Grained Visual Classification via Attribute-Aware Multimodal Retrieval07/27/2026
안녕하세요 주영님! 댓글 감사드립니다. 질문주신 것과 관련된 실험들이 있었는데, 리뷰에는 담지 못한 것 같아 댓글로 설명드리고자 합니다. 잘못된(판별력 있는 description…
이 예은 on [arXiv 2025] UniFGVC: Universal Training-Free Few-Shot Fine-Grained Visual Classification via Attribute-Aware Multimodal Retrieval07/27/2026
안녕하세요 주연님 댓글 감사합니다! 저도 학습없이 fine-grained class에 대해 discriminative한 캡션을 잘~뽑아서 classification 성능을 올린다는 점에서 이 논문을 재미있게 읽은…
이 예은 on [arXiv 2025] UniFGVC: Universal Training-Free Few-Shot Fine-Grained Visual Classification via Attribute-Aware Multimodal Retrieval07/27/2026
안녕하세요 승현님 댓글 감사합니다! Q1) Category-Discriminative Visual Captioner과정에서, 타겟 이미지와 시각적으로 유사한 t개의 샘플을 선택한다고 하셨는데, 클래스당 K개의 이미지로 구성된다면…
홍 주영 on ICML 2026 참관기07/27/2026
특정 대화 하나보다는, 저자들이 후속 연구와 현재 방법의 한계를 솔직하게 설명해주셨던 순간들이 기억에 남습니다. 논문에 적힌 결과보다 저자들이 실제로 중요하게…

Author: 신 정민

[CVPR2025] Video Depth Anything

[ICLR2026] DIFFUSION TRANSFORMERS WITH REPRESENTATION AUTOENCODERS

Exclusive Self-Attention

[CVPR2026] Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model

[ECCV2024] Self-Supervised Any-Point Tracking by Contrastive Random Walks

MineWorld: A real-time and open-source interactive world model on minecraft.

[RA-L2025] VL-TGS: Trajectory Generation and Selection Using Vision Language Models in Mapless Outdoor Environments

[NeurIPS2025] MoGe-2: Accurate Monocular Geometry with Metric Scale and Sharp Details

[ICCV2025] SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts

[ICCV2025] Rethinking the Embodied Gap in Vision-and-Language Navigation: A Holistic Study of Physical and Visual Disparities

Conference Deadline

NEW POST

New Comment