Author: 신 정민
[NeurIPS2025] MoGe-2: Accurate Monocular Geometry with Metric Scale and Sharp Details
Intro 본 논문의 task는 단안 영상을 입력으로 받아 깊이를 추정하는 task로 DepthAnything 시리즈나 marigold와 같은 foundation model에 관한 논문입니다. 저자들은 이상적인 Depth foundation 모델이 갖춰야…
2025년을 마치며
안녕하세요. 2025년도 한 해를 마무리하면서 올 한 해를 되돌아보고 2026년을 어떻게 맞이하면 좋을지에 대해 글을 작성하고자 합니다. 어떻게 글을 작성하면 좋을까 고민을 해봤는데 딱히 좋은…
[ICCV2025] SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts
Intro 최근 비전-언어 네비게이션(Vision-and-Language Navigation) 분야는 다양한 태스크로 분화되었습니다. 저자들은 이를 언어 지시어의 세밀함(Granularity)에 따라 크게 두 가지로 분류합니다. 이들은 겉보기에 다른 목표를 가진 것처럼…
[ICCV2025] Rethinking the Embodied Gap in Vision-and-Language Navigation: A Holistic Study of Physical and Visual Disparities
Intro 최근 Vision-and-Language Navigation (VLN) 분야는 괄목할 만한 성장을 이루었지만, 여전히 시뮬레이션 모델과 실제 로봇 배포 환경 사이에는 큰 격차가 존재합니다. 기존 연구들은 로봇의 움직임과…
[Neurips2022] FlashAttention: Fast and Memory-Efficient Exact Attentionwith IO-Awareness
이번에 소개드릴 논문은 FlashAttention이라는 논문입니다. 사실 FlashAttention은 예전부터 경량화 관련된 논문을 읽으면 자주 등장했던 용어로 제가 관심을 가지고 있었는데 계속 미루고 미루다가 이번에 한번 읽어보게되었습니다….
[CVPR2024] Style Blind Domain Generalized Semantic Segmentation via Covariance Alignment and Semantic Consistence Contrastive Learning
이번에 소개드릴 논문은 CVPR2024에 게재된 논문으로 Domain Generalization for Semantic Segmentation 분야입니다. Intro Semantic Segmentation은 task 자체가 워낙 label annotation에 비용이 많이 드는 task입니다. 그래서…
SmolVLM: Redefining small and efficientmultimodal models
이번에 소개드릴 논문도 어쩌다보니 VLM 관련 논문입니다. 근데 이제 efficiency를 고려한. 무언가 의도한건 아니지만 자꾸 효율성을 강조하는 논문들을 찾아읽게되는 것 같네요 허허. 해당 논문은 아직…
VIRAL: Visual Representation Alignmentfor Multimodal Large Language Models
이번에 소개드릴 논문은 Multimodal Large Language Model(MLLM)에 대한 분석 실험을 한 논문으로 카이스트에서 작성한 논문입니다. 아직 어디 게재된 것 같지는 않고 arxiv만 올라온 논문이긴 합니다….
[CVPR2024] MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training
이번에 소개드릴 논문은 CVPR2024에 게재된 MobileCLIP이라는 논문입니다. 지난주에 리뷰한 논문도 애플에서 쓴 논문이고 지금 소개드릴 논문도 애플의 논문입니다. 애플이 2023년도에 CVPR이었나 탑티어 학회에서 FastViT라는 논문을…
[ICCV2023] Reinforce Data, Multiply Impact: Improved Model Accuracy and Robustness with Dataset Reinforcement
이번에 소개드릴 논문은 2023 ICCV에 게재된 논문으로 애플에서 쓴 논문입니다. 원래는 애플에서 MobileCLIP2가 나왔다는 소식을 듣고 해당 논문을 읽으려고 했는데, 해당 논문에서 Reinforced training이라는 기법을…
좋은 리뷰 감사합니다. 분석 논문이라 재밌게 읽었네요. 쭉 읽다보면 전반적으로 internVL에 대한 실험 결과이고, appendix에 LLaVA에 대한 결과가 나와있는 것으로…