Author: 신 정민

Posted in X-Review

[Neurips2022] FlashAttention: Fast and Memory-Efficient Exact Attentionwith IO-Awareness

이번에 소개드릴 논문은 FlashAttention이라는 논문입니다. 사실 FlashAttention은 예전부터 경량화 관련된 논문을 읽으면 자주 등장했던 용어로 제가 관심을 가지고 있었는데 계속 미루고 미루다가 이번에 한번 읽어보게되었습니다….

Continue Reading
Posted in X-Review

[CVPR2024] Style Blind Domain Generalized Semantic Segmentation via Covariance Alignment and Semantic Consistence Contrastive Learning

이번에 소개드릴 논문은 CVPR2024에 게재된 논문으로 Domain Generalization for Semantic Segmentation 분야입니다. Intro Semantic Segmentation은 task 자체가 워낙 label annotation에 비용이 많이 드는 task입니다. 그래서…

Continue Reading
Posted in X-Review

SmolVLM: Redefining small and efficientmultimodal models

이번에 소개드릴 논문도 어쩌다보니 VLM 관련 논문입니다. 근데 이제 efficiency를 고려한. 무언가 의도한건 아니지만 자꾸 효율성을 강조하는 논문들을 찾아읽게되는 것 같네요 허허. 해당 논문은 아직…

Continue Reading
Posted in X-Review

VIRAL: Visual Representation Alignmentfor Multimodal Large Language Models

이번에 소개드릴 논문은 Multimodal Large Language Model(MLLM)에 대한 분석 실험을 한 논문으로 카이스트에서 작성한 논문입니다. 아직 어디 게재된 것 같지는 않고 arxiv만 올라온 논문이긴 합니다….

Continue Reading
Posted in Conference X-Review

[CVPR2024] MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training

이번에 소개드릴 논문은 CVPR2024에 게재된 MobileCLIP이라는 논문입니다. 지난주에 리뷰한 논문도 애플에서 쓴 논문이고 지금 소개드릴 논문도 애플의 논문입니다. 애플이 2023년도에 CVPR이었나 탑티어 학회에서 FastViT라는 논문을…

Continue Reading
Posted in Conference X-Review

[ICCV2023] Reinforce Data, Multiply Impact: Improved Model Accuracy and Robustness with Dataset Reinforcement

이번에 소개드릴 논문은 2023 ICCV에 게재된 논문으로 애플에서 쓴 논문입니다. 원래는 애플에서 MobileCLIP2가 나왔다는 소식을 듣고 해당 논문을 읽으려고 했는데, 해당 논문에서 Reinforced training이라는 기법을…

Continue Reading
Posted in Conference X-Review

[ICCV2025] FlashDepth: Real-time streaming Video Depth Estimation at 2K Resolution

이번에 소개드릴 논문은 Video Depth Estimation 논문입니다. 근데 이제 고해상도에 빠른 추론 속도를 곁드린. 보통 Depth estimation은 단일 프레임에 대해서 입력으로 하는 경우가 대부분이고 종종…

Continue Reading
Posted in Paper X-Review

DINOv3

이번에 소개드릴 논문은 최근에 공개된 DINOv3 입니다. DINOv2가 CV에서 엄청난 파급력이 있음은 잘 알려져있지만 그렇다고 이번에 새로 나온 DINOv3 논문 제목이 추가적인 부연 설명이나 내용…

Continue Reading
Posted in Conference X-Review

[ICCV2025] Mind the Gap: Aligning Vision Foundation Models to Image Feature Matching

이번에 소개드릴 논문은 ICCV2025에 게재된 논문으로 feature matching task를 다루고 있습니다. 제가 예전에 homography estimation 논문을 작성할 때 feature matching 방법론들 논문을 종종 보곤 했었는데…

Continue Reading
Posted in Conference X-Review

[CVPR2025] NVILA: Efficient Frontier Visual Language Models

오늘 소개드릴 논문은 CVPR2025에 게재된 NVIDIA 논문이고 제목에서도 보시면 아시다시피 효율적인 VLM을 만드는 방법에 대해서 소개하는 논문입니다. 근데 제가 논문을 검색해서 찾을 때는 CVPR 포멧이…

Continue Reading