Paper – Robotics and Computer Vision Lab

[ICML 2026] Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

안녕하세요오늘은 ICML2026에 억셉된 논문이자 ICML참관했을때 주의깊게 봤던 포스터였던 논문인 Zooming without Zooming 논문을 리뷰해보겠습니다.들어가기에 앞서 간략하게 설명하자면 추론 과정에서 이미지의 작은 영역을 반복적으로 크롭하고 확대하는…

Paper X-Review

[ICLR 2021] AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

안녕하세요. 강희승입니다. 지난주 Transformer에 이어, Computer Vision 연구에 Transformer를 적용한 ViT에 대해서 리뷰하려고 합니다. ViT는 현재 VLM에서도 많이 채택되어 활용되기 때문에, 다시 한번 복습하고자 해당…

Paper X-Review

[RSS 2024] Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots

안녕하세요, 조성민입니다. 첫 글이다 보니 미숙한 점이 많을 것 같습니다. 내용 질문과 함께 글쓰기에 대한 피드백이 있다면 함께 댓글에 적어주시면 감사하겠습니다. 첫 리뷰를 어떤 논문으로…

Paper X-Review

[NIPS 2017] Attention Is All You Need

Context 안녕하세요, RCV 강희승 연구원입니다. ICML 이후 드디어 첫 X-review를 작성하게 되었습니다. RCV에 공식적으로 입실한 이후, 약 4개월이 지난 지금 기초교육 간 적지 않은 논문들을…

Paper X-Review

[ICML 2026] Position Is All You Need: A Free Lunch Token Compression Strategy for MLLM-based Referring Expression Segmentation

안녕하세요 이번에는 ICML 학회에 다녀오게 되면서 보게 된 포스터 논문 중 제가 연구하고 있는 분야와 동일 분야를 연구하고 있던 논문이 있어서 가져왔습니다. 기존에 VQA task…

Paper X-Review

[ICML 2026] Plug-and-Play Label Map Diffusion for Universal Goal-Oriented Navigation

안녕하세요. 이번에 리뷰로 가져온 논문은 ICML 2026에 올라온 Plug-and-Play Label Map Diffusion for Universal Goal-Oriented Navigation이라는 논문입니다. 해당 논문의 핵심 아이디어 같은 경우는 지금까지 리뷰했던…

Paper X-Review

[ICML2026]VideoKR: Towards Knowledge- and Reasoning-Intensive Video Understanding

본 논문은 새롭게 수집된 고품질의 QA 밴치마크 데이터셋을 제공하고, 이를 활용하였을때 모델의 성능이 개선됨을 통해 잘 구성된 데이터셋이 모델 성능 개선에 필수 요소임을 드러낸 연구입니다….

Paper X-Review

[AAAI 2026] Rethinking Visual Token Reduction in LVLMs Under Cross-Modal Misalignment

Abstract LVLMs 들은 visual 입력들을 dense 한 sequences 들의 패치들로 변환하여 미세한 semantics들을 포착한다고 합니다. 이러한 visual tokens 들은 textual tokens 들과 달리 토큰수가 많고…

Paper X-Review

[ECCV 2024] PALM : Predicting Actions through Language Models

안녕하세요, 이번에 리뷰할 논문은 action anticipation 이라는 task를 다루는 논문입니다. 창의학기제 논문이 마무리되는대로 본 연구 주제로 넘어갈 예정이라 입문할 겸 해서 읽어보게 되었습니다. Action Anticipation…

Paper X-Review

[RA-L 2025] GeNIE: A Generalizable Navigation System for In-the-Wild Environments

안녕하세요. 이번에 리뷰로 가져온 논문은 GeNIE: A Generalizable Navigation System for In-the-Wild Environments 라는 논문입니다. 해당 논문은 2025 IROS에서 열린 earth rover challenge라는 대회에서 우승한…

Category: Paper

[ICML 2026] Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

[ICLR 2021] AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

[RSS 2024] Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots

[NIPS 2017] Attention Is All You Need

[ICML 2026] Position Is All You Need: A Free Lunch Token Compression Strategy for MLLM-based Referring Expression Segmentation

[ICML 2026] Plug-and-Play Label Map Diffusion for Universal Goal-Oriented Navigation

[ICML2026]VideoKR: Towards Knowledge- and Reasoning-Intensive Video Understanding

[AAAI 2026] Rethinking Visual Token Reduction in LVLMs Under Cross-Modal Misalignment

[ECCV 2024] PALM : Predicting Actions through Language Models

[RA-L 2025] GeNIE: A Generalizable Navigation System for In-the-Wild Environments

Conference Deadline

NEW POST

New Comment