Paper – Page 5 – Robotics and Computer Vision Lab

[ICCV 2025] Beyond Text-Visual Attention: Exploiting Visual Cues for Effective Token Pruning in VLMs

안녕하세요 이번에 들고온 논문은 VLM 에서의 Token pruning 논문입니다. 다음연구로 VLM 에서의 visual token을 어떻게 잘 pruning 하거나 기존 방법론들을 분석해서 왜 잘되거나 잘 안되는지를…

Paper X-Review

[ICLR 2024] CLIPSELF: VISION TRANSFORMER DISTILLS ITSELF FOR OPEN-VOCABULARY DENSE PREDICTION

안녕하세요, 오늘은 ICLR 2024 Spotlight 논문인 CLIPself를 리뷰해 보려고 합니다. object detection 논문인 만큼 아마 많은 분들이 흥미롭게 읽을 수 있는 논문이지 않으까 싶네요. CLIP이…

Paper X-Review

[arXiv]On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models

안녕하세요. 오늘은 지난번 세미나에서 소개해 드린 강화학습에서의 entropy dynamic을 정리한 논문을 소개해 드리려고 합니다. 지난번 세미나에서는 제가 설명을 너무 어렵게 드렸는데요. 오늘은 세미나에서 받은 질문을…

Paper X-Review

[arXiv 2026]Bridging the Indoor-Outdoor Gap Vision-Centric Instruction-Guided Embodied Navigation

안녕하세요. 이번에 리뷰할 논문은 중국의 알리바바 그룹 AMAP랩에서 작성한 Bridging the Indoor-Outdoor Gap: Vision-Centric Instruction-Guided Embodied Navigation이라는 논문 입니다. 실제 로봇 배달이나 라스트마일 시나리오를 생각해보면…

Paper X-Review

[RSS 2024] MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting

こんにちは！ 오늘은 기존의 VLA랑은 좀 다른 VLA 분야를 가져와봤습니다. 제가 평소에 보던 VLA는 action head 가 붙어있는 VLA였는데, 제가 우편물 잡기 Task를 수행하면서 보니 로봇…

Paper X-Review

[ICCV 2023] Adding Conditional Control to Text-to-Image Diffusion Models

안녕하세요!오늘은 지난주에 이어 stable diffusion 기반 이미지 생성에서 구조적인 조건을 효과적으로 반영할 수 있게 해주는 대표적인 네트워크인 ControlNet에 대해 리뷰해보겠습니다! 그럼 리뷰 바로 시작하겠습니다! Intro…

Paper X-Review

[AAAI 2026] SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection

안녕하세요, 오늘 리뷰할 논문은 AAAI 2026 Oral 논문인 SM3Det 입니다. LVU 논문 작업 이후 다시 저희 팀 기업 과제 팔로우업과 창의학기제를 겸해서 SAR Object Detection…

Paper X-Review

[ICRL 2026] HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model

안녕하세요. 오늘은 HybridVLA에 대해서 소개드리겠습니다. VLA를 많이 알아보고 있는 편임에도 불구하고 계속 새로운 모델이 나오고 있는데, 검색을 하면서 발견하여서 어떤 부분이 다를까? diffusion과 autoregressive? 내용에…

Paper X-Review

[ICCV 2025] Is CLIP ideal? No. Can we fix it? Yes!

안녕하세요 이번에 가져온 논문은 다들 알고는 있는 CLIP 의 잠재 공간이 복잡한 시각-텍스트 상호작용을 못한다는 것을 밝히고 해결까지한 논문입니다. 처음 읽게된 이유는 흥미로운 제목과 요즘…

Paper X-Review

[AAAI 2026]UrbanNav: Learning Language-Guided Urban Navigation from Web-Scale Human Trajectories

안녕하세요 제가 이번에 리뷰할 논문은 UrbanNAV라는 논문입니다. 저번에 CityWalker라는 논문을 리뷰하고 세미나를 했던 적이 있는데 UrbanNav 저자들은 이 Citywalker 논문을 베이스로 잡아서 기존 Citywalker에서 저자들이…

Category: Paper

[ICCV 2025] Beyond Text-Visual Attention: Exploiting Visual Cues for Effective Token Pruning in VLMs

[ICLR 2024] CLIPSELF: VISION TRANSFORMER DISTILLS ITSELF FOR OPEN-VOCABULARY DENSE PREDICTION

[arXiv]On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models

[arXiv 2026]Bridging the Indoor-Outdoor Gap Vision-Centric Instruction-Guided Embodied Navigation

[RSS 2024] MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting

[ICCV 2023] Adding Conditional Control to Text-to-Image Diffusion Models

[AAAI 2026] SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection

[ICRL 2026] HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model

[ICCV 2025] Is CLIP ideal? No. Can we fix it? Yes!

[AAAI 2026]UrbanNav: Learning Language-Guided Urban Navigation from Web-Scale Human Trajectories

Conference Deadline

NEW POST

New Comment