Recent Posts

Posted in X-Review

[CoRL 2025] Planning from Point Clouds over Continuous Actions for Multi-object Rearrangement

안녕하세요. CoRL 2025 Oral, Planning & Safety & Robustness 세션에서 발표될 논문이라고 하여 관심을 가지고 읽어보게 되었습니다. 해당 세션에 유독 oral paper가 적었는데요. 이 논문은…

Continue Reading
Posted in Paper X-Review

[ACCV2024]Vision language models are blind: Failing to translate detailed visual features into words

오늘은 앞서 리뷰한 VLM is biased? 라는 질문을 다룬 논문의 이전 논문을 소개하려합니다. 본 논문은 VLM이 이미지를 보고 대답할때 실제로 보고있는것인지 확인하기 위한 벤치마크를 제시합니다….

Continue Reading
Posted in Paper X-Review

Improving Language Understanding by Generative Pre-Training

안녕하세요 황찬미입니다.첫 x-review로 GPT1에 대한 논문을 리뷰해보고자 합니다. 9월이 된 후로 LLM관련된 내용을 공부하는 중인데 대학생활을 함께한 GPT가 몇번이고 언급되길래 이 GPT…과연 어떻게 태어나게 된…

Continue Reading
Posted in Conference X-Review

[CoRL 2025] O3Afford: One-Shot 3D Object-to-Object Affordance Grounding for Generalizable Robotic Manipulation

Abstract 로봇 조작에서 인지와 행동을 연결하기 위해 물체의 상호작용 영역을 인식하는 것은 중요합니다. 실제 세계에서의 상호작용은 두 물체 사이의 상호작용이지만, 기존 연구들은 단일 이미지에만 집중하여…

Continue Reading
Posted in X-Review

[CoRL 2025]One View, Many Worlds: Single-Image to 3D Object Meets Generative Domain Randomization for One-Shot 6D Pose Estimation

안녕하세요 9번째 X-review에서는 이번 CoRL 2025에 oral 로 채택된 6D논문입니다. 그럼 리뷰 바로 시작하도록 하겠습니다. Introduction Real world에서 하나의 객체에대해서 회전과 위치를 알기위해서 그 물체에…

Continue Reading
Posted in Paper X-Review

[CVPR 2024] Open-Vocabulary Calibration for Fine-tuned CLIP

안녕하세요 이번에 들고온 논문은 Open-vocabulary 세팅에서 파인튜닝된 CLIP 이 가지는 confidence calibration 문제를 다룬 논문입니다. 바로 논문리뷰 시작하겠습니다. Abstract 비전 언어 모델들은 최근 다양한 Open…

Continue Reading
Posted in Paper X-Review

[AAAI 2025]HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models

안녕하세요. 이번 주도 지난번 토큰 프루닝 관련 주제에 이어서 현재 제가 실험 중에 참고했던 논문 한 편을 소개해드리려고 합니다. 고해상도 이미지를 다루는 Vision-Language Model(VLM)이 점점…

Continue Reading
Posted in Paper X-Review

[CVPR 2025] Object-aware Sound Source Localization via Audio-Visual Scene Understanding

안녕하세요. 이번 X-Review에서는 25년도 CVPR에 게재된 논문 <Object-aware Sound Source Localization via Audio-Visual Scene Understanding>을 소개해드리고자 합니다. Sound Source Localization이라는 task를 다루는 논문은 처음 읽어보는데요….

Continue Reading
Posted in Conference X-Review

[ICCV2023] Reinforce Data, Multiply Impact: Improved Model Accuracy and Robustness with Dataset Reinforcement

이번에 소개드릴 논문은 2023 ICCV에 게재된 논문으로 애플에서 쓴 논문입니다. 원래는 애플에서 MobileCLIP2가 나왔다는 소식을 듣고 해당 논문을 읽으려고 했는데, 해당 논문에서 Reinforced training이라는 기법을…

Continue Reading
Posted in X-Review

[CoRL 2025(Oral)] X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real

안녕하세요, 이번주 X review는 real to sim to real을 주제로 작성한 논문입니다. 이번 2025년 CoRL의 Oral paper인데, 지난주와 마찬가지로 시뮬레이션환경, synthetic data를 어떤식으로 활용할 것인가?에…

Continue Reading