Category: X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[CoRL 2025] Planning from Point Clouds over Continuous Actions for Multi-object Rearrangement
안녕하세요. CoRL 2025 Oral, Planning & Safety & Robustness 세션에서 발표될 논문이라고 하여 관심을 가지고 읽어보게 되었습니다. 해당 세션에 유독 oral paper가 적었는데요. 이 논문은…
[ACCV2024]Vision language models are blind: Failing to translate detailed visual features into words
오늘은 앞서 리뷰한 VLM is biased? 라는 질문을 다룬 논문의 이전 논문을 소개하려합니다. 본 논문은 VLM이 이미지를 보고 대답할때 실제로 보고있는것인지 확인하기 위한 벤치마크를 제시합니다….
Improving Language Understanding by Generative Pre-Training
안녕하세요 황찬미입니다.첫 x-review로 GPT1에 대한 논문을 리뷰해보고자 합니다. 9월이 된 후로 LLM관련된 내용을 공부하는 중인데 대학생활을 함께한 GPT가 몇번이고 언급되길래 이 GPT…과연 어떻게 태어나게 된…
[CoRL 2025] O3Afford: One-Shot 3D Object-to-Object Affordance Grounding for Generalizable Robotic Manipulation
Abstract 로봇 조작에서 인지와 행동을 연결하기 위해 물체의 상호작용 영역을 인식하는 것은 중요합니다. 실제 세계에서의 상호작용은 두 물체 사이의 상호작용이지만, 기존 연구들은 단일 이미지에만 집중하여…
[CoRL 2025]One View, Many Worlds: Single-Image to 3D Object Meets Generative Domain Randomization for One-Shot 6D Pose Estimation
안녕하세요 9번째 X-review에서는 이번 CoRL 2025에 oral 로 채택된 6D논문입니다. 그럼 리뷰 바로 시작하도록 하겠습니다. Introduction Real world에서 하나의 객체에대해서 회전과 위치를 알기위해서 그 물체에…
[CVPR 2024] Open-Vocabulary Calibration for Fine-tuned CLIP
안녕하세요 이번에 들고온 논문은 Open-vocabulary 세팅에서 파인튜닝된 CLIP 이 가지는 confidence calibration 문제를 다룬 논문입니다. 바로 논문리뷰 시작하겠습니다. Abstract 비전 언어 모델들은 최근 다양한 Open…
[AAAI 2025]HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models
안녕하세요. 이번 주도 지난번 토큰 프루닝 관련 주제에 이어서 현재 제가 실험 중에 참고했던 논문 한 편을 소개해드리려고 합니다. 고해상도 이미지를 다루는 Vision-Language Model(VLM)이 점점…
[CVPR 2025] Object-aware Sound Source Localization via Audio-Visual Scene Understanding
안녕하세요. 이번 X-Review에서는 25년도 CVPR에 게재된 논문 <Object-aware Sound Source Localization via Audio-Visual Scene Understanding>을 소개해드리고자 합니다. Sound Source Localization이라는 task를 다루는 논문은 처음 읽어보는데요….
[ICCV2023] Reinforce Data, Multiply Impact: Improved Model Accuracy and Robustness with Dataset Reinforcement
이번에 소개드릴 논문은 2023 ICCV에 게재된 논문으로 애플에서 쓴 논문입니다. 원래는 애플에서 MobileCLIP2가 나왔다는 소식을 듣고 해당 논문을 읽으려고 했는데, 해당 논문에서 Reinforced training이라는 기법을…
[CoRL 2025(Oral)] X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real
안녕하세요, 이번주 X review는 real to sim to real을 주제로 작성한 논문입니다. 이번 2025년 CoRL의 Oral paper인데, 지난주와 마찬가지로 시뮬레이션환경, synthetic data를 어떤식으로 활용할 것인가?에…
안녕하세요 인하님 리뷰 읽어주셔서 감사합니다. 첫번째 질문에 대한 답으로는 해당 기법은 물체의 trajectory를 dense reward로 정의해서 강화학습을 통해서 manipulator가 trajectory를…