X-Review – Page 15 – Robotics and Computer Vision Lab

[CVPR 2024] Open-Vocabulary Calibration for Fine-tuned CLIP

안녕하세요 이번에 들고온 논문은 Open-vocabulary 세팅에서 파인튜닝된 CLIP 이 가지는 confidence calibration 문제를 다룬 논문입니다. 바로 논문리뷰 시작하겠습니다. Abstract 비전 언어 모델들은 최근 다양한 Open…

Paper X-Review

[AAAI 2025]HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models

안녕하세요. 이번 주도 지난번 토큰 프루닝 관련 주제에 이어서 현재 제가 실험 중에 참고했던 논문 한 편을 소개해드리려고 합니다. 고해상도 이미지를 다루는 Vision-Language Model(VLM)이 점점…

Paper X-Review

[CVPR 2025] Object-aware Sound Source Localization via Audio-Visual Scene Understanding

안녕하세요. 이번 X-Review에서는 25년도 CVPR에 게재된 논문 <Object-aware Sound Source Localization via Audio-Visual Scene Understanding>을 소개해드리고자 합니다. Sound Source Localization이라는 task를 다루는 논문은 처음 읽어보는데요….

Conference X-Review

[ICCV2023] Reinforce Data, Multiply Impact: Improved Model Accuracy and Robustness with Dataset Reinforcement

이번에 소개드릴 논문은 2023 ICCV에 게재된 논문으로 애플에서 쓴 논문입니다. 원래는 애플에서 MobileCLIP2가 나왔다는 소식을 듣고 해당 논문을 읽으려고 했는데, 해당 논문에서 Reinforced training이라는 기법을…

X-Review

[CoRL 2025(Oral)] X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real

안녕하세요, 이번주 X review는 real to sim to real을 주제로 작성한 논문입니다. 이번 2025년 CoRL의 Oral paper인데, 지난주와 마찬가지로 시뮬레이션환경, synthetic data를 어떤식으로 활용할 것인가?에…

X-Review

[Arxiv 2025] GAID: Frame-Level Gated Audio-Visual Integration with Directional Perturbation for Text-Video Retrieval

arxiv 구경하다 새로운 VTR 연구가 나와서 리뷰해보려고 합니다. 1. Introduction 텍스트-비디오 검색(T2VR)은 텍스트 쿼리에 맞는 영상을 찾아내는 기술로, 비디오 검색과 추천, 요약 등 다양한 서비스에서…

X-Review

[arxiv 2025.02] SOFAR: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation

manipulation task의 high-level planning 시 spatial 정보, 특히 semantic orientation 정보를 고려한 방법론을 들고 왔습니다. 복잡한 로봇 조작 액션을 위해선 ‘객체 중심의 의미론적 방향 이해’…

Paper X-Review

[arXiv 2024] Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG

현재 LLM은 Long-context 입력을 소화할 수 있는 수준으로 빠르게 발전하고 있습니다. 그러나 아직 완벽하지 않은데요, 비교적 짧은 입력만을 소화할 수 있던 기존의 LLM이 데이터베이스 외부의…

X-Review

[ArXiv 2025]Accurate and efficient Zero-shot 6D pose estimation with frozen foundation models

안녕하세요 8번째 X-Review 작성자 손우진입니다. 이번에 리뷰할 논문은 BoP challenge(Benchmark 6D object estimation) 상위권을 다 지배하고있는 방법론에 대해서 리뷰를 해볼까 합니다. 그럼 바로 리뷰시작 하도록…

X-Review

[NIPS2023] Self-Chained Image-Language Model for Video Localization and Question Answering

안녕하세요. 박성준 연구원입니다. 오늘도 Video Question Grounding 논문입니다. Introduction 비디오 정보와 자연어 정보를 같이 이해할 수 있는 Video-LM은 이미지-언어 모델인 Image-LM에 비해 더 높은 계산…

Category: X-Review

[CVPR 2024] Open-Vocabulary Calibration for Fine-tuned CLIP

[AAAI 2025]HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models

[CVPR 2025] Object-aware Sound Source Localization via Audio-Visual Scene Understanding

[ICCV2023] Reinforce Data, Multiply Impact: Improved Model Accuracy and Robustness with Dataset Reinforcement

[CoRL 2025(Oral)] X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real

[Arxiv 2025] GAID: Frame-Level Gated Audio-Visual Integration with Directional Perturbation for Text-Video Retrieval

[arxiv 2025.02] SOFAR: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation

[arXiv 2024] Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG

[ArXiv 2025]Accurate and efficient Zero-shot 6D pose estimation with frozen foundation models

[NIPS2023] Self-Chained Image-Language Model for Video Localization and Question Answering

Conference Deadline

NEW POST

New Comment