[CVPR 2025(Highlight)] OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints
Abstract 일반화된 로봇 시스템을 구축하는 것이 중요하며, VLM이 높은 시각적 추론 능력을 갖추고 있으나 세밀한 3D 공간에 대한 이해가 부족하여 로봇 manipulation으로의 직접적인 적용에는 어려움이…
[NeurIPS 2021] Aligning Pretraining for Detection via Object-Level Contrastive Learning
1. Introduction 컵퓨터 비전 분야에서는 사전학습 후 파인튜닝하는 방법으로 딥러닝 모델을 학습시키는 게 보편적으로 사용이 되어왔습니다. ImageNet과 같이 대량의 데이터셋으로 사전학습한 가중치를 불러와 실제 수행하고자…
[TPAMI 2024] Hi-SAM: Marrying Segment Anything Model for Hierarchical Text Segmentation
안녕하세요, 예순 세번째 X-Review입니다. 이번 논문은 2024년도 TPAMI에 올라온 Hi-SAM: Marrying Segment Anything Model for Hierarchical Text Segmentation입니다. 바로 시작하도록 하겠습니다. ? 1. Introduction Text는…
[IROS 2024] ShapeGrasp: Zero-Shot Task-Oriented Grasping with Large Language Models through Geometric Decomposition
이번 리뷰 논문은 VLM과 LLM을 이용하여 파지에 적합한 영역을 zero-shot으로 찾아내는 방법을 제시한 기법입니다. 특이한 점은 vision을 보지 못하는 텍스트 기반의 LLM을 활용합니다. (아마 시기적으로…
[COLING 2025] Less is More: A Simple yet Effective Token Reduction Method for Efficient Multi-modal LLMs
안녕하세요. 이번 리뷰는 최근 연구 및 실험 중인 MLLM (LMM) Token Reduction에 관한 논문입니다. 요즘 “MLLM의 VG/Segmentation에서 Token Reduction 시 성능 및 효율성을 고려하는 방법”에…
[arXiv 2025] Depth Anything with Any Prior
안녕하세요, 68번째 x-review 입니다. 이번 논문은 arXiv 2025년도에 올라온 Depth Anything with Any Prior라는 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction monocular depth…
[CVPR 2025] Rethinking Noisy Video-Text Retrieval via Relation-aware Alignment
오늘은 Video-Text Retrieval 중에서도, 비디오-텍스트 정렬이 맞지 않은 noisy한 상황에 집중한 논문에 대해 리뷰해보겠습니다. Conference: CVPR 2025 Authors: Huakai Lai, Guoxin Xiong, Huayu Mai, Xiang Liu,…
[CVPR2022] Think Global, Act Local: Dual-scale Graph Transformer for vision-and-Language Navigation
오늘 리뷰 할 논문은 Vision-Language Navigation task를 다루는 논문으로 이쪽 분야에 대해서 처음 공부하다보니 모르는게 많아 리뷰 퀄리티가 낮을 수 있다는 점 양해부탁드립니다 허허. Intro…
[arXiv 2025] Scalable Real2Sim: Physics-Aware Asset Generation Via Robotic Pick-and-Place Setups
안녕하세요, 이번주 x-review는 Amazon Robotics에서 나온 시뮬레이터에서 활용 가능한 asset generation에 관한 논문입니다. 기존의 논문들과 다르게 3d reconstruction을 진행할 때 pick and place setup을 이용해…
ICRA 2025 참관기
제 연구실 생활동안 많은 시간을 갈아넣었던 연구가 ICRA 에 게재되게 되어 이를 계기로 5월 19 ~ 5/23, 총 5일간 미국 애틀란타에서 개최된 ICRA 2025 학회에…
안녕하세요 건화님 댓글 감사합니다. 제가 설명을 부정확하게 한 것 같습니다. 단일 RGB 이미지를 통해 3D mesh를 만들어내는 image to 3D모델을…