[ICLR 2025] SINGAPO: SINGLE IMAGE CONTROLLED GENERATIONOF ARTICUALTED PARTS IN OBJECTS
안녕하세요 이번주 x-review는 image to 3D 논문입니다. 기존에 3D reconstruction을 진행하면서 3D-gaussian을 mesh화 한 뒤에 시뮬레이터를 위한 asset으로 활용하려고 했으나 gaussian -> mesh 과정에서 어려움이…
[CVPR2023]Align and Attend: Multimodal Summarization with Dual Contrastive Losses
오늘 소개드릴 논문은 multimodal summarization 논문입니다. 논문이 말하길 기존 연구의 경우 멀티모달의 동시성있는 정보를 잘 활용하지 못했고, 데이터 내제적인(본질적인) 정보의 활용이 부족했다고 합니다. 본 논문은…
[EMNLP 2024] LUQ: Long-text Uncertainty Quantification for LLMs
안녕하세요. 이번엔 LLM에서의 Hallucination 문제를 uncertainty score 개념을 기반으로 인지하고 이를 정량적으로 수치화한 뒤 증상을 완화하기 위한 방법론에 대해 리뷰를 가져왔습니다. 1. Introduction LLM은 다양한…
[CVPR 2025(Highlight)] OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints
Abstract 일반화된 로봇 시스템을 구축하는 것이 중요하며, VLM이 높은 시각적 추론 능력을 갖추고 있으나 세밀한 3D 공간에 대한 이해가 부족하여 로봇 manipulation으로의 직접적인 적용에는 어려움이…
[NeurIPS 2021] Aligning Pretraining for Detection via Object-Level Contrastive Learning
1. Introduction 컵퓨터 비전 분야에서는 사전학습 후 파인튜닝하는 방법으로 딥러닝 모델을 학습시키는 게 보편적으로 사용이 되어왔습니다. ImageNet과 같이 대량의 데이터셋으로 사전학습한 가중치를 불러와 실제 수행하고자…
[TPAMI 2024] Hi-SAM: Marrying Segment Anything Model for Hierarchical Text Segmentation
안녕하세요, 예순 세번째 X-Review입니다. 이번 논문은 2024년도 TPAMI에 올라온 Hi-SAM: Marrying Segment Anything Model for Hierarchical Text Segmentation입니다. 바로 시작하도록 하겠습니다. ? 1. Introduction Text는…
[IROS 2024] ShapeGrasp: Zero-Shot Task-Oriented Grasping with Large Language Models through Geometric Decomposition
이번 리뷰 논문은 VLM과 LLM을 이용하여 파지에 적합한 영역을 zero-shot으로 찾아내는 방법을 제시한 기법입니다. 특이한 점은 vision을 보지 못하는 텍스트 기반의 LLM을 활용합니다. (아마 시기적으로…
[COLING 2025] Less is More: A Simple yet Effective Token Reduction Method for Efficient Multi-modal LLMs
안녕하세요. 이번 리뷰는 최근 연구 및 실험 중인 MLLM (LMM) Token Reduction에 관한 논문입니다. 요즘 “MLLM의 VG/Segmentation에서 Token Reduction 시 성능 및 효율성을 고려하는 방법”에…
[arXiv 2025] Depth Anything with Any Prior
안녕하세요, 68번째 x-review 입니다. 이번 논문은 arXiv 2025년도에 올라온 Depth Anything with Any Prior라는 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction monocular depth…
[CVPR 2025] Rethinking Noisy Video-Text Retrieval via Relation-aware Alignment
오늘은 Video-Text Retrieval 중에서도, 비디오-텍스트 정렬이 맞지 않은 noisy한 상황에 집중한 논문에 대해 리뷰해보겠습니다. Conference: CVPR 2025 Authors: Huakai Lai, Guoxin Xiong, Huayu Mai, Xiang Liu,…
안녕하세요. 리뷰 읽어주셔서 감사합니다. 아, 네 제가 여태 몇 번 리뷰와 세미나를 이 주제로 하며 새로운 Pruning 전략이 아니면 짚고…