Category: Paper

Paper Review

Posted in Paper X-Review

[arXiv 2025] Perfecting Depth: Uncetrainty-Aware Enhancement of Metric Depth

안녕하세요, 69번째 x-review 입니다. 이번 논문은 arXiv 2025년도에 올라온 Perfecting Depth라는 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction monoculdar depth estimation(MDE)는 아주 초기에는…

Continue Reading
Posted in Paper X-Review

[CVPR2023]Align and Attend: Multimodal Summarization with Dual Contrastive Losses

오늘 소개드릴 논문은 multimodal summarization 논문입니다. 논문이 말하길 기존 연구의 경우 멀티모달의 동시성있는 정보를 잘 활용하지 못했고, 데이터 내제적인(본질적인) 정보의 활용이 부족했다고 합니다. 본 논문은…

Continue Reading
Posted in Conference Paper X-Review

[NeurIPS 2021] Aligning Pretraining for Detection via Object-Level Contrastive Learning

1. Introduction 컵퓨터 비전 분야에서는 사전학습 후 파인튜닝하는 방법으로 딥러닝 모델을 학습시키는 게 보편적으로 사용이 되어왔습니다. ImageNet과 같이 대량의 데이터셋으로 사전학습한 가중치를 불러와 실제 수행하고자…

Continue Reading
Posted in Paper X-Review

[TPAMI 2024] Hi-SAM: Marrying Segment Anything Model for Hierarchical Text Segmentation

안녕하세요, 예순 세번째 X-Review입니다. 이번 논문은 2024년도 TPAMI에 올라온 Hi-SAM: Marrying Segment Anything Model for Hierarchical Text Segmentation입니다. 바로 시작하도록 하겠습니다. ? 1. Introduction Text는…

Continue Reading
Posted in Conference Paper X-Review

[IROS 2024] ShapeGrasp: Zero-Shot Task-Oriented Grasping with Large Language Models through Geometric Decomposition

이번 리뷰 논문은 VLM과 LLM을 이용하여 파지에 적합한 영역을 zero-shot으로 찾아내는 방법을 제시한 기법입니다. 특이한 점은 vision을 보지 못하는 텍스트 기반의 LLM을 활용합니다. (아마 시기적으로…

Continue Reading
Posted in Paper X-Review

[COLING 2025] Less is More: A Simple yet Effective Token Reduction Method for Efficient Multi-modal LLMs

안녕하세요. 이번 리뷰는 최근 연구 및 실험 중인 MLLM (LMM) Token Reduction에 관한 논문입니다. 요즘 “MLLM의 VG/Segmentation에서 Token Reduction 시 성능 및 효율성을 고려하는 방법”에…

Continue Reading
Posted in Paper X-Review

[arXiv 2025] Depth Anything with Any Prior

안녕하세요, 68번째 x-review 입니다. 이번 논문은 arXiv 2025년도에 올라온 Depth Anything with Any Prior라는 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction monocular depth…

Continue Reading
Posted in News Paper X-Review

[CVPR 2020] On Recognizing Texts of Arbitrary Shapes with 2D Self-Attention

안녕하세요 류지연입니다. 이번에도 Scene text recognition을 다루는 논문을 리뷰해보겠습니다. 지난주에 DiG를 리뷰했었는데요 사전학습된 인코더에 이 논문의 디코더를 붙여 파인튜닝을 해 recognition을 수행하더군요. TESTR에서의 recognition 방법과…

Continue Reading
Posted in Paper X-Review

[arXiv 2025]OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models

안녕하세요, 예순 두번째 X-Review입니다. 이번 논문은 2025년도 arXiv에 올라온 OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models입니다….

Continue Reading
Posted in Paper X-Review

[ICCV 2023] Visually-Prompted Language Model for Fine-Grained Scene Graph Generation in an Open World

안녕하세요, 허재연입니다. 지난주에 이어서 open-vocabulary scene graph generation(OV-SSG) 논문을 들고 왔습니다. SGG의 long-tailed distribution 문제를 LLM을 활용한 데이터 증강으로 완화한 논문으로, 해당 분야에서 나름 인용…

Continue Reading