Category: X-Review

Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.

Posted in Conference Paper X-Review

[NeurIPS 2021] Aligning Pretraining for Detection via Object-Level Contrastive Learning

1. Introduction 컵퓨터 비전 분야에서는 사전학습 후 파인튜닝하는 방법으로 딥러닝 모델을 학습시키는 게 보편적으로 사용이 되어왔습니다. ImageNet과 같이 대량의 데이터셋으로 사전학습한 가중치를 불러와 실제 수행하고자…

Continue Reading
Posted in Paper X-Review

[TPAMI 2024] Hi-SAM: Marrying Segment Anything Model for Hierarchical Text Segmentation

안녕하세요, 예순 세번째 X-Review입니다. 이번 논문은 2024년도 TPAMI에 올라온 Hi-SAM: Marrying Segment Anything Model for Hierarchical Text Segmentation입니다. 바로 시작하도록 하겠습니다. ? 1. Introduction Text는…

Continue Reading
Posted in Conference Paper X-Review

[IROS 2024] ShapeGrasp: Zero-Shot Task-Oriented Grasping with Large Language Models through Geometric Decomposition

이번 리뷰 논문은 VLM과 LLM을 이용하여 파지에 적합한 영역을 zero-shot으로 찾아내는 방법을 제시한 기법입니다. 특이한 점은 vision을 보지 못하는 텍스트 기반의 LLM을 활용합니다. (아마 시기적으로…

Continue Reading
Posted in Paper X-Review

[COLING 2025] Less is More: A Simple yet Effective Token Reduction Method for Efficient Multi-modal LLMs

안녕하세요. 이번 리뷰는 최근 연구 및 실험 중인 MLLM (LMM) Token Reduction에 관한 논문입니다. 요즘 “MLLM의 VG/Segmentation에서 Token Reduction 시 성능 및 효율성을 고려하는 방법”에…

Continue Reading
Posted in Paper X-Review

[arXiv 2025] Depth Anything with Any Prior

안녕하세요, 68번째 x-review 입니다. 이번 논문은 arXiv 2025년도에 올라온 Depth Anything with Any Prior라는 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction monocular depth…

Continue Reading
Posted in Conference X-Review

[CVPR 2025] Rethinking Noisy Video-Text Retrieval via Relation-aware Alignment

오늘은 Video-Text Retrieval 중에서도, 비디오-텍스트 정렬이 맞지 않은 noisy한 상황에 집중한 논문에 대해 리뷰해보겠습니다. Conference: CVPR 2025 Authors: Huakai Lai, Guoxin Xiong, Huayu Mai, Xiang Liu,…

Continue Reading
Posted in Conference X-Review

[CVPR2022] Think Global, Act Local: Dual-scale Graph Transformer for vision-and-Language Navigation

오늘 리뷰 할 논문은 Vision-Language Navigation task를 다루는 논문으로 이쪽 분야에 대해서 처음 공부하다보니 모르는게 많아 리뷰 퀄리티가 낮을 수 있다는 점 양해부탁드립니다 허허. Intro…

Continue Reading
Posted in X-Review

[arXiv 2025] Scalable Real2Sim: Physics-Aware Asset Generation Via Robotic Pick-and-Place Setups

안녕하세요, 이번주 x-review는 Amazon Robotics에서 나온 시뮬레이터에서 활용 가능한 asset generation에 관한 논문입니다. 기존의 논문들과 다르게 3d reconstruction을 진행할 때 pick and place setup을 이용해…

Continue Reading
Posted in News Paper X-Review

[CVPR 2020] On Recognizing Texts of Arbitrary Shapes with 2D Self-Attention

안녕하세요 류지연입니다. 이번에도 Scene text recognition을 다루는 논문을 리뷰해보겠습니다. 지난주에 DiG를 리뷰했었는데요 사전학습된 인코더에 이 논문의 디코더를 붙여 파인튜닝을 해 recognition을 수행하더군요. TESTR에서의 recognition 방법과…

Continue Reading
Posted in X-Review

[ICLR 2025] Dense Video Object Captioning from Disjoint Supervision

안녕하세요. 박성준 연구원입니다. 오늘 리뷰는 ICLR 2025 스포트라이트에 선정된 구글 딥마인드 연구입니다. 본 연구는 dense video object captioning이라는 task를 다룬 연구입니다. 익숙한 키워드들이 포함되어 있는데…

Continue Reading