[카테고리:] X-Review

Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.

Posted in Paper X-Review

[CVPR 2022] Text Spotting Transformers

안녕하세요 류지연입니다.저는 이번주부터 Text Spotting이란 새로운 task에 대한 논문을 보고 있습니다. Text Spotting은 이미지 속 단어들의 위치를 찾고 각 단어를 인식하는 task를 말합니다. 자율주행 환경에서…

Continue Reading
Posted in Paper X-Review

[CVPR2024]Scaling Up Video Summarization Pretraining with Large Language Models

최근 LLMs(Large Language Models)을 활용해 다양한 테스크를 수행하기 위해 맞춤형 학습 방법을 제안하는 연구가 활발하게 진행되고 있습니다. LLMs은 대용량의 데이터를 학습하여 상식을 포함한 인간의 추론…

Continue Reading
Posted in Conference X-Review

[CVPR 2025]VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation

Abstract 로봇은 미래에 다양한 작업을 수행할 수 있을 것으로 기대가 되지만, 확장성이 떨어지는 physical robot 학습을 최소화하면서 학습 환경과 실제 환경의 간극을 어떻게 줄일 수…

Continue Reading
Posted in Paper X-Review

[TPAMI 2025] Instruction-Guided Scene Text Recognition

안녕하세요, 쉰 아홉번째 X-Review입니다. 이번 논문은 2025년도 TPAMI에 올라온 Instruction-Guided Scene Text Recognition논문입니다. 바로 시작하도록 하겠습니다. 🫎 1. Introduction Scene Text Recognition은 scene image내의 text를…

Continue Reading
Posted in Paper X-Review

[arXiv 2025.02] Token Pruning in Multimodal Large Language Models: Are We Solving the Right Problem?

안녕하세요. 이번에는 MLLM의 Token Pruning에 대한 분석을 담은 논문을 들고 왔습니다. 본 논문을 읽게 된 계기가 참 긴데, 현재 제가 진행 중인 실험과 연관되어 있습니다….

Continue Reading
Posted in Conference X-Review

[CVPR 2025] Video-ColBERT: Contextualized Late Interaction for Text-to-Video Retrieval

오늘도 Video-Text Retrieval 논문에 대해 리뷰해보겠습니다. Conference: CVPR 2025 Authors: Arun Reddy, Alexander Martin, Eugene Yang, Andrew Yates, Kate Sanders, Kenton Murray, Reno Kriz, Celso M….

Continue Reading
Posted in X-Review

[CoRL 2022] BEHAVIOR-1K: A Benchmark for Embodied AI with 1,000 Everyday Activities and Realistic Simulation

안녕하세요, 이번주엔 여태까지 진행하던 강화학습 논문들 리뷰를 접어두고 Embodied AI를 위한 벤치마크 논문을 가지고 왔습니다. BEHAVIOR-1K는 comprehensive 한 시뮬레이션 벤치마크로, BEHAVIOR-1K 데이터셋과 OmniGibson이라는 시뮬레이션을 지원한다는…

Continue Reading
Posted in Paper X-Review

[arXiv 2025] All-day Depth Completion via Thermal-LiDAR Fusion

안녕하세요, 63번째 x-review 입니다. 이번 논문은 4월 초에 arXiv에 올라온 따끈따끈한 논문으로, depth completion에 열화상을 처음으로 적용한 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1….

Continue Reading
Posted in Conference X-Review

[CVPR 2025]Grounding 3D Object Affordance with Language Instructions, Visual Observations and Interactions

제가 이번에 리뷰할 논문도 3D 모델에 대한 affordance를 추정하는 논문입니다. CVPR 2025 논문이라합니다. Abstract 3D affordance grounding는 3차원 공간에서 물체를 조작하기 위해 대응되는 영역을 찾는…

Continue Reading
Posted in X-Review

[CVPR2023] Finetune like you pretrain: Improved finetuning of zero-shot vision models

안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 Finetune Like You Pretrain(FLYP)로 대규모 이미지-텍스트 사전학습 모델의 미세조정 방법을 다룬 연구입니다. Introduction 대규모 이미지-텍스트 사전학습 모델인 CLIP의 등장…

Continue Reading