Category: Paper

Paper Review

Posted in Paper X-Review

[WACV 2024]Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis

안녕하세요, 쉰 여덟번째 X-Review입니다. 이번 논문은 2024년도 WACV에 올라온 Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis논문입니다. 바로 시작하도록 하겠습니다. ? 1. Introduction…

Continue Reading
Posted in Paper X-Review

[WACV 2025(Oral)] Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think

안녕하세요, 62번째 x-review 입니다. 이번 논문은 WACV 2025 oral paper로 게재된 논문으로, 제가 최근에 읽었던 논문들과 동일하게 Marigold를 베이스로 하는 depth estimation 논문 입니다. 그럼…

Continue Reading
Posted in Paper X-Review

[arXiv 2025] Video-T1: Test-Time Scaling for Video Generation

안녕하세요 지금부터 비디오 생성의 퀄리티를 높이기 위해 Test-Time Scaling(TTS)을 어떻게 적용하는지를 다룬 논문을 소개하겠습니다. Test-Time Scaling은 추론 단계(test-time)에서 연산량과 같은 리소스를 확장(scaling)하여 예측의 품질을 개선하는…

Continue Reading
Posted in Paper X-Review

[CVPR 2022] DenseCLIP : Language-Guided Dense Prediction with Context-Aware Propmting

안녕하세요, 허재연입니다. 오늘 다룰 논문은 CLIP과 같은 image-text pair로 대규모 사전학습을 진행한 VLM모델들의 지식을 dense prediction task에 효율적으로 전이할 수 있는 방법을 제안한 논문입니다. 제안하는…

Continue Reading
Posted in Paper X-Review

[CVPR 2022] RegionCLIP: Region-based Language-Image Pretraining

안녕하세요 류지연입니다. 오늘 리뷰하려고 가져온 논문은 RegionCLIP입니다. 랩세미나에서 늘 CLIP이 언급돼서 늘 궁금했었는데요 동기 연구원의 기초교육 일정에 RegionCLIP 논문을 읽는 게 있어서 CLIP연구와 함께 기본이…

Continue Reading
Posted in Paper X-Review

[ICLR 2022] FILIP: FINE-GRAINED INTERACTIVE LANGUAGE-IMAGE PRE-TRAINING

안녕하세요, 허재연입니다. 이번 리뷰에서 다룰 논문은 보다 fine-grained 한 사전학습을 통해 FILIP이라는 새로운 VLM을 구축한 연구입니다. 리뷰 시작하겠습니다. Introduction CLIP, ALIGN과 같은 대규모 Vision-Language 사전학습법이…

Continue Reading
Posted in Paper X-Review

[ICCV 2023] A Simple Framework for Open-Vocabulary Segmentation and Detection (OpenSeeD)

안녕하세요, 허재연입니다. 이번 리뷰에서는 다룰 논문은 OpenSeeD라는, Open Vocabulary Segmentation과 Detection를 둘 다 수행할 수 있는 프레임워크를 제안한 논문입니다. 리뷰 시작하도록 하겠습니다. Introduction 대표적인 대규모…

Continue Reading
Posted in Paper X-Review

[arXiv 2025] Cooking Task Planning using LLM and Verified by Graph Network

이번 리뷰 논문의 유뷰트 보고 요리하는 로봇에 대해서 다루고자 합니다. 분야 관련 게시물들을 보다가 발견한 기사에서 해당 논문에 대해서 다루는 것을 보고 읽게 되었습니다. 기법은…

Continue Reading
Posted in Paper X-Review

[COLING 2025] Less is More: A Simple yet Effective Token Reduction Method for Efficient Multi-modal LLMs

안녕하세요. 제가 이번에 리뷰할 논문은 이전 리뷰인 두 PuMer, LLaVA-PruMerge을 읽고 이해하셨다면 저자의 새로운 기여는 하나 밖에 없습니다 (대부분은 이전 리뷰에서 차용해온 방식을 그대로 사용했습니다)….

Continue Reading
Posted in Paper X-Review

[ICCV 2023] CLIPTER: Looking at the Bigger Picture in Scene Text Recognition

안녕하세요, 쉰 일곱번째 X-Review입니다. 이번 논문은 2023년도 ICCV에 올라온 CLIPTER: Looking at the Bigger Picture in Scene Text Recognition논문입니다. 바로 시작하도록 하겠습니다. ? 1. Introduction…

Continue Reading