Category: Paper

Paper Review

Posted in Paper X-Review

[2023 CVPR] VoP: Text-Video Co-operative Prompt Tuning for Cross-Modal Retrieval

안녕하세요. 그동안 MoE 관련 논문들을 집중적으로 살펴봤는데, 이제 본격적으로 Text-Video Retrieval(TVR) 모델에 MoE를 적용해보려고 합니다. 그래서 TVR 모델에 대해 다시 서베이를 진행하면서, 각 연구가 어떤…

Continue Reading
Posted in Paper X-Review

[arXiv 2025] FAST: Efficient Action Tokenization for Vision-Language-Action Models

이번에 들고 온 논문은 로봇 분야를 선도하고 있는 그룹은 Physical intelligence에서 공개한 VLA 모델 중 하나인 pi-zero의 후속 논문 FAST입니다. high-frequency를 가진 action을 효율적으로 학습하기…

Continue Reading
Posted in Paper X-Review

[WACV 2024]Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis

안녕하세요, 쉰 여덟번째 X-Review입니다. 이번 논문은 2024년도 WACV에 올라온 Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis논문입니다. 바로 시작하도록 하겠습니다. ? 1. Introduction…

Continue Reading
Posted in Paper X-Review

[WACV 2025(Oral)] Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think

안녕하세요, 62번째 x-review 입니다. 이번 논문은 WACV 2025 oral paper로 게재된 논문으로, 제가 최근에 읽었던 논문들과 동일하게 Marigold를 베이스로 하는 depth estimation 논문 입니다. 그럼…

Continue Reading
Posted in Paper X-Review

[arXiv 2025] Video-T1: Test-Time Scaling for Video Generation

안녕하세요 지금부터 비디오 생성의 퀄리티를 높이기 위해 Test-Time Scaling(TTS)을 어떻게 적용하는지를 다룬 논문을 소개하겠습니다. Test-Time Scaling은 추론 단계(test-time)에서 연산량과 같은 리소스를 확장(scaling)하여 예측의 품질을 개선하는…

Continue Reading
Posted in Paper X-Review

[CVPR 2022] DenseCLIP : Language-Guided Dense Prediction with Context-Aware Propmting

안녕하세요, 허재연입니다. 오늘 다룰 논문은 CLIP과 같은 image-text pair로 대규모 사전학습을 진행한 VLM모델들의 지식을 dense prediction task에 효율적으로 전이할 수 있는 방법을 제안한 논문입니다. 제안하는…

Continue Reading
Posted in Paper X-Review

[CVPR 2022] RegionCLIP: Region-based Language-Image Pretraining

안녕하세요 류지연입니다. 오늘 리뷰하려고 가져온 논문은 RegionCLIP입니다. 랩세미나에서 늘 CLIP이 언급돼서 늘 궁금했었는데요 동기 연구원의 기초교육 일정에 RegionCLIP 논문을 읽는 게 있어서 CLIP연구와 함께 기본이…

Continue Reading
Posted in Paper X-Review

[ICLR 2022] FILIP: FINE-GRAINED INTERACTIVE LANGUAGE-IMAGE PRE-TRAINING

안녕하세요, 허재연입니다. 이번 리뷰에서 다룰 논문은 보다 fine-grained 한 사전학습을 통해 FILIP이라는 새로운 VLM을 구축한 연구입니다. 리뷰 시작하겠습니다. Introduction CLIP, ALIGN과 같은 대규모 Vision-Language 사전학습법이…

Continue Reading
Posted in Paper X-Review

[ICCV 2023] A Simple Framework for Open-Vocabulary Segmentation and Detection (OpenSeeD)

안녕하세요, 허재연입니다. 이번 리뷰에서는 다룰 논문은 OpenSeeD라는, Open Vocabulary Segmentation과 Detection를 둘 다 수행할 수 있는 프레임워크를 제안한 논문입니다. 리뷰 시작하도록 하겠습니다. Introduction 대표적인 대규모…

Continue Reading
Posted in Paper X-Review

[arXiv 2025] Cooking Task Planning using LLM and Verified by Graph Network

이번 리뷰 논문의 유뷰트 보고 요리하는 로봇에 대해서 다루고자 합니다. 분야 관련 게시물들을 보다가 발견한 기사에서 해당 논문에 대해서 다루는 것을 보고 읽게 되었습니다. 기법은…

Continue Reading