Paper – Page 17 – Robotics and Computer Vision Lab

[TPAMI 2025] Instruction-Guided Scene Text Recognition

안녕하세요, 쉰 아홉번째 X-Review입니다. 이번 논문은 2025년도 TPAMI에 올라온 Instruction-Guided Scene Text Recognition논문입니다. 바로 시작하도록 하겠습니다. ? 1. Introduction Scene Text Recognition은 scene image내의 text를…

Paper X-Review

[arXiv 2025.02] Token Pruning in Multimodal Large Language Models: Are We Solving the Right Problem?

안녕하세요. 이번에는 MLLM의 Token Pruning에 대한 분석을 담은 논문을 들고 왔습니다. 본 논문을 읽게 된 계기가 참 긴데, 현재 제가 진행 중인 실험과 연관되어 있습니다….

Paper X-Review

[arXiv 2025] All-day Depth Completion via Thermal-LiDAR Fusion

안녕하세요, 63번째 x-review 입니다. 이번 논문은 4월 초에 arXiv에 올라온 따끈따끈한 논문으로, depth completion에 열화상을 처음으로 적용한 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1….

Paper X-Review

[CVPR 2013] All about VLAD

안녕하세요 류지연입니다. 한주 간 VLAD로 이미지 분류 성능을 개선시키는 것을 진행했습니다. 본 연구에서 제안하는 방법론을 적용했습니다. 한주를 마무리하며 연구에서 제안하는 방법론들에 대해 정리하고자 해당 논문으로…

Paper X-Review

[2023 CVPR] VoP: Text-Video Co-operative Prompt Tuning for Cross-Modal Retrieval

안녕하세요. 그동안 MoE 관련 논문들을 집중적으로 살펴봤는데, 이제 본격적으로 Text-Video Retrieval(TVR) 모델에 MoE를 적용해보려고 합니다. 그래서 TVR 모델에 대해 다시 서베이를 진행하면서, 각 연구가 어떤…

Paper X-Review

[arXiv 2025] FAST: Efficient Action Tokenization for Vision-Language-Action Models

이번에 들고 온 논문은 로봇 분야를 선도하고 있는 그룹은 Physical intelligence에서 공개한 VLA 모델 중 하나인 pi-zero의 후속 논문 FAST입니다. high-frequency를 가진 action을 효율적으로 학습하기…

Paper X-Review

[WACV 2024]Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis

안녕하세요, 쉰 여덟번째 X-Review입니다. 이번 논문은 2024년도 WACV에 올라온 Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis논문입니다. 바로 시작하도록 하겠습니다. ? 1. Introduction…

Paper X-Review

[WACV 2025(Oral)] Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think

안녕하세요, 62번째 x-review 입니다. 이번 논문은 WACV 2025 oral paper로 게재된 논문으로, 제가 최근에 읽었던 논문들과 동일하게 Marigold를 베이스로 하는 depth estimation 논문 입니다. 그럼…

Paper X-Review

[arXiv 2025] Video-T1: Test-Time Scaling for Video Generation

안녕하세요 지금부터 비디오 생성의 퀄리티를 높이기 위해 Test-Time Scaling(TTS)을 어떻게 적용하는지를 다룬 논문을 소개하겠습니다. Test-Time Scaling은 추론 단계(test-time)에서 연산량과 같은 리소스를 확장(scaling)하여 예측의 품질을 개선하는…

Paper X-Review

[CVPR 2022] DenseCLIP : Language-Guided Dense Prediction with Context-Aware Propmting

안녕하세요, 허재연입니다. 오늘 다룰 논문은 CLIP과 같은 image-text pair로 대규모 사전학습을 진행한 VLM모델들의 지식을 dense prediction task에 효율적으로 전이할 수 있는 방법을 제안한 논문입니다. 제안하는…

Category: Paper

[TPAMI 2025] Instruction-Guided Scene Text Recognition

[arXiv 2025.02] Token Pruning in Multimodal Large Language Models: Are We Solving the Right Problem?

[arXiv 2025] All-day Depth Completion via Thermal-LiDAR Fusion

[CVPR 2013] All about VLAD

[2023 CVPR] VoP: Text-Video Co-operative Prompt Tuning for Cross-Modal Retrieval

[arXiv 2025] FAST: Efficient Action Tokenization for Vision-Language-Action Models

[WACV 2024]Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis

[WACV 2025(Oral)] Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think

[arXiv 2025] Video-T1: Test-Time Scaling for Video Generation

[CVPR 2022] DenseCLIP : Language-Guided Dense Prediction with Context-Aware Propmting

Conference Deadline

NEW POST

New Comment