Category: Paper
Paper Review
[CVPR2024]Scaling Up Video Summarization Pretraining with Large Language Models
최근 LLMs(Large Language Models)을 활용해 다양한 테스크를 수행하기 위해 맞춤형 학습 방법을 제안하는 연구가 활발하게 진행되고 있습니다. LLMs은 대용량의 데이터를 학습하여 상식을 포함한 인간의 추론…
[TPAMI 2025] Instruction-Guided Scene Text Recognition
안녕하세요, 쉰 아홉번째 X-Review입니다. 이번 논문은 2025년도 TPAMI에 올라온 Instruction-Guided Scene Text Recognition논문입니다. 바로 시작하도록 하겠습니다. ? 1. Introduction Scene Text Recognition은 scene image내의 text를…
[arXiv 2025.02] Token Pruning in Multimodal Large Language Models: Are We Solving the Right Problem?
안녕하세요. 이번에는 MLLM의 Token Pruning에 대한 분석을 담은 논문을 들고 왔습니다. 본 논문을 읽게 된 계기가 참 긴데, 현재 제가 진행 중인 실험과 연관되어 있습니다….
[arXiv 2025] All-day Depth Completion via Thermal-LiDAR Fusion
안녕하세요, 63번째 x-review 입니다. 이번 논문은 4월 초에 arXiv에 올라온 따끈따끈한 논문으로, depth completion에 열화상을 처음으로 적용한 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1….
[CVPR 2013] All about VLAD
안녕하세요 류지연입니다. 한주 간 VLAD로 이미지 분류 성능을 개선시키는 것을 진행했습니다. 본 연구에서 제안하는 방법론을 적용했습니다. 한주를 마무리하며 연구에서 제안하는 방법론들에 대해 정리하고자 해당 논문으로…
[2023 CVPR] VoP: Text-Video Co-operative Prompt Tuning for Cross-Modal Retrieval
안녕하세요. 그동안 MoE 관련 논문들을 집중적으로 살펴봤는데, 이제 본격적으로 Text-Video Retrieval(TVR) 모델에 MoE를 적용해보려고 합니다. 그래서 TVR 모델에 대해 다시 서베이를 진행하면서, 각 연구가 어떤…
[arXiv 2025] FAST: Efficient Action Tokenization for Vision-Language-Action Models
이번에 들고 온 논문은 로봇 분야를 선도하고 있는 그룹은 Physical intelligence에서 공개한 VLA 모델 중 하나인 pi-zero의 후속 논문 FAST입니다. high-frequency를 가진 action을 효율적으로 학습하기…
[WACV 2024]Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis
안녕하세요, 쉰 여덟번째 X-Review입니다. 이번 논문은 2024년도 WACV에 올라온 Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis논문입니다. 바로 시작하도록 하겠습니다. ? 1. Introduction…
[WACV 2025(Oral)] Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think
안녕하세요, 62번째 x-review 입니다. 이번 논문은 WACV 2025 oral paper로 게재된 논문으로, 제가 최근에 읽었던 논문들과 동일하게 Marigold를 베이스로 하는 depth estimation 논문 입니다. 그럼…
[arXiv 2025] Video-T1: Test-Time Scaling for Video Generation
안녕하세요 지금부터 비디오 생성의 퀄리티를 높이기 위해 Test-Time Scaling(TTS)을 어떻게 적용하는지를 다룬 논문을 소개하겠습니다. Test-Time Scaling은 추론 단계(test-time)에서 연산량과 같은 리소스를 확장(scaling)하여 예측의 품질을 개선하는…
안녕하세요 인하님, 첫 댓글 환영합니다. 1. 기존에도 VLM의 reasoning 능력을 활용해서 high-level planning을 수행하고, 여기서의 어떤 bridge가 되는 정보를 low-level…