[일:] 2025년 04월 28일
[CVPR 2025]Grounding 3D Object Affordance with Language Instructions, Visual Observations and Interactions
제가 이번에 리뷰할 논문도 3D 모델에 대한 affordance를 추정하는 논문입니다. CVPR 2025 논문이라합니다. Abstract 3D affordance grounding는 3차원 공간에서 물체를 조작하기 위해 대응되는 영역을 찾는…
[CVPR2023] Finetune like you pretrain: Improved finetuning of zero-shot vision models
안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 Finetune Like You Pretrain(FLYP)로 대규모 이미지-텍스트 사전학습 모델의 미세조정 방법을 다룬 연구입니다. Introduction 대규모 이미지-텍스트 사전학습 모델인 CLIP의 등장…
[CVPR 2013] All about VLAD
안녕하세요 류지연입니다. 한주 간 VLAD로 이미지 분류 성능을 개선시키는 것을 진행했습니다. 본 연구에서 제안하는 방법론을 적용했습니다. 한주를 마무리하며 연구에서 제안하는 방법론들에 대해 정리하고자 해당 논문으로…
[2023 CVPR] VoP: Text-Video Co-operative Prompt Tuning for Cross-Modal Retrieval
안녕하세요. 그동안 MoE 관련 논문들을 집중적으로 살펴봤는데, 이제 본격적으로 Text-Video Retrieval(TVR) 모델에 MoE를 적용해보려고 합니다. 그래서 TVR 모델에 대해 다시 서베이를 진행하면서, 각 연구가 어떤…
[arXiv 2025] FAST: Efficient Action Tokenization for Vision-Language-Action Models
이번에 들고 온 논문은 로봇 분야를 선도하고 있는 그룹은 Physical intelligence에서 공개한 VLA 모델 중 하나인 pi-zero의 후속 논문 FAST입니다. high-frequency를 가진 action을 효율적으로 학습하기…
LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Model
Introduction GPT-4, LLaMA의 LMM (MLLM) 시대 이후 사용자의 지시문이나 입력 이미지에 대한 Visual Chat 능력이 중요시 되고 있습니다. 하지만 이들은 이미지 전반적인 이해력은 높지만 특정…
[WACV 2024]Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis
안녕하세요, 쉰 여섯번째 X-Review입니다. 이번 논문은 2024년도 WACV에 올라온 Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis논문입니다. 바로 시작하도록 하겠습니다. 🐠 1. Introduction…
최신 댓글