X-Review – Page 33 – Robotics and Computer Vision Lab

CLIP-MOE: TOWARDS BUILDING MIXTURE OF EXPERTS FOR CLIP WITH DIVERSIFIED MULTIPLET UPCYCLING

안녕하세요. 이번 리뷰에서는 CLIP 모델에 Mixture of Expert(MoE)를 결합한 확장 연구를 소개하고자 합니다. 비록 2025 ICLR에서는 Reject된 논문이지만 모델 구조와 리뷰어들의 코멘트를 참고하여, 어떤 방식으로…

Paper X-Review

[CVPR 2022] Text Spotting Transformers

안녕하세요 류지연입니다.저는 이번주부터 Text Spotting이란 새로운 task에 대한 논문을 보고 있습니다. Text Spotting은 이미지 속 단어들의 위치를 찾고 각 단어를 인식하는 task를 말합니다. 자율주행 환경에서…

Paper X-Review

[CVPR2024]Scaling Up Video Summarization Pretraining with Large Language Models

최근 LLMs(Large Language Models)을 활용해 다양한 테스크를 수행하기 위해 맞춤형 학습 방법을 제안하는 연구가 활발하게 진행되고 있습니다. LLMs은 대용량의 데이터를 학습하여 상식을 포함한 인간의 추론…

Conference X-Review

[CVPR 2025]VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation

Abstract 로봇은 미래에 다양한 작업을 수행할 수 있을 것으로 기대가 되지만, 확장성이 떨어지는 physical robot 학습을 최소화하면서 학습 환경과 실제 환경의 간극을 어떻게 줄일 수…

Paper X-Review

[TPAMI 2025] Instruction-Guided Scene Text Recognition

안녕하세요, 쉰 아홉번째 X-Review입니다. 이번 논문은 2025년도 TPAMI에 올라온 Instruction-Guided Scene Text Recognition논문입니다. 바로 시작하도록 하겠습니다. ? 1. Introduction Scene Text Recognition은 scene image내의 text를…

Paper X-Review

[arXiv 2025.02] Token Pruning in Multimodal Large Language Models: Are We Solving the Right Problem?

안녕하세요. 이번에는 MLLM의 Token Pruning에 대한 분석을 담은 논문을 들고 왔습니다. 본 논문을 읽게 된 계기가 참 긴데, 현재 제가 진행 중인 실험과 연관되어 있습니다….

Conference X-Review

[CVPR 2025] Video-ColBERT: Contextualized Late Interaction for Text-to-Video Retrieval

오늘도 Video-Text Retrieval 논문에 대해 리뷰해보겠습니다. Conference: CVPR 2025 Authors: Arun Reddy, Alexander Martin, Eugene Yang, Andrew Yates, Kate Sanders, Kenton Murray, Reno Kriz, Celso M….

X-Review

[CoRL 2022] BEHAVIOR-1K: A Benchmark for Embodied AI with 1,000 Everyday Activities and Realistic Simulation

안녕하세요, 이번주엔 여태까지 진행하던 강화학습 논문들 리뷰를 접어두고 Embodied AI를 위한 벤치마크 논문을 가지고 왔습니다. BEHAVIOR-1K는 comprehensive 한 시뮬레이션 벤치마크로, BEHAVIOR-1K 데이터셋과 OmniGibson이라는 시뮬레이션을 지원한다는…

Paper X-Review

[arXiv 2025] All-day Depth Completion via Thermal-LiDAR Fusion

안녕하세요, 63번째 x-review 입니다. 이번 논문은 4월 초에 arXiv에 올라온 따끈따끈한 논문으로, depth completion에 열화상을 처음으로 적용한 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1….

Conference X-Review

[CVPR 2025]Grounding 3D Object Affordance with Language Instructions, Visual Observations and Interactions

제가 이번에 리뷰할 논문도 3D 모델에 대한 affordance를 추정하는 논문입니다. CVPR 2025 논문이라합니다. Abstract 3D affordance grounding는 3차원 공간에서 물체를 조작하기 위해 대응되는 영역을 찾는…

Category: X-Review

CLIP-MOE: TOWARDS BUILDING MIXTURE OF EXPERTS FOR CLIP WITH DIVERSIFIED MULTIPLET UPCYCLING

[CVPR 2022] Text Spotting Transformers

[CVPR2024]Scaling Up Video Summarization Pretraining with Large Language Models

[CVPR 2025]VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation

[TPAMI 2025] Instruction-Guided Scene Text Recognition

[arXiv 2025.02] Token Pruning in Multimodal Large Language Models: Are We Solving the Right Problem?

[CVPR 2025] Video-ColBERT: Contextualized Late Interaction for Text-to-Video Retrieval

[CoRL 2022] BEHAVIOR-1K: A Benchmark for Embodied AI with 1,000 Everyday Activities and Realistic Simulation

[arXiv 2025] All-day Depth Completion via Thermal-LiDAR Fusion

[CVPR 2025]Grounding 3D Object Affordance with Language Instructions, Visual Observations and Interactions

Conference Deadline

NEW POST

New Comment