Category: X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[ICLR 2025] TempMe: Video Temporal Token Merging for Efficient Text-Video Retrieval
오늘은 연산량과 추론속도 해결에 집중한 Text-Video Retrieval 논문에 대해 리뷰해보겠습니다. Conference: ICLR 2025 Authors: Leqi Shen, Tianxiang Hao, Tao He, Sicheng Zhao, Yifeng Zhang, pengzhang liu,…
[CVPR 2025] Distilling Monocular Foundation Model for Fine-grained Depth Completion
안녕하세요, 65번째 x-review 입니다. 이번 논문은 CVPR 2025년도에 게재된 depth completion 논문으로 Monocular Depth estimation의 결과를 depth completion에 활용한 논문 입니다. 그럼 바로 리뷰 시작하겠습니다…
[RSS 2025]Novel Demonstration Generation with Gaussian Splatting Enables Robust One-Shot Manipulation
안녕하세요, 이번주에는 Real 2 Sim 2 Real 파이프라인을 제시한 논문에 대한 리뷰를 해보려고 합니다. 기존의 관심사가 Sim에서의 조작을 통한 Real 데이터를 최대한 효율적으로 활용하며 Policy의…
[CVPR 2025] Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass
이번 리뷰 논문은 DUST3R이라는 dense feature matching 기법으로 획을 그은 DUST3R라는 연구의 2장 이상의 영상들로 재구성을 수행했을 때의 시간 문제를 해소하기 위해서 제안된 기법입니다. 해당…
[arXiv 2025] CLIP-UP: A Simple and Efficient Mixture-of-Experts CLIP Training Recipe
with Sparse Upcycling
with Sparse Upcycling
안녕하세요 이번에 리뷰할 논문은 2025년 Apple에서 발표한 논문으로 CLIP 모델에 Mixture-of-Experts(MoE)를 적용하여 다양한 실험을 통해 CLIP 모델 확장 과정에서 발생할 수 있는 문제점을 분석하고 새로운…
[CVPR 2016]Deep Residual Learning for Image Recognition
안녕하세요 첫 X-Review로 ResNet 논문을 가져오게 되었습니다. 제가 연구실에 들어오고 처음 꼼꼼하게 읽게 된 논문입니다. 제가 읽은 논문이 많은 것은 아니지만 ResNet에서 쓰이는 skip connection이…
[WACV 2022]Occlusion-Robust Object Pose Esitimation with Holistic Representation
안녕하세요 1번째 X-Review 작성자 손우진입니다. 처음 작성하는 리뷰라 미숙한 점이 있을 수 있습니다. 독자분들 모두의 피드백은 저의 실력향상과 올바른 길로가는 거름이라 생각하고 성심껏 답변하고 받아드리겠습니다!…
[NeurIPS2021]CLIP-It! Language-Guided Video Summarization
안녕하세요 오늘도 지난시간에 이어서 Video Summarization 연구를 소개하려 합니다. 지난 리뷰[Link]에서는 입력된 비디오에서 맥락적으로 중요한 부분을 선별하기 위한 데이터셋과 구조를 소개했습니다. 이와 다르게 본 논문은…
[ICLR 2025] PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding
안녕하세요. 이번 리뷰는 조금 색다른 벤치마크 관련 논문을 가져와 보았습니다(무려 150장). 바로 physical 적인 정보를 다룬 VQA 데이터셋인데요. 특히 VLM(MLLM) 의 physical 이해 능력을 벤치마킹하며…
[ICLR 2025] How new data permeates LLM knowledge and how to dilute it
안녕하세요. 박성준 연구원입니다. 오늘의 리뷰는 ICLR 2025에 Spotlight에 선정된 연구입니다. Google DeepMind에서 게재한 논문으로 요즘 핫한(?) LLM에 대한 내용으로 LLM에 주입되는 새로운 정보가 기존 지식에…
1. CTC 기반의 텍스트 인식 모델의 학습 과정에 대해 설명을 드리면 대답이 될 것 같네요! 입력된 텍스트 이미지[H x W…