Paper – Page 13 – Robotics and Computer Vision Lab

[arXiv 2025] Depth Anything with Any Prior

안녕하세요, 68번째 x-review 입니다. 이번 논문은 arXiv 2025년도에 올라온 Depth Anything with Any Prior라는 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction monocular depth…

[CVPR 2020] On Recognizing Texts of Arbitrary Shapes with 2D Self-Attention

안녕하세요 류지연입니다. 이번에도 Scene text recognition을 다루는 논문을 리뷰해보겠습니다. 지난주에 DiG를 리뷰했었는데요 사전학습된 인코더에 이 논문의 디코더를 붙여 파인튜닝을 해 recognition을 수행하더군요. TESTR에서의 recognition 방법과…

Paper X-Review

[arXiv 2025]OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models

안녕하세요, 예순 두번째 X-Review입니다. 이번 논문은 2025년도 arXiv에 올라온 OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models입니다….

Paper X-Review

[ICCV 2023] Visually-Prompted Language Model for Fine-Grained Scene Graph Generation in an Open World

안녕하세요, 허재연입니다. 지난주에 이어서 open-vocabulary scene graph generation(OV-SSG) 논문을 들고 왔습니다. SGG의 long-tailed distribution 문제를 LLM을 활용한 데이터 증강으로 완화한 논문으로, 해당 분야에서 나름 인용…

Paper X-Review

[arXiv 2025] Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better

이번 리뷰 논문은 Physical Intelligence의 25.5.28에 새롭게 공개한 VLA 후속 논문입니다. 해당 논문은 최근 박성준 연구원이 세미나에서 발표했던 LLM의 Priming Effect 현상을 Physical Intelligence에서도 인식하고 해결하기…

Paper X-Review

[CVPR 2025] SharpDepth: Sharpening Metric Depth Predictions Using Diffusion Distillation

안녕하세요, 67번째 x-review 입니다. 이번 논문은 CVPR 2025년도에 게재된 diffusion 기반 depth estimation 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction Monocular Depth Estimation(MDE)는…

Paper X-Review

[ICLR 2023]SPARSE UPCYCLING: TRAINING MIXTURE-OF-EXPERTS FROM DENSE CHECKPOINTS

안녕하세요. 이번에 소개할 논문도 MoE 분야의 연구입니다. 이 논문은 기존 dense 모델을 MoE 모델로 확장하는 과정에서, MoE 레이어의 전문가 네트워크(expert)를 단순히 랜덤으로 초기화해 학습하는 것이…

Paper X-Review

[NerulPS 2017] Attention is all you need

안녕하세요 제 두번째 X-review로는 Transformer 를 작성하려고 합니다.이전에 잘 작성해주신 글들이 많지만, 서로 표현하는 방법이나 생각하는 것들이 조금씩 다를 수 있으니 이후 읽을 사람에게 생각의…

Paper X-Review

[TPAMI2023] SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for Dynamic Scenes

오랜만에 쓰는 x리뷰입니다. 감을 잡을 겸 예전부터 익숙했던 분야의 논문을 읽고 리뷰해보았습니다. TPAMI2023에 나온 논문이고 제목에서 V3라고 되어있는데 V1은 IJCV, V2는 TPAMI2022에 붙은 논문으로 방향성을…

Paper X-Review

[arXiv 2025] Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware

이번 리뷰 논문은 로봇 러닝 측면에서 하고 싶었던 방향을 구현한 기법으로, 실제 로봇이 없이 그리고 동적인 시뮬레이션에 대한 구축 없이 학습 데이터를 생성하는 방법을 제시한…

Category: Paper

[arXiv 2025] Depth Anything with Any Prior

[CVPR 2020] On Recognizing Texts of Arbitrary Shapes with 2D Self-Attention

[arXiv 2025]OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models

[ICCV 2023] Visually-Prompted Language Model for Fine-Grained Scene Graph Generation in an Open World

[arXiv 2025] Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better

[CVPR 2025] SharpDepth: Sharpening Metric Depth Predictions Using Diffusion Distillation

[ICLR 2023]SPARSE UPCYCLING: TRAINING MIXTURE-OF-EXPERTS FROM DENSE CHECKPOINTS

[NerulPS 2017] Attention is all you need

[TPAMI2023] SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for Dynamic Scenes

[arXiv 2025] Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware

Conference Deadline

NEW POST

New Comment