[arXiv 2025] Depth Anything with Any Prior
안녕하세요, 68번째 x-review 입니다. 이번 논문은 arXiv 2025년도에 올라온 Depth Anything with Any Prior라는 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction monocular depth…
[CVPR 2025] Rethinking Noisy Video-Text Retrieval via Relation-aware Alignment
오늘은 Video-Text Retrieval 중에서도, 비디오-텍스트 정렬이 맞지 않은 noisy한 상황에 집중한 논문에 대해 리뷰해보겠습니다. Conference: CVPR 2025 Authors: Huakai Lai, Guoxin Xiong, Huayu Mai, Xiang Liu,…
[CVPR2022] Think Global, Act Local: Dual-scale Graph Transformer for vision-and-Language Navigation
오늘 리뷰 할 논문은 Vision-Language Navigation task를 다루는 논문으로 이쪽 분야에 대해서 처음 공부하다보니 모르는게 많아 리뷰 퀄리티가 낮을 수 있다는 점 양해부탁드립니다 허허. Intro…
[arXiv 2025] Scalable Real2Sim: Physics-Aware Asset Generation Via Robotic Pick-and-Place Setups
안녕하세요, 이번주 x-review는 Amazon Robotics에서 나온 시뮬레이터에서 활용 가능한 asset generation에 관한 논문입니다. 기존의 논문들과 다르게 3d reconstruction을 진행할 때 pick and place setup을 이용해…
ICRA 2025 참관기
제 연구실 생활동안 많은 시간을 갈아넣었던 연구가 ICRA 에 게재되게 되어 이를 계기로 5월 19 ~ 5/23, 총 5일간 미국 애틀란타에서 개최된 ICRA 2025 학회에…
[CVPR 2020] On Recognizing Texts of Arbitrary Shapes with 2D Self-Attention
안녕하세요 류지연입니다. 이번에도 Scene text recognition을 다루는 논문을 리뷰해보겠습니다. 지난주에 DiG를 리뷰했었는데요 사전학습된 인코더에 이 논문의 디코더를 붙여 파인튜닝을 해 recognition을 수행하더군요. TESTR에서의 recognition 방법과…
[ICLR 2025] Dense Video Object Captioning from Disjoint Supervision
안녕하세요. 박성준 연구원입니다. 오늘 리뷰는 ICLR 2025 스포트라이트에 선정된 구글 딥마인드 연구입니다. 본 연구는 dense video object captioning이라는 task를 다룬 연구입니다. 익숙한 키워드들이 포함되어 있는데…
[arXiv 2024]EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model
제가 이번에 리뷰할 논문은 EVF-SAM이라는 논문으로, 지난번 리뷰와 세미나에서 소개한 affordanceSAM이 베이스라인으로 삼은 방법론 입니다. 해당 논문은 ICLR 2025에 제출되어 open review를 받다 중간에 포기한…
[arXiv 2025]OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models
안녕하세요, 예순 두번째 X-Review입니다. 이번 논문은 2025년도 arXiv에 올라온 OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models입니다….
[ICCV 2023] Visually-Prompted Language Model for Fine-Grained Scene Graph Generation in an Open World
안녕하세요, 허재연입니다. 지난주에 이어서 open-vocabulary scene graph generation(OV-SSG) 논문을 들고 왔습니다. SGG의 long-tailed distribution 문제를 LLM을 활용한 데이터 증강으로 완화한 논문으로, 해당 분야에서 나름 인용…
안녕하세요, 리뷰 읽어주셔서 감사합니다.. 논문에서 text로 얻는 평균과 분산은 텍스트에 적합한 다양한 장면들의 분포를 나타내는 prior 역할을 하게 됩니다. 그런데…