Posted in Conference X-Review

[CVPR 2025] Rethinking Noisy Video-Text Retrieval via Relation-aware Alignment

오늘은 Video-Text Retrieval 중에서도, 비디오-텍스트 정렬이 맞지 않은 noisy한 상황에 집중한 논문에 대해 리뷰해보겠습니다. Conference: CVPR 2025 Authors: Huakai Lai, Guoxin Xiong, Huayu Mai, Xiang Liu,…

Continue Reading
Posted in Conference X-Review

[CVPR2022] Think Global, Act Local: Dual-scale Graph Transformer for vision-and-Language Navigation

오늘 리뷰 할 논문은 Vision-Language Navigation task를 다루는 논문으로 이쪽 분야에 대해서 처음 공부하다보니 모르는게 많아 리뷰 퀄리티가 낮을 수 있다는 점 양해부탁드립니다 허허. Intro…

Continue Reading
Posted in X-Review

[arXiv 2025] Scalable Real2Sim: Physics-Aware Asset Generation Via Robotic Pick-and-Place Setups

안녕하세요, 이번주 x-review는 Amazon Robotics에서 나온 시뮬레이터에서 활용 가능한 asset generation에 관한 논문입니다. 기존의 논문들과 다르게 3d reconstruction을 진행할 때 pick and place setup을 이용해…

Continue Reading
Posted in M.S. X-Diary

ICRA 2025 참관기

제 연구실 생활동안 많은 시간을 갈아넣었던 연구가 ICRA 에 게재되게 되어 이를 계기로 5월 19 ~ 5/23, 총 5일간 미국 애틀란타에서 개최된 ICRA 2025 학회에…

Continue Reading
Posted in News Paper X-Review

[CVPR 2020] On Recognizing Texts of Arbitrary Shapes with 2D Self-Attention

안녕하세요 류지연입니다. 이번에도 Scene text recognition을 다루는 논문을 리뷰해보겠습니다. 지난주에 DiG를 리뷰했었는데요 사전학습된 인코더에 이 논문의 디코더를 붙여 파인튜닝을 해 recognition을 수행하더군요. TESTR에서의 recognition 방법과…

Continue Reading
Posted in X-Review

[ICLR 2025] Dense Video Object Captioning from Disjoint Supervision

안녕하세요. 박성준 연구원입니다. 오늘 리뷰는 ICLR 2025 스포트라이트에 선정된 구글 딥마인드 연구입니다. 본 연구는 dense video object captioning이라는 task를 다룬 연구입니다. 익숙한 키워드들이 포함되어 있는데…

Continue Reading
Posted in X-Review

[arXiv 2024]EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model

제가 이번에 리뷰할 논문은 EVF-SAM이라는 논문으로, 지난번 리뷰와 세미나에서 소개한 affordanceSAM이 베이스라인으로 삼은 방법론 입니다. 해당 논문은 ICLR 2025에 제출되어 open review를 받다 중간에 포기한…

Continue Reading
Posted in Paper X-Review

[arXiv 2025]OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models

안녕하세요, 예순 두번째 X-Review입니다. 이번 논문은 2025년도 arXiv에 올라온 OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models입니다….

Continue Reading
Posted in Paper X-Review

[ICCV 2023] Visually-Prompted Language Model for Fine-Grained Scene Graph Generation in an Open World

안녕하세요, 허재연입니다. 지난주에 이어서 open-vocabulary scene graph generation(OV-SSG) 논문을 들고 왔습니다. SGG의 long-tailed distribution 문제를 LLM을 활용한 데이터 증강으로 완화한 논문으로, 해당 분야에서 나름 인용…

Continue Reading
Posted in X-Review

[ICRA 2025] DexMimicGen: Automated Data Generation for Bimanual Dexterous Manipulation via Imitation Learning

안녕하세요, 이번주 리뷰는 소수의 human teleloperation 데모를 통해 자동으로 엄청나게 많은 양의 시뮬레이션 데모를 만들어 낼 수 있는 방법을 제안한 논문입니다. NVIDIA에서 수행한 연구인 만큼…

Continue Reading