Category: X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[arXiv 2024]EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model
제가 이번에 리뷰할 논문은 EVF-SAM이라는 논문으로, 지난번 리뷰와 세미나에서 소개한 affordanceSAM이 베이스라인으로 삼은 방법론 입니다. 해당 논문은 ICLR 2025에 제출되어 open review를 받다 중간에 포기한…
[arXiv 2025]OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models
안녕하세요, 예순 두번째 X-Review입니다. 이번 논문은 2025년도 arXiv에 올라온 OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models입니다….
[ICCV 2023] Visually-Prompted Language Model for Fine-Grained Scene Graph Generation in an Open World
안녕하세요, 허재연입니다. 지난주에 이어서 open-vocabulary scene graph generation(OV-SSG) 논문을 들고 왔습니다. SGG의 long-tailed distribution 문제를 LLM을 활용한 데이터 증강으로 완화한 논문으로, 해당 분야에서 나름 인용…
[ICRA 2025] DexMimicGen: Automated Data Generation for Bimanual Dexterous Manipulation via Imitation Learning
안녕하세요, 이번주 리뷰는 소수의 human teleloperation 데모를 통해 자동으로 엄청나게 많은 양의 시뮬레이션 데모를 만들어 낼 수 있는 방법을 제안한 논문입니다. NVIDIA에서 수행한 연구인 만큼…
[arXiv 2025] Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better
이번 리뷰 논문은 Physical Intelligence의 25.5.28에 새롭게 공개한 VLA 후속 논문입니다. 해당 논문은 최근 박성준 연구원이 세미나에서 발표했던 LLM의 Priming Effect 현상을 Physical Intelligence에서도 인식하고 해결하기…
[CVPR 2022]RegionCLIP: Region-based Language-Image Pretraining
안녕하세요. 두 번째 X-Review로 소개드릴 논문은 RegionCLIP: Region-based Language-Image Pretraining으로 2022년 CVPR에 게재된 논문입니다. 이 논문은 제가 OVOD(Open-Vocabulary Object Detection) 관련 연구들을 처음 접하고 공부하던…
[CVPR 2025] SharpDepth: Sharpening Metric Depth Predictions Using Diffusion Distillation
안녕하세요, 67번째 x-review 입니다. 이번 논문은 CVPR 2025년도에 게재된 diffusion 기반 depth estimation 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction Monocular Depth Estimation(MDE)는…
[ICLR 2023]SPARSE UPCYCLING: TRAINING MIXTURE-OF-EXPERTS FROM DENSE CHECKPOINTS
안녕하세요. 이번에 소개할 논문도 MoE 분야의 연구입니다. 이 논문은 기존 dense 모델을 MoE 모델로 확장하는 과정에서, MoE 레이어의 전문가 네트워크(expert)를 단순히 랜덤으로 초기화해 학습하는 것이…
[NerulPS 2017] Attention is all you need
안녕하세요 제 두번째 X-review로는 Transformer 를 작성하려고 합니다.이전에 잘 작성해주신 글들이 많지만, 서로 표현하는 방법이나 생각하는 것들이 조금씩 다를 수 있으니 이후 읽을 사람에게 생각의…
[CVPR2023]SCANet: Self-Paced Semi-Curricular Attention Network for Non-Homogeneous Image Dehazing
안녕하세요 2번째 X-Review 작성자 손우진입니다. 이번에는 2023년 CVPR에 기재된 Non-Homogeneous Image에서 Dehazing 문제를 다룬 논문인 SCANet: Self-paced Semi-curricular Attention Network for Non-Homogeneous Image Dehazing 을…
안녕하세요. 리뷰 읽어주셔서 감사합니다. 아, 네 제가 여태 몇 번 리뷰와 세미나를 이 주제로 하며 새로운 Pruning 전략이 아니면 짚고…