Category: X-Review

Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.

Posted in Conference X-Review

[CVPR 2020] End-to-End Learning of Visual Representations from Uncurated Instructional Videos

오늘은 다소 예전 논문을 가져왔습니다. 최근 Video-Text Retrieval 중심으로 서베이를 진행중인데요, 해당 태스크에서 Loss로 많이 사용하는 MIL-NCE (Multiple Instance Learning and Noise Contrastive Estimation)를 제안한…

Continue Reading
Posted in Paper X-Review

[arXiv 2025] DepthMaster: Taming Diffusion Models for Monocular Depth Estimation

안녕하세요, 60번째 x-review 입니다. 이번 논문은 arXiv 2025에 얼마 전 올라온 DepthMaster라는 논문으로, 제가 요즘 읽고 있는 논문들과 동일하게 Marigold를 기반으로 Monocular Detph Estimation을 수행한…

Continue Reading
Posted in Paper X-Review

[arXiv 2024] LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models

안녕하세요. 이번 리뷰는 세미나에서 소개드린 LLaVA-PruMerge입니다. 세미나에서 방법론에 대해 자세히 다루지는 않았는데, 좋은 기회일 것 같습니다. 그럼 바로 시작해보겠습니다. Introduction 놀라울만한 LLM의 성능에 이은 LMM…

Continue Reading
Posted in Paper X-Review

[CVPR 2023] CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching

안녕하세요, 허재연입니다. 이번 리뷰에서 다룰 논문은 CVPR 2023에 게재된 CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching 라는 논문으로, 기존 VLM을…

Continue Reading
Posted in X-Review

[ASCC 2017]Vision-based Deep Reinforcement Learning to Control a Manipulation

안녕하세요, 이번주는 미니 챌린지 마지막 단계의 목표인 강화학습을 통한 복잡한 모션 수행을 위해 공부하던 중 발견 한 논문 리뷰입니다. 이 논문에서는 강화학습을 적용하여 카메라 영상만을…

Continue Reading
Posted in Paper X-Review

[2022 Neurocomputing]CLIP4Clip: An empirical study of CLIP for end to end video clip retrieval and captioning

오늘 리뷰할 논문은 이미지-텍스트 사전학습 모델인 CLIP을 비디오-텍스트 검색(Video-Text Retrieval)으로 확장한 모델인 CLIP4Clip에 관한 것입니다. 저자는 CLIP의 강력한 멀티모달 표현력을 활용하면서도, 비디오라는 시간 정보를 가진…

Continue Reading
Posted in Conference News Paper X-Review

[CoRL 2023 Oral] Robots That Ask For Help: Uncertainty Alignment for Large Language Model Planners

이번 리뷰 논문은 Robot의 행동 전략을 LLM으로 사용 했을 때, 발생 가능한 불확실성을 측정하기 위한 논문 입니다. 논문이 어려워 처음에는 oral로 인정 받은 이유를 파악하기…

Continue Reading
Posted in X-Review

[IROS 2024] CoPa: General Robotic Manipulation through Spatial Constraints of Parts with Foundational Model

안녕하세요. 이번 주 x-review도 태스크별 대규모 로봇-액션 데이터를 이용한 학습이나, 환경 모델에 기반한 강화학습없이, 파운데이션 비전-언어 모델인 VLM(GPT4V)을 활용하여 instruction이 들어왔을 때 prompt engineering과 python…

Continue Reading
Posted in X-Review

[CoRL 2024] GraspSplats: Efficient Manipulation with 3D Feature Splatting

안녕하세요, 이번주엔 3D Gaussian Splatting을 활용해서 로봇이 새로운 환경에서 효율적으로 물체를 조작할 수 있는 접근방식을 제안한 논문을 리뷰해보도록 하겠습니다. 1분 이내에 고품질로 장면을 재구성하고 여러…

Continue Reading
Posted in X-Review

[CVPR 2024]Grounding Image Matching in 3D with MASt3R

제가 이번에 리뷰할 논문은 MASt3R로, 네이버랩스 유럽에서 공개한 논문입니다. 실제로 데모를 실행해보았는데, 카메라에 대한 내부/외부 파라미터를 모르고 사용한 데이터 수가 굉장히 적은 상황에도 3D Reconstruction이…

Continue Reading