[카테고리:] Paper

Paper Review

Posted in Conference Paper X-Review

[arXiv 2024] π0: A Vision-Language-Action Flow Model for General Robot Control

이번 리뷰 논문은 VLA 논문으로 지능형 로봇을 선두하고 있는 기관 중 Physical Intelligence라는 곳에서 공개한 기법입니다. 최근 VLA의 흐름은 사전 학습된 VLM 모델에 Diffusion policy를…

Continue Reading
Posted in Paper X-Review

[WACV 2022] Occlusion-Robust Object Pose Estimation with Holistic Representation

안녕하세요 류지연입니다. 이번에도 6D 자세 추정에 대한 논문으로 가져왔습니다. 앞서 리뷰했던 PVNet, PVN3D, FFB6D 논문에서의 연구방향과 흐름을 살펴보았을 때 자세추정을 위해 키포인트를 검출할 때 Depth…

Continue Reading
Posted in Paper X-Review

[ACM MM 2024] Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval

안녕하세요, 쉰 여섯번째 X-Review입니다. 이번 논문은 2024년도 ACM MM에 올라온 Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval논문입니다. 바로 시작하도록…

Continue Reading
Posted in News Paper X-Review

[2022 NIPS] On the Representation Collapse of Sparse Mixture of Experts

안녕하세요 이번에 소개해드릴 논문도 Mixture of Experts(MoE) 분야와 관련된 연구입니다. 최근 MoE의 내용을 정리하면서, 이 구성 요소 중 라우팅(router)가 핵심적인 역할을 한다는 점을 파악하게 되었습니다….

Continue Reading
Posted in Paper X-Review

[arXiv 2025] DepthMaster: Taming Diffusion Models for Monocular Depth Estimation

안녕하세요, 60번째 x-review 입니다. 이번 논문은 arXiv 2025에 얼마 전 올라온 DepthMaster라는 논문으로, 제가 요즘 읽고 있는 논문들과 동일하게 Marigold를 기반으로 Monocular Detph Estimation을 수행한…

Continue Reading
Posted in Paper X-Review

[arXiv 2024] LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models

안녕하세요. 이번 리뷰는 세미나에서 소개드린 LLaVA-PruMerge입니다. 세미나에서 방법론에 대해 자세히 다루지는 않았는데, 좋은 기회일 것 같습니다. 그럼 바로 시작해보겠습니다. Introduction 놀라울만한 LLM의 성능에 이은 LMM…

Continue Reading
Posted in Paper X-Review

[CVPR 2023] CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching

안녕하세요, 허재연입니다. 이번 리뷰에서 다룰 논문은 CVPR 2023에 게재된 CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching 라는 논문으로, 기존 VLM을…

Continue Reading
Posted in Paper X-Review

[2022 Neurocomputing]CLIP4Clip: An empirical study of CLIP for end to end video clip retrieval and captioning

오늘 리뷰할 논문은 이미지-텍스트 사전학습 모델인 CLIP을 비디오-텍스트 검색(Video-Text Retrieval)으로 확장한 모델인 CLIP4Clip에 관한 것입니다. 저자는 CLIP의 강력한 멀티모달 표현력을 활용하면서도, 비디오라는 시간 정보를 가진…

Continue Reading
Posted in Conference News Paper X-Review

[CoRL 2023 Oral] Robots That Ask For Help: Uncertainty Alignment for Large Language Model Planners

이번 리뷰 논문은 Robot의 행동 전략을 LLM으로 사용 했을 때, 발생 가능한 불확실성을 측정하기 위한 논문 입니다. 논문이 어려워 처음에는 oral로 인정 받은 이유를 파악하기…

Continue Reading
Posted in Paper X-Review

[ CVPR 2022 ] X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval

안녕하세요 정의철 연구원입니다. 이번에도 Text-Video Retrieval 논문을 리뷰하고자 합니다. 이번에 소개할 방법론은 2022년 논문이지만 여러 논문에서 baseline이 되는 방법론이기에 꼭 한 번 공부해볼 필요가 있다고…

Continue Reading