[ICLR 2024(Oral)] ASID: Active Exploration for System Identification in Robotic Manipulation
제가 이번에 리뷰할 논문은 강화학습 관련 논문으로, 저희 팀에서 진행하고 있는 미니프로젝트 3단계를 위해 읽게 된 논문입니다. 3단계 목표는 복잡한 작업을 실행하는 것을 목표로 하며,…
[NIPS 2013]Playing Atari with Deep Reinforcement Learning
안녕하세요 이번 논문은 Q Learning의 Q값을 Regression하는 DQN(Deep Q Network)를 적용해서 게임을 하는 강화학습 논문 입니다. DNN과 RL을 결합하는 최초의 시도는 아니지만 정말 의미있는 수준의…
[ACM MM 2024] Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval
안녕하세요, 쉰 여섯번째 X-Review입니다. 이번 논문은 2024년도 ACM MM에 올라온 Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval논문입니다. 바로 시작하도록…
[2022 NIPS] On the Representation Collapse of Sparse Mixture of Experts
안녕하세요 이번에 소개해드릴 논문도 Mixture of Experts(MoE) 분야와 관련된 연구입니다. 최근 MoE의 내용을 정리하면서, 이 구성 요소 중 라우팅(router)가 핵심적인 역할을 한다는 점을 파악하게 되었습니다….
[CVPR 2020] End-to-End Learning of Visual Representations from Uncurated Instructional Videos
오늘은 다소 예전 논문을 가져왔습니다. 최근 Video-Text Retrieval 중심으로 서베이를 진행중인데요, 해당 태스크에서 Loss로 많이 사용하는 MIL-NCE (Multiple Instance Learning and Noise Contrastive Estimation)를 제안한…
[arXiv 2025] DepthMaster: Taming Diffusion Models for Monocular Depth Estimation
안녕하세요, 60번째 x-review 입니다. 이번 논문은 arXiv 2025에 얼마 전 올라온 DepthMaster라는 논문으로, 제가 요즘 읽고 있는 논문들과 동일하게 Marigold를 기반으로 Monocular Detph Estimation을 수행한…
[arXiv 2024] LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models
안녕하세요. 이번 리뷰는 세미나에서 소개드린 LLaVA-PruMerge입니다. 세미나에서 방법론에 대해 자세히 다루지는 않았는데, 좋은 기회일 것 같습니다. 그럼 바로 시작해보겠습니다. Introduction 놀라울만한 LLM의 성능에 이은 LMM…
[CVPR 2023] CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching
안녕하세요, 허재연입니다. 이번 리뷰에서 다룰 논문은 CVPR 2023에 게재된 CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching 라는 논문으로, 기존 VLM을…
[ASCC 2017]Vision-based Deep Reinforcement Learning to Control a Manipulation
안녕하세요, 이번주는 미니 챌린지 마지막 단계의 목표인 강화학습을 통한 복잡한 모션 수행을 위해 공부하던 중 발견 한 논문 리뷰입니다. 이 논문에서는 강화학습을 적용하여 카메라 영상만을…
[CVPR 2021] FFB6D: A Full Flow Bidirectional Fusion Network for 6D Pose Estimation
안녕하세요 PVNet, PVN3D에 이어서 FFB6D 논문으로 찾아왔습니다. 세 논문 모두 6자유도를 갖는 3차원 물체의 자세를 추정하기 위한 방법을 다룬 논문들입니다. 6자유도를 갖는 3차원 물체의 자세를…
안녕하세요 인하님, 좋은 리뷰 감사합니다. 쉽게 설명해주셔서 덕분에 공부가 많이 되었습니다. positional encoding 부분에서 궁금한 점이 있는데요, 하필 sinusoid 형태의…