[일:] 2025년 04월 07일

Posted in Paper X-Review

[2022 NIPS] Multimodal Contrastive Learning with LIMoE: the Language-Image Mixture of Experts

안녕하세요. 이번에는 Multimodal MoE(mixture of experts)에 관련된 논문을 리뷰하려고 합니다. 본 리뷰는 이전에 작성한 리뷰보다 먼저 작성했으나, 업로드 과정에서 문제가 있어 순서가 바뀌었네요. 본 글에서는…

Continue Reading
Posted in Paper X-Review

[ICLR 2022] DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR

안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 ICLR 2022에 게재된 DAB-DETR입니다. OVOD 논문들을 읽다 등장하여 살펴본 논문이며, DETR의 object query에 주목하여 성능을 개선한 논문입니다. DETR 구조는 대부분…

Continue Reading
Posted in Paper X-Review

[arXiv 2025]Video-R1: Reinforcing Video Reasoning in MLLMs

안녕하세요, 오늘 소개드릴 논문은 Video-R1입니다. Github 에서는 본 논문을 [🔥the first paper to explore R1 for video] 라고 소개하고 있습니다. 즉, 저자들은 본 논문을 DeepSeek-R1에서…

Continue Reading
Posted in X-Review

[RA-L 2022] Q-attention: Enabling Efficient Learning for Vision-based Robotic Manipulation

안녕하세요. 이번 리뷰는 로보틱스 팀에 핏한 주제인 강화학습에 관한 내용으로 들고 왔습니다. 로봇 매니퓰레이터 작업을 비전 기반의 강화학습인 Q-attention이란 개념을 도입해 풀어나간 논문입니다. RLBench 기반이라…

Continue Reading
Posted in X-Review

[NIPS2016] Unifying Count-Based Exploration and Intrinsic Motivation

안녕하세요 박성준 연구원입니다. 오늘은 강화학습 리뷰를 가져왔습니다. 해당 논문은 알파고로 유명한 구글 딥마인드 팀에서 작성한 논문으로 기존 강화학습에 딥러닝을 연계한 DQN 모델에 관한 내용입니다. 리뷰에…

Continue Reading
Posted in Conference Paper X-Review

[arXiv 2024] π0: A Vision-Language-Action Flow Model for General Robot Control

이번 리뷰 논문은 VLA 논문으로 지능형 로봇을 선두하고 있는 기관 중 Physical Intelligence라는 곳에서 공개한 기법입니다. 최근 VLA의 흐름은 사전 학습된 VLM 모델에 Diffusion policy를…

Continue Reading
Posted in Paper X-Review

[WACV 2022] Occlusion-Robust Object Pose Estimation with Holistic Representation

안녕하세요 류지연입니다. 이번에도 6D 자세 추정에 대한 논문으로 가져왔습니다. 앞서 리뷰했던 PVNet, PVN3D, FFB6D 논문에서의 연구방향과 흐름을 살펴보았을 때 자세추정을 위해 키포인트를 검출할 때 Depth…

Continue Reading
Posted in Conference X-Review

[ICLR 2024(Oral)] ASID: Active Exploration for System Identification in Robotic Manipulation

제가 이번에 리뷰할 논문은 강화학습 관련 논문으로, 저희 팀에서 진행하고 있는 미니프로젝트 3단계를 위해 읽게 된 논문입니다. 3단계 목표는 복잡한 작업을 실행하는 것을 목표로 하며,…

Continue Reading
Posted in X-Review

[NIPS 2013]Playing Atari with Deep Reinforcement Learning

안녕하세요 이번 논문은 Q Learning의 Q값을 Regression하는 DQN(Deep Q Network)를 적용해서 게임을 하는 강화학습 논문 입니다. DNN과 RL을 결합하는 최초의 시도는 아니지만 정말 의미있는 수준의…

Continue Reading
Posted in Paper X-Review

[ACM MM 2024] Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval

안녕하세요, 쉰 네번째 X-Review입니다. 이번 논문은 2024년도 ACM MM에 올라온 Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval논문입니다. 바로 시작하도록…

Continue Reading