Category: X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[arXiv 2026] Sim-and-Human Co-training for Data-Efficient and Generalizable Robotic Manipulation
안녕하세요, 이번주도 다른 도메인에서 취득한 데이터를 조합하며 효과적으로 visuomotor policy를 학습하는 기법에 대해 리뷰하려고 합니다. 지난 리뷰 연구가 수학적으로 모델링해 loss를 설계하는 방식이었다면, 이번 연구는…
[arXiv2025]VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning
# 들어가며 오늘 소개드린 논문은 video understanding 수행에 있어서 multi-agent를 사용하는 방법을 소개하는 논문입니다. 논문에 따르면 기존 방식은 추론 과정에서 초기 계획이 변하지 않는 fixed…
[ICCV 2025] PASG: A Closed-Loop Framework for Automated Geometric Primitive Extraction and Semantic Anchoring in Robotic Manipulation
해당 논문은 ReKep, OmniManip와 같이 물체의 조작시 keypoint를 찾고 조작을 위한 방향과 같은 정보들을 primtive로 이용하는 논문이라 리뷰하게 되었습니다. 말이 참 복잡하지만, 정말 간단하게는 물체를…
[AAAI 2025] Super-class guided Transformer for Zero-Shot Attribute Classification
안녕하세요. 이번 X-Review에서는 super-class를 활용하여 attribute classification의 zero-shot 성능을 향상시킨 논문에 대해 리뷰해보도록 하겠습니다. 1. Introduction & Related Works attribute classification은 객체의 color, size와 같은…
[CVPR 2022] Contrasitive Test Time Adaptation
안녕하세요 이번에 리뷰할 논문은 2022년에 CVPR에 개제된 Contrasitive Test Time Adaptation 이라는 논문입니다.Test Time Adaptation 이라는 Test time에 실제 그 도메인에 맞게끔 모델 자체가 스스로…
[Arxiv 2026] DeepSeek-OCR 2: Visual Causal Flow
최근에 DeepSeek 에서 공개한 논문을 좀 리뷰한 것 같네요. 리뷰 링크는 아래에 적어두겠습니다 오늘 리뷰할 페이퍼는 1번 논문인 DeepSeek-OCR 그 다음 버전으로 DeepSeek-OCR 2 입니다….
[arXiv 2025] GR00T N1: An Open Foundation Model for GeneralistHumanoid Robots
안녕하세요 오늘은 VLA 모델 중 하나인 GR00T N1 논문에 대해서 설명드리도록 하겠습니다. GR00T 같은 경우에는 기존에 있던 VLA들과 차별점을 둔 VLA의 구조 자체도 정의하긴 했지만…
[ECCV 2024] FoundPose : Unseen Object Pose Estimation with Foundation Features
안녕하세요 손우진입니다. 오늘은 단일 모달리티(RGB)기반의 6D pose estimation 논문을 리뷰해보려고 합니다. 요즘 6D 에서 계속 연구되고있는것은 학습때 보지못한 객체에대한 6D 를 예측하고 싶어합니다. 하지만 이는…
[NeurIPS 2025] Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation
안녕하세요. 저번 세미나 시간에 발표로 들고 왔던 Chain of Action 논문을 리뷰로 남기기 위해 가져왔습니다. ByteDance Seed에서 제안한 액션 역방향 생성의 새로운 패러다임인데요. 기존의 액션을…
[ICCV 2025] LVAgent: Long Video Understanding by Multi-Round Dynamical Collaboration of MLLM Agents
안녕하세요 이번에 소개할 논문은 롱비디오 이해에서 단일 MLLM으로 추론 하는 한계를 지적하고 이를 multi-agent 협업 구조로 보완하는 LVAgent 프레임워크를 제안한 논문입니다. 그럼 바로 리뷰 시작하겠습니다….
안녕하세요 우진님, 좋은 질문 감사합니다. 이쪽 분야를 접한 이유는 저희 팀 기업 과제가 task가 SAR object detection이고, 과제 팔로우업을 겸해서…