Category: X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[Arxiv 2026] Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking
Qwen3-VL을 바탕으로 Universal Multimodal Retrieval and Ranking 연구를 리뷰해보려고 합니다. 0. Universal Multimodal Retrieval 본 논문이 다루는 태스크는 저자들이 Universal Multimodal Retrieval이라 부르는 설정입니다. 이는…
[NeurIPS 2023] DAC-DETR: Divide the Attention Layers and Conquer
안녕하세요, 허재연입니다. 오늘은 DETR 관련 논문을 들고왔습니다. 요즘 비전 쪽 모델 보면 DETR 구조를 기반으로 변형된 모델들이 굉장히 많고, 다양한 분야의 task에서 DETR 구조를 도입하고…
[NeurIPS 2025] VideoAgent2: Enhancing the LLM-Based Agent System for Long-Form VideoUnderstanding by Uncertainty-Aware CoT
안녕하세요이번에 소개할 논문은 Long Video Understanding에서 기존 LLM에이전트들이 tool사용 과정에서 발생하는 불확실성과 그로인해 누적되는 오류 문제를 지적하고 이것을 해결하기위해 uncertainty-aware CoT와 plan-adjust기반의 추론 구조를 제안한…
[arXiv 2026] Sim-and-Human Co-training for Data-Efficient and Generalizable Robotic Manipulation
안녕하세요, 이번주도 다른 도메인에서 취득한 데이터를 조합하며 효과적으로 visuomotor policy를 학습하는 기법에 대해 리뷰하려고 합니다. 지난 리뷰 연구가 수학적으로 모델링해 loss를 설계하는 방식이었다면, 이번 연구는…
[arXiv2025]VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning
# 들어가며 오늘 소개드린 논문은 video understanding 수행에 있어서 multi-agent를 사용하는 방법을 소개하는 논문입니다. 논문에 따르면 기존 방식은 추론 과정에서 초기 계획이 변하지 않는 fixed…
[ICCV 2025] PASG: A Closed-Loop Framework for Automated Geometric Primitive Extraction and Semantic Anchoring in Robotic Manipulation
해당 논문은 ReKep, OmniManip와 같이 물체의 조작시 keypoint를 찾고 조작을 위한 방향과 같은 정보들을 primtive로 이용하는 논문이라 리뷰하게 되었습니다. 말이 참 복잡하지만, 정말 간단하게는 물체를…
[AAAI 2025] Super-class guided Transformer for Zero-Shot Attribute Classification
안녕하세요. 이번 X-Review에서는 super-class를 활용하여 attribute classification의 zero-shot 성능을 향상시킨 논문에 대해 리뷰해보도록 하겠습니다. 1. Introduction & Related Works attribute classification은 객체의 color, size와 같은…
[CVPR 2022] Contrasitive Test Time Adaptation
안녕하세요 이번에 리뷰할 논문은 2022년에 CVPR에 개제된 Contrasitive Test Time Adaptation 이라는 논문입니다.Test Time Adaptation 이라는 Test time에 실제 그 도메인에 맞게끔 모델 자체가 스스로…
[Arxiv 2026] DeepSeek-OCR 2: Visual Causal Flow
최근에 DeepSeek 에서 공개한 논문을 좀 리뷰한 것 같네요. 리뷰 링크는 아래에 적어두겠습니다 오늘 리뷰할 페이퍼는 1번 논문인 DeepSeek-OCR 그 다음 버전으로 DeepSeek-OCR 2 입니다….
[arXiv 2025] GR00T N1: An Open Foundation Model for GeneralistHumanoid Robots
안녕하세요 오늘은 VLA 모델 중 하나인 GR00T N1 논문에 대해서 설명드리도록 하겠습니다. GR00T 같은 경우에는 기존에 있던 VLA들과 차별점을 둔 VLA의 구조 자체도 정의하긴 했지만…
질문 감사합니다. 우선 action encoder로 사용한 RenderNet을 찾아보니, 일관성 있는 캐릭터와 고품질 이미지를 생성하고 제어할 수 있는 강력한 AI 이미지…