[CVPR 2026] Think, Then Verify: A Hypothesis–Verification Multi-Agent Framework for Long Video Understanding
안녕하세요. 오늘은 long video understanding 분야의 논문 중 긴 비디오를 무작정 탐색하는 대신 정답 선지에 대한 가설을 먼저 세운 뒤 영상의 증거로 검증하는 방식을 제안한…
[arXiv2026] AffordSim: A Scalable Data Generator and Benchmark for Affordance-Aware Robotic Manipulation
Abstract 시뮬레이션 기반의 데이터 생성 방식이 로봇 조작 정책 학습의 지배적 흐름이 되었습니다. 그러나 기존의 방식들은 affordance 정보를 trajectory에 포함하지 못하며, 이로 인해 특정 기능이…
[CVPR 2025] Bridging Modalities: Improving Universal Multimodal Retrieval by Multimodal Large Language Models
이번에 읽은 논문은 universal multimodal retrieval, 줄여서 UMR 이라는 태스크를 다루는 논문입니다. 지금까지도 UMR 에 대한 페이퍼가 계속 나오고 있는데요. 이 논문의 핵심은, 좋은 universal…
[ICLR 2020] Dream to Control: Learning Behaviors by Latent Imagination (Dreamer)
Latent World Models기반 월드 모델의 계보를 잇는 모델이자, 최근 DreamderV4까지 나온 논문의 시초인 dreamer를 리뷰해봤습니다. 재밌게 읽어주시면 감사하겠습니다. 먼저, Dreamer를 읽을 때 강화학습, 월드 모델,…
[NeurIPS 2025] FIPER: Failure Prediction at Runtime for Generative Robot Policies
안녕하세요. 이번 논문 리뷰는 DP나 Flow Matching policy같은 generative IL policy가 runtime에서 task failure를 일으킬 때, 이를 failure data 없이 사전에 예측하는 방법론인 FIPER(Failure Prediction…
[CVPR 2026 Highlight] Batch Loss Score for Dynamic Data Pruning
안녕하세요, 이번주도 data pruning 논문을 가져왔습니다. 저번에 리뷰했던 SeTa의 저자가 RePB(ICLR 2026), 그리고 오늘 리뷰할 BLS까지 dynamic data pruning의 연구를 활발하게 이끌고 있는 것 같습니다….
[NIPS 2023] Scaling Open-Vocabulary Object Detection
안녕하세요, 이번에 리뷰할 논문은 Google Deepmind에서 2023년에 발표한 NIPS spotlight 논문입니다. 현재 저희 팀 과제에 투입되기 위한 팔로우업 중에 읽게 된 논문으로, detection 데이터셋이 제한적인…
[CVPR 2026] ApET: Approximation-Error Guided Token Compression for Efficient VLMs
안녕하세요 이번에 들고온 논문도 VLM 에서의 token pruning 논문입니다. 해당 논문은 25년도까지의 pruning 논문들이 ViT의 [CLS] 토큰이나 llm decoder 단에서의 visual-text attention 정보에 어느정도 의존하는…
[AAAI 2026] SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation
안녕하세요, 오늘은 좀 (저한테만?) 좀 신기한 논문을 가져왔습니다. VLA 관해서 “흠 뭐가 재밌을까”하다가 2026년 AAAI에 어쩌고 저쩌고 한 논문이라고 해서 쓱 훓어보니까 제가 알던 VLA의…
[CVPR 2026] VidEoMT: Your ViT is Secretly Also a Video Segmentation Model
안녕하세요. 이번에 리뷰로 가져온 논문은 CVPR 2026애 올라온 VidEoMT: Your ViT is Secretly Also a Video Segmentation Model라는 논문입니다. 현재 내비게이션 플래닝 분야에서 action을 생성하는데…
안녕하세요 리뷰 읽어주셔서 감사합니다. 말씀해주신대로 프롬프트로 수행하는 방식으로 모달리티별로 정해진 탬플릿이 있는것은 아닙니다 혹시 프롬프트 생성에 활용된 탬플릿이 궁금하시면 논문의…