Posted in X-Diary

프롬프트 엔지니어링: 프롬프트에서 컨텍스트, 하네스까지

안녕하세요. 오랜만에 x-diary를 작성하는 것 같습니다. 제가 정말 좋은 기회로, 동그라미 재단에서 후원하여 국내 1호 프롬프트 엔지니어로 유명한 강수진 박사님께서 진행하시는 [프롬프트 엔지니어링(심화)] 수업을 수강하게…

Continue Reading
Posted in X-Review

[arXiv 2026] PokeVLA: Empowering Pocket-Sized Vision-Language-Action Model with Comprehensive World Knowledge Guidance

안녕하세요, 이번주는 작은 모델임에도 불구하고 대용량 학습 데이터로 학습한 큰 모델 대비 강인하고 성능 좋은 모델을 다룬 연구에 대해서 리뷰해보려고 합니다. 얼마 전 VLA-Adapter라는 연구도…

Continue Reading
Posted in Conference X-Review

[CoRL 2022] Do As I Can, Not As I Say:Grounding Language in Robotic Affordances

이번에 읽은 논문은 굉장히 인용수 높은 SayCan이라 불리는 논문입니다. LLM을 로봇 행동에 연결하는 방법을 다루는 논문이라고 보시면 됩니다.이 논문의 핵심은 언어 모델에게 “무엇을 하면 좋을지”를…

Continue Reading
Posted in X-Review

[NeurIPS 2025] Debate or Vote, Which Yields Better Decisions in Multi-Agent Large Language Models?

본 연구는 7개의 NLP 벤치마크에서 다수결 투표만으로 multi-agent debate(MAD)성능 향상을 대부분 설명할 수 있음을 발견한 연구이다. 고수준 추론이 발생하는 인간 집단(법정)에서는 reflect, revise, converge 과정이…

Continue Reading
Posted in Paper X-Review

[NeurIPS 2025] Beyond Attention or Similarity: Maximizing Conditional Diversity for Token Pruning in MLLMs

안녕하세요 이번에 들고온 논문도 VLM 에서의 token pruning 논문입니다. 개인연구를 진행하면서 해당 분야에 논문들이 쏟아져나오고 있어서 생각보다 쉽지 않은 것 같습니다. 그럼 리뷰 시작하겠습니다. Abstract…

Continue Reading
Posted in Paper X-Review

[CVPR 2026] Driving on Registers

안녕하세요. 이번에 리뷰로 가져온 논문은 DrivoR: Driving on Registers라는 논문입니다. 기존에는 Mobile robot navigation 관련 논문만 리뷰하고 다뤘었는데 이번에는 한번 차량 AD(자율주행) 관련 논문을 리뷰하고자…

Continue Reading
Posted in Paper X-Review

[CVPR 2026] Think, Then Verify: A Hypothesis–Verification Multi-Agent Framework for Long Video Understanding

안녕하세요. 오늘은 long video understanding 분야의 논문 중 긴 비디오를 무작정 탐색하는 대신 정답 선지에 대한 가설을 먼저 세운 뒤 영상의 증거로 검증하는 방식을 제안한…

Continue Reading
Posted in X-Review

[arXiv2026] AffordSim: A Scalable Data Generator and Benchmark for Affordance-Aware Robotic Manipulation

Abstract 시뮬레이션 기반의 데이터 생성 방식이 로봇 조작 정책 학습의 지배적 흐름이 되었습니다. 그러나 기존의 방식들은 affordance 정보를 trajectory에 포함하지 못하며, 이로 인해 특정 기능이…

Continue Reading
Posted in X-Review

[CVPR 2025] Bridging Modalities: Improving Universal Multimodal Retrieval by Multimodal Large Language Models

이번에 읽은 논문은 universal multimodal retrieval, 줄여서 UMR 이라는 태스크를 다루는 논문입니다. 지금까지도 UMR 에 대한 페이퍼가 계속 나오고 있는데요. 이 논문의 핵심은, 좋은 universal…

Continue Reading
Posted in Conference Paper X-Review

[ICLR 2020] Dream to Control: Learning Behaviors by Latent Imagination (Dreamer)

Latent World Models기반 월드 모델의 계보를 잇는 모델이자, 최근 DreamderV4까지 나온 논문의 시초인 dreamer를 리뷰해봤습니다. 재밌게 읽어주시면 감사하겠습니다. 먼저, Dreamer를 읽을 때 강화학습, 월드 모델,…

Continue Reading