[CoRL 2022] Inner Monologue: Embodied Reasoning through Planning with Language Models
안녕하세요. SayCan에 이어서 또 다른 유명한 LLM을 이용한 논문인 Inner Monologue 입니다. 사람이 독백을 하면서 생각을 정리하는 것처럼 LLM도 이를 이용해 action 성능을 향상시켜보겠다는 논문으로…
[arXiv 2026]Selective Perception for Robot:Task-Aware Attention in Multimodal VLA
안녕하세요 손우진입니다. 이번에 제가 리뷰할 논문은 로봇 관련 논문입니다. 매번 6D pose나 pose refinement와 같은 물체 perception 관련해서 리뷰를 많이 했는데요, 시대가 시대인 만큼 로봇을…
프롬프트 엔지니어링: 프롬프트에서 컨텍스트, 하네스까지
안녕하세요. 오랜만에 x-diary를 작성하는 것 같습니다. 제가 정말 좋은 기회로, 동그라미 재단에서 후원하여 국내 1호 프롬프트 엔지니어로 유명한 강수진 박사님께서 진행하시는 [프롬프트 엔지니어링(심화)] 수업을 수강하게…
[arXiv 2026] PokeVLA: Empowering Pocket-Sized Vision-Language-Action Model with Comprehensive World Knowledge Guidance
안녕하세요, 이번주는 작은 모델임에도 불구하고 대용량 학습 데이터로 학습한 큰 모델 대비 강인하고 성능 좋은 모델을 다룬 연구에 대해서 리뷰해보려고 합니다. 얼마 전 VLA-Adapter라는 연구도…
[CoRL 2022] Do As I Can, Not As I Say:Grounding Language in Robotic Affordances
이번에 읽은 논문은 굉장히 인용수 높은 SayCan이라 불리는 논문입니다. LLM을 로봇 행동에 연결하는 방법을 다루는 논문이라고 보시면 됩니다.이 논문의 핵심은 언어 모델에게 “무엇을 하면 좋을지”를…
[NeurIPS 2025] Debate or Vote, Which Yields Better Decisions in Multi-Agent Large Language Models?
본 연구는 7개의 NLP 벤치마크에서 다수결 투표만으로 multi-agent debate(MAD)성능 향상을 대부분 설명할 수 있음을 발견한 연구이다. 고수준 추론이 발생하는 인간 집단(법정)에서는 reflect, revise, converge 과정이…
[NeurIPS 2025] Beyond Attention or Similarity: Maximizing Conditional Diversity for Token Pruning in MLLMs
안녕하세요 이번에 들고온 논문도 VLM 에서의 token pruning 논문입니다. 개인연구를 진행하면서 해당 분야에 논문들이 쏟아져나오고 있어서 생각보다 쉽지 않은 것 같습니다. 그럼 리뷰 시작하겠습니다. Abstract…
[CVPR 2026] Driving on Registers
안녕하세요. 이번에 리뷰로 가져온 논문은 DrivoR: Driving on Registers라는 논문입니다. 기존에는 Mobile robot navigation 관련 논문만 리뷰하고 다뤘었는데 이번에는 한번 차량 AD(자율주행) 관련 논문을 리뷰하고자…
[CVPR 2026] Think, Then Verify: A Hypothesis–Verification Multi-Agent Framework for Long Video Understanding
안녕하세요. 오늘은 long video understanding 분야의 논문 중 긴 비디오를 무작정 탐색하는 대신 정답 선지에 대한 가설을 먼저 세운 뒤 영상의 증거로 검증하는 방식을 제안한…
[arXiv2026] AffordSim: A Scalable Data Generator and Benchmark for Affordance-Aware Robotic Manipulation
Abstract 시뮬레이션 기반의 데이터 생성 방식이 로봇 조작 정책 학습의 지배적 흐름이 되었습니다. 그러나 기존의 방식들은 affordance 정보를 trajectory에 포함하지 못하며, 이로 인해 특정 기능이…
안녕하세요 우진님, 좋은 질문 감사합니다. 이쪽 분야를 접한 이유는 저희 팀 기업 과제가 task가 SAR object detection이고, 과제 팔로우업을 겸해서…