[CVPR 2025]RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete
지난번에 리뷰한 PhysToolBench 논문에 RoboBrain 논문이 있어서 궁금해서 읽어보게 되었습니다. 2025년 2월에 공개된 논문으로, 이후에 9월에 RoboBrain 2.0 리포트가 나온 것 같습니다. Abstract 최근 MLLMs의…
[AAAI 2026] VideoChat-A1: Thinking with Long Videos byChain-of-Shot Reasoning
안녕하세요! 이번에 소개할 논문은 Long Video Understanding에서 긴 비디오를 효과적으로 이해하기 어려운 문제를 해결하기 위해 shot단위의 점진적인 추론 방식인 Chain-of-Shot 프레임워크(VideoChat-A1)를 제안한 연구입니다이 논문은 기존…
[arXiv2025]LongVideoAgent: Multi-Agent Reasoning with Long Videos
왜 제안되었나? Crucially, most prior systems are non-agentic models: they process a static, pre-encoded or down-sampled video. 기존의 연구들은 미리 설계된(pre-encoded) 아키텍쳐로 분석을 수행하였다. 이러한…
KRoC 2026 참관기
안녕하세요. 이번 X-Diary에서는 2월 4일부터 6일까지 다녀온 KRoC 참관 후기 글을 작성하고자 합니다. 작년 CoRL을 몇 시간 정도 참관해본 것을 제외하고는 제대로 학회를 경험해본 건…
KRoC 2026 참관기
안녕하세요, 오늘은 2월 11일부터 2월 13일까지 다녀온 Kros에서 주관하는 KRoC에 다녀온 후기를 설명해드리고자 합니다. 이번에 방문해서는 주로 포스터 섹션을 위주로 보았고, 중간중간에 끼어 있는 발표…
KRoC 2026 참관기
올해 KRoC는 2025년에 비해 프로그램의 양과 밀도 모두 증가한 것을 확인할 수 있었습니다. 작년에는 정말 아무것도 모르고 경험만 하러 갔지만 이번에는 최소한의 의도를 가지고 포스터도…
[arXiv 2025] LoGoPlanner: Localization Grounded Navigation Policy with Metric-aware Visual Geometry
안녕하세요 이번에 리뷰할 논문은 아카이브에 올라온지 2달된 LoGoPlanner Localization Grounded Navigation Policy with Metric-aware Visual Geometry라는 논문 입니다.지금까지는 image goal, language prompt 기반의 navigation 논문들을…
[CVPR 2025] Apollo: An Exploration of Video Understanding in Large Multimodal Models
안녕하세요, 3번째 x-review는 Apollo라는 논문입니다. (논문 기준) 현재까지 video-LLM 연구의 문제점을 짚고, 저자 자신들의 모델을 제안하는 구성이기 때문에 LVU task에 익숙하지 않으신 분들도 꽤(?) 재밌게…
[arXiv 2025]Phystoolbench: Benchmarking physical tool understanding for mllms
해당 논문은 작년 10월에 아카이브에 공개된 논문으로, MLLMs에 대한 도구 이해 능력을 평가하였다는 점에서 궁금하여 읽게 되었습니다. 어디에 제출하였는지는 잘 모르겠지만, 난이도에 대하여 단계적으로 구분한…
댓글 감사합니다. 영규님 저 또한 그렇게 생각이듭니다. 하지만 학습때는 열화상이미지를 노이즈로 변환해서 학습하게 되고 dual classifier-free guidance 학습방식으로 통해서 정확하게…