[CVPR 2025] LamRA: Large Multimodal Model as Your Advanced Retrieval Assistant
지난 리뷰에서와 동일하게 이번에도 Universal Multimodal Retrieval 페이퍼를 리뷰해보겠습니다. 1. Introduction 최근 멀티모달 정보 검색은 CLIP 같은 VLP 의 성공을 바탕으로 빠르게 발전했지만, 동시에 retrieval…
[ICLR 2025] GENERATIVE REPRESENTATIONAL INSTRUCTION TUNING
안녕하세요. 오늘은 LLM의 생성 능력과 임베딩 능력을 하나의 모델로 통합하려는 GRIT(Generative Representational Instruction Tuning) 논문을 리뷰하고자 합니다. 최근 MLLM 기반 생성 모델을 검색에도 함께 활용하려는…
[arXiv 2026] EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data
안녕하세요, 이번주는 NVIDIA에서 최근에 발표한 연구에 대해 리뷰해보려고 합니다. 최근 로봇 데이터가 아닌 다른 도메인의 데이터가 어떻게 학습에 사용될까?에 대한 궁금증이 늘 있는데, 해당 연구에서…
[CVPR 2025]RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete
지난번에 리뷰한 PhysToolBench 논문에 RoboBrain 논문이 있어서 궁금해서 읽어보게 되었습니다. 2025년 2월에 공개된 논문으로, 이후에 9월에 RoboBrain 2.0 리포트가 나온 것 같습니다. Abstract 최근 MLLMs의…
[AAAI 2026] VideoChat-A1: Thinking with Long Videos byChain-of-Shot Reasoning
안녕하세요! 이번에 소개할 논문은 Long Video Understanding에서 긴 비디오를 효과적으로 이해하기 어려운 문제를 해결하기 위해 shot단위의 점진적인 추론 방식인 Chain-of-Shot 프레임워크(VideoChat-A1)를 제안한 연구입니다이 논문은 기존…
[arXiv2025]LongVideoAgent: Multi-Agent Reasoning with Long Videos
왜 제안되었나? Crucially, most prior systems are non-agentic models: they process a static, pre-encoded or down-sampled video. 기존의 연구들은 미리 설계된(pre-encoded) 아키텍쳐로 분석을 수행하였다. 이러한…
KRoC 2026 참관기
안녕하세요. 이번 X-Diary에서는 2월 4일부터 6일까지 다녀온 KRoC 참관 후기 글을 작성하고자 합니다. 작년 CoRL을 몇 시간 정도 참관해본 것을 제외하고는 제대로 학회를 경험해본 건…
KRoC 2026 참관기
안녕하세요, 오늘은 2월 11일부터 2월 13일까지 다녀온 Kros에서 주관하는 KRoC에 다녀온 후기를 설명해드리고자 합니다. 이번에 방문해서는 주로 포스터 섹션을 위주로 보았고, 중간중간에 끼어 있는 발표…
KRoC 2026 참관기
올해 KRoC는 2025년에 비해 프로그램의 양과 밀도 모두 증가한 것을 확인할 수 있었습니다. 작년에는 정말 아무것도 모르고 경험만 하러 갔지만 이번에는 최소한의 의도를 가지고 포스터도…
질문 감사합니다. 우선 action encoder로 사용한 RenderNet을 찾아보니, 일관성 있는 캐릭터와 고품질 이미지를 생성하고 제어할 수 있는 강력한 AI 이미지…