기초연구실 – Robotics and Computer Vision Lab

손 우진 on [arXiv 2025] SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics01/13/2026
안녕하세요 기현님 리뷰 감사합니다. Smol VLA의 구조 에 대해서 자세히 몰랐는데 이해하는데 도움이 되었습니다. 우선 궁금한건 이런 robot vla에 입력들에…
이 재윤 on [NIPS2025] Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding01/13/2026
안녕하세요 성준님, 좋은 리뷰 감사합니다. 조금 극단적인 케이스긴 하나, 한 사람만 내내 등장하는 비디오의 경우, 모든 클립이 같은 entity를 공유하기…
이 예은 on [NIPS2025] Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding01/13/2026
안녕하세요 성준님, 좋은 리뷰 감사합니다. 비디오 클립을 하나의 노드로 삼는 그래프 기반 RAG라고 이해하였는데, 단순명료한 아이디어이면서도 효과적인 방법론인 것 같네요.…
김 정우 on [arXiv 2025] SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics01/13/2026
안녕하세요 기현님. 좋은리뷰 잘 읽었습니다. 기현님이 항상 flow matching이나 smolVLA 얘기를 하셨는데 이번에 자세히 알게 된것 같습니다. 궁금한 점이 있습니다.…
김 현우 on [IJCV 2025] Guiding Audio-Visual Question Answering with Collective Question Reasoning01/13/2026
좋은 리뷰 감사합니다. 읽다보니 CoQo가 text encoder로 lstm을 쓴다는 점도 다른 방법론들과 차이가 있긴 하네요. CoQo의 핵심 contribution은 결국 한…

Tag: 기초연구실

3D Object Pose Estimation

Conference Deadline

NEW POST

New Comment