Author: 신 정민
Exclusive Self-Attention
이번에 소개해 드릴 논문은 아카이브에 공개된 지 2주 좀 안 된 논문입니다. 정확히는 테크니컬 리포트이고 애플에서 쓴 논문이네요. Intro 기존 트랜스포머는 문맥(Context)을 파악하는 ‘Self Attention(SA)’과…
[CVPR2026] Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model
Intro 해당 논문은 navigation과 manipulation에 사용할 수 있는 효율적인 World Model을 만드는 것을 목표로 합니다. World Model은 잘 아시다시피 해당 모델이 주변 환경의 역동성을 시뮬레이션하여…
[ECCV2024] Self-Supervised Any-Point Tracking by Contrastive Random Walks
Intro 본 논문이 타깃으로 하는 task는 Tracking Any Point (TAP)라는 task로 Deepmind가 작성한 TAP-Vid: A Benchmark for Tracking Any Point in a Video라는 논문에서 처음…
MineWorld: A real-time and open-source interactive world model on minecraft.
이번에 소개드릴 논문은 지난주 세미나에서 발표한 MineWorld라는 논문입니다. Microsoft 연구팀이 테크니컬 리포트로 작성한 문서로 가볍게 읽어보기 좋을 것 같아서 가져왔습니다. 일단 논문 소개에 들어가기에 앞서서…
[RA-L2025] VL-TGS: Trajectory Generation and Selection Using Vision Language Models in Mapless Outdoor Environments
본 논문은 지도 없는 야외 환경에서 로봇이 사람 중심(Human-centered)의 주행을 수행할 수 있도록 새로운 알고리즘을 제안하는 논문입니다. Intro 야외 환경은 공사 현장이나 계절 변화 등…
[NeurIPS2025] MoGe-2: Accurate Monocular Geometry with Metric Scale and Sharp Details
Intro 본 논문의 task는 단안 영상을 입력으로 받아 깊이를 추정하는 task로 DepthAnything 시리즈나 marigold와 같은 foundation model에 관한 논문입니다. 저자들은 이상적인 Depth foundation 모델이 갖춰야…
[ICCV2025] SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts
Intro 최근 비전-언어 네비게이션(Vision-and-Language Navigation) 분야는 다양한 태스크로 분화되었습니다. 저자들은 이를 언어 지시어의 세밀함(Granularity)에 따라 크게 두 가지로 분류합니다. 이들은 겉보기에 다른 목표를 가진 것처럼…
[ICCV2025] Rethinking the Embodied Gap in Vision-and-Language Navigation: A Holistic Study of Physical and Visual Disparities
Intro 최근 Vision-and-Language Navigation (VLN) 분야는 괄목할 만한 성장을 이루었지만, 여전히 시뮬레이션 모델과 실제 로봇 배포 환경 사이에는 큰 격차가 존재합니다. 기존 연구들은 로봇의 움직임과…
[Neurips2022] FlashAttention: Fast and Memory-Efficient Exact Attentionwith IO-Awareness
이번에 소개드릴 논문은 FlashAttention이라는 논문입니다. 사실 FlashAttention은 예전부터 경량화 관련된 논문을 읽으면 자주 등장했던 용어로 제가 관심을 가지고 있었는데 계속 미루고 미루다가 이번에 한번 읽어보게되었습니다….
[CVPR2024] Style Blind Domain Generalized Semantic Segmentation via Covariance Alignment and Semantic Consistence Contrastive Learning
이번에 소개드릴 논문은 CVPR2024에 게재된 논문으로 Domain Generalization for Semantic Segmentation 분야입니다. Intro Semantic Segmentation은 task 자체가 워낙 label annotation에 비용이 많이 드는 task입니다. 그래서…
질문 감사합니다. 우선 action encoder로 사용한 RenderNet을 찾아보니, 일관성 있는 캐릭터와 고품질 이미지를 생성하고 제어할 수 있는 강력한 AI 이미지…