Author: 신 정민

Posted in Conference X-Review

[ICLR2026] DIFFUSION TRANSFORMERS WITH REPRESENTATION AUTOENCODERS

지난번 세미나 때 공유드린 논문인데 좋은 논문이라 x리뷰로도 작성해보고자 합니다. Intro 해당 논문은 영상 생성 분야에서 좋은 모습을 보여주고 있는 diffusion 방법론들이 대부분 Stable Diffusion…

Continue Reading
Posted in X-Review

Exclusive Self-Attention

이번에 소개해 드릴 논문은 아카이브에 공개된 지 2주 좀 안 된 논문입니다. 정확히는 테크니컬 리포트이고 애플에서 쓴 논문이네요. Intro 기존 트랜스포머는 문맥(Context)을 파악하는 ‘Self Attention(SA)’과…

Continue Reading
Posted in Conference X-Review

[CVPR2026] Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model

Intro 해당 논문은 navigation과 manipulation에 사용할 수 있는 효율적인 World Model을 만드는 것을 목표로 합니다. World Model은 잘 아시다시피 해당 모델이 주변 환경의 역동성을 시뮬레이션하여…

Continue Reading
Posted in Conference X-Review

[ECCV2024] Self-Supervised Any-Point Tracking by Contrastive Random Walks

Intro 본 논문이 타깃으로 하는 task는 Tracking Any Point (TAP)라는 task로 Deepmind가 작성한 TAP-Vid: A Benchmark for Tracking Any Point in a Video라는 논문에서 처음…

Continue Reading
Posted in X-Review

MineWorld: A real-time and open-source interactive world model on minecraft.

이번에 소개드릴 논문은 지난주 세미나에서 발표한 MineWorld라는 논문입니다. Microsoft 연구팀이 테크니컬 리포트로 작성한 문서로 가볍게 읽어보기 좋을 것 같아서 가져왔습니다. 일단 논문 소개에 들어가기에 앞서서…

Continue Reading
Posted in Paper X-Review

[RA-L2025] VL-TGS: Trajectory Generation and Selection Using Vision Language Models in Mapless Outdoor Environments

본 논문은 지도 없는 야외 환경에서 로봇이 사람 중심(Human-centered)의 주행을 수행할 수 있도록 새로운 알고리즘을 제안하는 논문입니다. Intro 야외 환경은 공사 현장이나 계절 변화 등…

Continue Reading
Posted in Conference X-Review

[NeurIPS2025] MoGe-2: Accurate Monocular Geometry with Metric Scale and Sharp Details

Intro 본 논문의 task는 단안 영상을 입력으로 받아 깊이를 추정하는 task로 DepthAnything 시리즈나 marigold와 같은 foundation model에 관한 논문입니다. 저자들은 이상적인 Depth foundation 모델이 갖춰야…

Continue Reading
Posted in Conference X-Review

[ICCV2025] SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts

Intro 최근 비전-언어 네비게이션(Vision-and-Language Navigation) 분야는 다양한 태스크로 분화되었습니다. 저자들은 이를 언어 지시어의 세밀함(Granularity)에 따라 크게 두 가지로 분류합니다. 이들은 겉보기에 다른 목표를 가진 것처럼…

Continue Reading
Posted in Conference X-Review

[ICCV2025] Rethinking the Embodied Gap in Vision-and-Language Navigation: A Holistic Study of Physical and Visual Disparities

Intro 최근 Vision-and-Language Navigation (VLN) 분야는 괄목할 만한 성장을 이루었지만, 여전히 시뮬레이션 모델과 실제 로봇 배포 환경 사이에는 큰 격차가 존재합니다. 기존 연구들은 로봇의 움직임과…

Continue Reading
Posted in X-Review

[Neurips2022] FlashAttention: Fast and Memory-Efficient Exact Attentionwith IO-Awareness

이번에 소개드릴 논문은 FlashAttention이라는 논문입니다. 사실 FlashAttention은 예전부터 경량화 관련된 논문을 읽으면 자주 등장했던 용어로 제가 관심을 가지고 있었는데 계속 미루고 미루다가 이번에 한번 읽어보게되었습니다….

Continue Reading