Author: 김 주연

Posted in X-Review

[ICLR 2023] Mastering Diverse Domains through World Models

안녕하세요. 오랜만에 World Model로 다시 돌아왔습니다. 이전에 Dreamder V1을 리뷰해봤는데요. Dreamder V3의 경우, 그 구조를 유지하면서도 굉장히 다양한 도메인에서 높은 성능을 유지하였습니다. 그럼 시작해보겠습니다. <Introduction>…

Continue Reading
Posted in X-Review

[TPAMI 2023] GCNet: Graph Completion Network for Incomplete Multimodal Learning in Conversation

안녕하세요. 최근 MER2026 Challenge의 Track 1, MER-Cross: Interlocutor Emotion을 살펴보다가 흥미로운 문제를 발견했습니다. 기존 multimodal emotion recognition은 보통 영상 속 사람이 “어떤 감정을 표현하고 있는가”를…

Continue Reading
Posted in X-Diary

프롬프트 엔지니어링: 추론 기법에서 에이전트 실행과 평가까지

안녕하세요. 프롬프트 엔지니어링:프롬프트에서 컨텍스트, 하네스까지를 통해서 수업의 절반부분을 다뤘는데요. 후반 수업에서는 추론 기법과 에이전트를 실행하고 이를 어떻게 평가하는지에 대한 방법을 배웠습니다. 이번주를 기점으로 수업이 마무리되어서…

Continue Reading
Posted in X-Review

[CoRL 2022] Inner Monologue: Embodied Reasoning through Planning with Language Models

안녕하세요. SayCan에 이어서 또 다른 유명한 LLM을 이용한 논문인 Inner Monologue 입니다. 사람이 독백을 하면서 생각을 정리하는 것처럼 LLM도 이를 이용해 action 성능을 향상시켜보겠다는 논문으로…

Continue Reading
Posted in X-Diary

프롬프트 엔지니어링: 프롬프트에서 컨텍스트, 하네스까지

안녕하세요. 오랜만에 x-diary를 작성하는 것 같습니다. 제가 정말 좋은 기회로, 동그라미 재단에서 후원하여 국내 1호 프롬프트 엔지니어로 유명한 강수진 박사님께서 진행하시는 [프롬프트 엔지니어링(심화)] 수업을 수강하게…

Continue Reading
Posted in Conference X-Review

[CoRL 2022] Do As I Can, Not As I Say:Grounding Language in Robotic Affordances

이번에 읽은 논문은 굉장히 인용수 높은 SayCan이라 불리는 논문입니다. LLM을 로봇 행동에 연결하는 방법을 다루는 논문이라고 보시면 됩니다.이 논문의 핵심은 언어 모델에게 “무엇을 하면 좋을지”를…

Continue Reading
Posted in Conference Paper X-Review

[ICLR 2020] Dream to Control: Learning Behaviors by Latent Imagination (Dreamer)

Latent World Models기반 월드 모델의 계보를 잇는 모델이자, 최근 DreamderV4까지 나온 논문의 시초인 dreamer를 리뷰해봤습니다. 재밌게 읽어주시면 감사하겠습니다. 먼저, Dreamer를 읽을 때 강화학습, 월드 모델,…

Continue Reading
Posted in Paper X-Review

[NeurIPS 2024] RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs

1. Introduction Retrieval-augmented generation(RAG)는 LLM을 커스텀하여 long-tail knowledge를 처리하고, 최신 정보를 반영하며, 특정 도메인에 적용할 수 있는 기술을 의미합니다. 일반적으로 RAG의 동작원리는 이러합니다. 우선 dense…

Continue Reading
Posted in Paper X-Review

[EMNLP 2023] Open-Ended Instructable Embodied Agents with Memory-Augmented Large Language Models

1. Introduction free-form 형식의 human instruction과 human-robot dialogue를 로봇이 실행 가능한 plan으로 해석하는 것은 language의 다양성과 복잡성 때문에 어렵습니다. 또한 human language는 long-term reference와 질문,…

Continue Reading
Posted in Paper X-Review

[COLM 2024] RAFT: Adapting Language Model to Domain Specific RAG

최근에 제안서 작업을 하면서 RAG를 팔로업 할 필요성을 느꼈는데요. 해당 논문은 이미 많이 인용된 논문일 뿐만 아니라 코드 또한 공개가 되어 있어 이 논문을 시작으로…

Continue Reading