[arXiv 2024] RAP: Retrieval-Augmented Planning with Contextual Memory for Multimodal LLM Agents

안녕하세요. 이번 논문은 과제 제안서 작업으로 MLLM + RAG 에 대한 서베이 중 알게 된 논문입니다. 정확히 말하면 본 논문의 큰 분야는 MLLM + RAG를 활용한 Agents 연구인데요. 해당 분야 최신 논문은 이제 막 연구가 진행되고 있거나 그 수가 많지 않았습니다. 그런 와중에 해당 논문이 arxiv 논문임에도 불구하고 20회 이상의 피인용수를 보여 눈에 띄었는데, 어떤 내용을 담고 있는지 살펴보겠습니다. 제목처럼 MLLM agents로 하여금 contextual한 memory를 planning에 활용하겠다는 것이 핵심입니다. 리뷰 시작하겠습니다.

0. Abstract

최근 LLM은 로봇 공학, 게임, API 통합 등의 분야에서 점점 더 복잡해지는 하나의 의사 결정 어플리케이션 agent로써 활용되고 있습니다. 하지만 어떤 의사결정을 할 수 있게 된 agent 라고 해서 완벽하진 않기에, 과거의 경험을 현재의 의사 결정 프로세스에 반영하는 것과 같이 인간이 자연스레 행하는 그런 planning은 여전히 어려운 과제로 남아있습니다.

이런 문제를 해결하기 위해 본 저자들은 과거의 경험을 현재 상황과 맥락에 맞게 동적으로 활용하여 agent의 planning 역량을 강화할 수 있도록 설계된 RAP(Retrieval Augmented Planning) 프레임워크를 제안합니다.

RAP는 텍스트 전용 환경과, multi-modal 전용 환경 모두에서 탁월한 성능을 발휘하여 다양한 업무에 적합하다는 점에서 차별화됩니다. 경험적 평가에 따라, RAP는 텍스트 시나리오에서 SOTA 성능을 달성하고, 특히 embodied task에서 multi-modal LLM agent의 성능을 향상시키는 등 그 효과를 입증했습니다. 이런 결과는 복잡한 실제 어플리케이션에서 LLM Agent의 기능과 적용 가능성을 발전시키는 데 있어 RAP의 잠재력을 보여줍니다.

1. Introduction

최근 연구들에서는 LLM이 agent로써 높은 수준의 추론 능력을 가질 수 있음이 주목받고 있습니다. 의사 결정 작업과 로봇 제어 등 다양한 분야에 적용될 수 있는 잠재력을 보여주고 있는데, 대표적으로 ReAct_{(Yao et al., 2023)}라는 이전 연구에서는 LLM이 행동과 추론을 반복적으로 수행함으로써 language agent로서 정확한 액션을 생성할 수 있음을 보여줬습니다.

한편, 이런 LLM의 급속한 발전에 발 맞추어 RAG(Retrieval Augmented Generation)라는 기술이 LLM의 생성 능력을 향상시키는 기술로써 급부상했습니다. 이 RAG 방식은 외부 지식을 생성 프로세스에 통합하여 생성된 콘텐츠의 맥락과 정확성을 강화하는 효과가 있습니다.

이 RAG만 있다면 기존 LLM agent의 planning 성능에 있어서 더 정확성을 높이고 맥락을 더 잘 고려하는 능력으로 능력을 보강할 수 있겠으나, 이런 LLM agent planning에 RAG를 붙이고자 하는 시도는 꽤나 상당한 어려움을 겪고 있었습니다. 예를 들어, failure cases를 분석하는 Reflexion_{(Shinn et al, 2023)}이나 맥락의 인사이트를 추출하고 language agents 의 학습을 강화하는 ExpeL_{(Zhao et al, 2023)} 같은 기존 연구는 복잡한 환경에서 포괄적인 과거 정보를 활용하는 데 부족함이 있었습니다. 이는 LLM 에이전트 planning에서 과거 경험을 활용할 수 있는 포괄적인 프레임워크가 부족하여 복잡한 실세계 시나리오에서 적응성과 적용성이 제한된다는 문제를 남기게 됩니다.

그래서 본 논문에서는 RAP(Retrieval-Augmented Planning)을 인간의 핵심적인 능력인 ‘과거 경험을 현재 작업에 활용하는 것’을 LLM 에이전트에 적용한 프레임워크로써 소개합니다. 주요 접근 방식으로는 1. 과거 경험을 메모리에 저장 2. 현재 상황과의 유사성을 기반으로 적절한 경험을 검색 3. 멀티모달 정보를 포함한 문맥을 고려 4. in-context learning을 통해 후속 행동을 생성 하는 식으로 접근하는 방식을 가지고 있습니다.

핵심적인 기술적 특징으로는 1. LLM의 패턴 기반 유추(analogy-making) 능력을 활용 2. 각 경험에 대해 문맥과 행동-관찰 궤적을 모두 저장 3. 작업 제약 조건 내에서 메모리 예제로부터 올바른 행동을 도출 한다는 점이 있겠습니다.

더불어 LLM과 Vision-Language Models(VLMs)를 별도로 활용하여 멀티모달 정보를 메모리에 저장하고 과거 경험 검색 시 활용하는 방식을 통해 유연한 멀티모달 정보 처리가 가능하다는 장점이 있습니다.

RAP의 contribution은 다음과 같습니다.

RAP는 LLM 에이전트의 계획 수립 능력을 향상시키는 새로운 프레임워크입니다. 과거 경험을 저장하고 현재 상황과의 유사성을 기반으로 지능적으로 검색함으로써 의사결정 과정을 전략적으로 강화합니다.
RAP는 텍스트 환경뿐만 아니라 multi-modal embodied 태스크에도 적용 가능합니다. 특히 멀티모달 에이전트를 위한 메모리 검색 기술을 적용한 최초의 시도라는 점에서 획기적입니다.
텍스트와 멀티모달 벤치마크 모두에서 RAP의 효과가 검증되었으며, 두 환경 모두에서 기존 SOTA 방법들과 비교하여 상당한 성능 향상을 보여주었습니다.

2. Related Work

관련 연구로는 살펴볼 것들이 크게 2가지 있습니다. 간단하게만 짚고 넘어가자면,

2.1. Language Models as AI Agents

최근 LLM을 활용한 연구에서는 어떤 자율 agents를 구축할 때 LLM의 의인화 기능을 활용합니다. 크게 4가지 주요 측면인 profile(에이전트 특성), memory(과거 정보), planning(실행 전략), action(실행 정책) 등으로 나뉩니다. 대표 예로는, 복잡한 문제 해결 작업을 위한 중간 단계에 reasoning을 통합하여 에이전트가 인간의 인지 메커니즘을 반영하도록 설계한 prompting 기법인 Chain-of-Thought(CoT)_{(Wei et al, 2022)}이 있고, 동적인 reasoning 프로세스를 통해 생성된 행동과 환경 상태를 interleaving하여 행동-상태 시너지를 통해 추론 능력을 향상시키는 ReAct_{(Yao et al., 2023)}가 있습니다.

저자들은 이 ReAct 프레임워크를 베이스로 삼고, 에이전트가 관찰 대상 내에서 특정 대상을 식별하고, 현재 컨텍스트를 기반으로 과거 경험을 추가로 검색하는 방식으로, 현재 상황과 가장 유사한 다양한 시점의 경험을 활용해 성능을 적응적으로 개선하는 것이 목표입니다. 아래는 ReAct Overview 입니다. 보시면 Prompt Engineering의 성격에 꽤나 가까운 것을 알 수 있는데, 기존 Standard Prompting, CoT(Reasoning Only) Prompting, Act-Only Prompting 과 비교하여 ReAct(Reason + Act)의 방식을 비교하며 보이고 있습니다.

2.2. Retrieval-Augmented Generation with Memory

RAG (Retrieval-Augmented Generation)는 검색 기반 메커니즘과 LLM을 결합해, 유사성을 기준으로 선택된 메모리 응답을 추가 컨텍스트로 제공함으로써 더 맥락에 맞는 결과를 도출하는 방법론입니다. 대표적으로 Reflexion_{(Shinn et al., 2023)}은 RAG 기반으로 시간에 따라 작업을 수행하면서 failure case에 대해 LLM이 자기 성찰하도록 유도하는 방식을 가졌고, ADaPT_{(Prasad et al, 2023)}은 작업을 sub-task로 세분화하여 필요한 부분을 재실행하지만, 이들은 각 작업 내의 trajectory_{(하나의 작업 내에서 모델이 진행하는 내부 실행 흐름이나 결정의 연속적인 과정)}만 반영하는 한계가 있습니다. 그래서 각각의 태스크별로는 제한적입니다. Reflexion을 기반으로 하는 ExpeL_{(Zhao et al., 2023)}은 생성된 모든 경험을 LLM으로 전달하여 텍스트 기반 방식으로 반영합니다.

위 기존 연구들과 달리, 본 논문에서는 명시적인 재작업 단계 없이 메모리에서 다양한 경험을 암묵적으로 끌어오는 방식을 채택하여, 에이전트가 다른 성공적 작업의 경험을 일반화하고 현재 작업에 필요한 관련 요소를 추출하여 메모리 효율성을 추구합니다.

3. Methods

크게 Reasoner, Retriever, Executor 가 큼직하게 동작하고, 그 과정에서 현재 환경과 Memory 등과 상호작용 및 검색 증강을 통해 전체 파이프라인이 동작하게 됩니다.

3.1. Preliminaries

먼저 이 논문에서는 특정 환경에서 작업 T 를 수행하도록 지정된 agent를 고려하게 됩니다. agent는 전체 계획 p 를 수립한 다음, 시간 구간 H 로 제한된 유한 시간 동안 환경과 상호작용하게 됩니다. 각 시간 단계 t ∈ $\{1, 2, ...\ H\}$ 에서 agent는 action plan $p'_t$ 를 수립하고, action space A 에서 action $a_t$ 를 선택하며, observation space O 에서 observation $o_t$ 를 받습니다. 시간 t 까지 agent의 trajectory $\tau = \{\vec{p'_t}, \vec{a_t},\vec{ o_t}\}$ 는 계획들의 순서인 $\vec{p'_t} = (p'_1, ... \space p'_t)$ , action들 $\vec{\alpha_t}=(\alpha_1, … , \alpha_t)$ , observation들 $\vec{o_t}=(o_1, … , o_t)$ 로 구성됩니다.

근데 RAP에서 사용되는 action plan, action space, observation space 등의 용어는 ReAct의 개념을 확장한 맥락에서 이해할 필요가 있는데요. 먼저 action plan은 현재 태스크에 따라 agent가 수행할 세부적인 작업계획을 추론하여 정의하는 것을 말합니다. 이 때의 과정은 LLM agent를 통해 이루어지게 되는데, 예를 들어 ALFWorld 라는 벤치마크 환경에서 “I need to find the watch”라면, RAP의 Reasoner는 “search watch”라는 action plan을 생성하게 됩니다. 이후엔 이 action plan을 기반으로 Retrieval Key를 생성하여 유사한 과거 Memory를 Retriever에서 찾고, 최종 행동을 결정하는 과정을 거치게 됩니다.

다음 action space는 그럼 action plan과 뭐가 다르냐? action space는 바로 agent가 실행할 수 있는 모든 행동들의 집합입니다. 환경에 따라서 정의된 가능한 행동 목록들이며, 특정한 상태 변화를 유발하기에 각각의 행동을 어떻게 골라야할 지가 핵심이라고 볼 수 있습니다. 예를 들어 멀티모달 환경 벤치마크인 Franka Kitchen의 경우엔, 행동이 구체적인 물리 조작을 포함할 수 있도록 “open microwave, move kettle” 등과 같은 가능한 action space를 구성하는 방식을 가집니다.

다음 observation space는 agent가 환경과 상호작용한 결과로 얻는 관찰 데이터의 집합입니다. 환경에 따라 텍스트나 멀티모달(이미지+텍스트) 형태로 제공될 수 있습니다. 예를 들면 텍스트 환경에서는 환경 상태를 설명하는 텍스트로 “On the shelf 1, you see a watch” 등과 같이 표현될 수 있고, 멀티모달 환경의 경우에는 CLIP 기반 이미지 벡터화로도 표현이 가능하다고 합니다.

마지막 trajectory는 agent가 특정 작업 수행 중 거치는 action과 observation의 연속적 흐름을 의미합니다. 즉 시간에 따른 상태 변화 및 행동과 환경의 반응 기록이기에 과거의 trajectory를 저장하고 이를 기반으로 유사한 상황에서 활용하고자 하는 것이 핵심인 용어입니다. 아래 그림을 보시면 조금 더 와닿을 것 같습니다. 저의 경우에는 그림에서 보여지는 모든 텍스트(추론, 행동, 관찰, 검색 키 생성)가 trajectory의 구성 요소가 되는 것으로 이해했습니다. (개인적인 생각입니다..)

3.2. Memory

RAP를 가능하게 하기 위해, 우선 메모리 데이터베이스를 구축합니다.

이 데이터베이스는 이전에 성공적으로 수행된 작업 실행 기록을 포함합니다. 작업 $T_i$ 를 $H_i$ 단계 안에 완료한 각 로그 $L_i$ 에 대해, 작업 정보 $T_i$ , 전체 계획 $p_i$ , 그리고 계획, 행동 및 관찰 시퀀스를 포함하는 에이전트 궤적 $\tau_{L_i}$ 를 기록합니다.

L_i = \{T_i, p_i, \tau_{L_i}\}\\

\tau_{L_i} = \{\vec{p'}_{L_i}, \vec{\alpha}_{L_i}, \vec{o}_{L_i}\}

텍스트 환경에서는, 관찰값이 세계 상태를 설명하는 텍스트로 구성됩니다. 멀티모달 환경에서는 관찰값이 에이전트 행동 이후 고정된 시점의 카메라에서 얻은 이미지와 같은 시각적 표현으로 구성됩니다.

이 로그는 에이전트가 작업을 시도하고 성공적인 에피소드들의 스트림을 저장하면서 수집됩니다. 이러한 에피소드 로그는 작업을 완료하기 위해 필요한 단계를 포착합니다. 이러한 예제를 저장하면 에이전트가 새로운 작업 인스턴스를 계획할 때 이전 경험을 활용할 수 있게 됩니다.

환경과의 상호작용 중에, 에이전트는 관련 있는 메모리 샘플을 선택적으로 검색하여 더 정보에 기반한 행동 결정을 내릴 수 있습니다. 텍스트 작업의 경우, 텍스트 로그는 중요한 문맥을 제공합니다. 구체적 구현 작업에서는, 이전의 시각적 관찰값이 공간 내에서 행동의 결과를 드러냅니다. 프로토타입 실행을 검색함으로써, 에이전트는 과거의 실패를 피하면서 더 스마트한 정책을 계획할 수 있습니다. 이 메모리 증강은 모델이 연속적 의사결정을 위해 중요한 환경 지식을 얻을 수 있도록 합니다.

3.3. Reasoner

Reasoner는 LLM을 사용하여 에이전트의 현재 상황과 행동 궤적을 바탕으로 전체 계획, 세부 행동 계획, 그리고 검색 키를 생성합니다.

전체 계획 생성: 주어진 작업 정보를 토대로 전체 계획을 수립합니다.
행동 계획 생성: 전체 계획과 작업 정보를 기반으로 구체적인 행동 계획을 만듭니다.
동적 행동 및 검색 키 생성: ReAct 방식을 따라 현재 작업 상태를 반영한 동적 행동이나 행동 계획을 생성하며, 행동 계획이 만들어지면 그에 맞는 검색 키(예: “I need to find the watch” → “search watch”)를 생성합니다.

이 과정을 통해 Reasoner는 에이전트가 현재 상황과 맥락을 고려하여 효율적으로 행동하도록 돕는 역할을 하게 됩니다.

3.4. Retriever

Retriever는 에이전트가 현재 작업을 완수할 수 있도록 다양한 측면을 고려해 가장 관련성 높은 메모리 로그를 효율적으로 식별, 추출하는 역할을 합니다. 이 프로세스를 통해 방대한 메모리 로그 저장소에서 가장 관련성이 높고 상황에 적합한 로그가 Retrieval 되면 Executor 역할을 하는 LLM에서 중요한 리소스로 사용되게 됩니다.

현재 상태 $S_0$ 와 각 메모리 로그 $L_i$ 사이의 유사도는 현재 agent의 작업 정보( $T_0$ ), 전체 계획( $p_0$ ), 그리고 현재 실행 계획인 $p'$ 에 따라 Reasoner가 생성한 검색 키( $k_0$ )의 유사도를 가중 평균하여 계산합니다.

각 구성 요소의 유사성 점수는 특징 표현의 공동 사인 유사성을 사용하여 결정되는데, 먼저 텍스트 데이터의 경우, sentence-transformers로, 이미지 데이터는 CLIP 기반 Vision Transformer로 표현 벡터를 생성한 후 코사인 유사도를 이용해 유사도를 산출합니다.

검색 키와 로그 trajectory 간의 유사도 점수는 환경 유형과 검색 키 유형에 따라 계산방식이 달라집니다.

먼저 멀티모달 환경에서 검색 키는 현재 시각적 관찰에 해당합니다. 따라서 현재 시각적 관찰을 반영하며, 시각적 궤적 관찰 간의 코사인 유사도로 계산됩니다.

다음 텍스트 환경에서 검색 키 유형에 따라 식이 달라지는데,

객체 탐색 등의 경우, 검색 키와 로그의 텍스트 궤적 관찰 간의 유사도로 계산됩니다.

행동 계획과 관련된 경우, 검색 키와 로그의 행동 간의 유사도로 계산됩니다.

마지막으로 환경에 따라 각 구성 요소의 가중치가 조정됩니다. 예를 들어, 특정 제한된 작업 공간(예: Franka Kitchen)에서는 작업 유사도가 더 높은 가중치를 갖습니다. 또한, 검색된 경험 중 가장 유사한 행동을 중심으로 일정 범위의 trajectory만을 에이전트에 전달하여 불필요한 정보를 줄입니다. 이와 같이 Retriever는 다양한 측면을 고려한 가중 유사도 계산을 통해 가장 적절한 메모리 로그를 효율적으로 선택하며, 이를 통해 Executor 역할을 하는 LLM이 효과적으로 작업을 수행할 수 있도록 지원합니다.

3.5. Executor

Executor는 Retriever로부터 과거 경험을 수신하고 in-context learning을 통해 이러한 경험을 활용하여 다음 동작을 생성합니다. 과거 경험을 현재 컨텍스트에 맞춰 프롬프트로 제시함으로써 다음 행동에 대한 정확한 의사결정을 가능하게 하며, 이는 인간이 과거 경험을 미래 행동에 활용하는 과정을 반영한 것입니다. 또한 현재 작업 궤적의 길이는 과거 경험과 동일한 방식으로 사용되며, 일정한 수의 새로운 궤적만 활용합니다. 이를 통해 LLM의 맥락 내 학습을 통해 경험에서 효과적인 유추를 유도할 수 있습니다.

4. Experiments

RAP의 성능을 검증하기 위해 텍스트 기반 및 멀티모달 환경에서 총 네 가지 벤치마크를 활용하였습니다.

텍스트 기반 환경:
- ALFWorld _{(Shridhar et al., 2021)} : 가상 가정 환경에서 텍스트 기반 상호작용을 통해 물건을 찾고 조작하는 작업
- WebShop _{(Yao et al., 2022)} : 1.18M개의 Amazon 제품 데이터를 활용한 웹 기반 쇼핑 시뮬레이션 작업
멀티모달 환경:
- Franka Kitchen _{(Gupta et al., 2019)}: 로봇 조작 및 가정 내 작업
- Meta-World _{(Yu et al., 2021)} : 보다 일반적인 로봇 조작 작업

4.1. 텍스트 기반 환경 평가

4.1.1. ALFWORLD

RAP는 6가지의 작업유형에 대해 기존 방법론들보다 성능이 뛰어났으며, 이는 GPT-4 및 LLaMA 2-13B 모델에서도 베이스라인인 ReAct보다도 효과적이었기에 GPT 외의 LLM에서도 범용성을 보인다고 볼 수 있었습니다. 즉 RAP는 기존 LLM 기반 방법들보다 과거 경험을 효율적으로 활용하여 높은 성공률을 보이며, Figure 4에서는 GPT-3.5 기반 RAP 모델이 GPT-4 기반 ReAct 모델과 유사한 성능을 달성하며, 효과적인 메모리 활용이 성능 향상에 기여할 수 있음을 보였습니다.

4.1.2. WEBSHOP

해당 WebShop 환경에서는 에이전트가 주어진 사용자 요청에 맞는 최적의 제품을 선택해야 합니다. WebShop의 특징은 작업이 개별적인 시나리오에 의존한다는 점이며, 이를 해결하기 위해 RAP는 작업 간 유사도뿐만 아니라 작업 내에서의 관계성을 고려하는 방식을 도입했습니다. RAP는 기존 기법들보다 더 좋은 성능을 보였고, 이전 작업의 성공적인 경험을 효과적으로 재사용하며, 이를 통해 보상 점수(76.1%) 또한 기존 방법보다 높은 성과를 보였습니다.

4.2. 멀티모달 기반 환경 평가

4.2.1. Franka Kitchen & Meta World

LLaVA 및 CogVLM 기반 VLM(비전-언어 모델) 에이전트 를 기반으로 실험이 진행되었습니다. 과거 성공적인 실행 기록을 참조하는 방식이 로봇 조작 작업에서 큰 효과를 보이는 것을 입증함과 동시에, 텍스트 환경에서 환경의 경험을 활용했던 것만큼 멀티모달(로봇 작업) 환경에서의 시각적 경험 활용이 성능개선에 효과적이었음을 보였습니다.

4.3. Ablation Study

RAPact: 행동(Action) 정보만을 기반으로 과거 경험을 검색하는 방식.
RAPobs: 관찰(Observation) 정보를 기반으로 과거 경험을 검색하는 방식.
RAPclip: 텍스트 기반이 아닌 이미지 기반 검색(CLIP 활용)을 수행하는 방식.
RAP (Full model): 모든 요소를 결합한 최종 모델.

Observation 정보를 활용하는 RAPobs가 Action Retrieval 방식(RAPact)보다 높은 성능을 보였고, 이미지 데이터를 활용하는 CLIP 기반 검색(RAPclip)은 텍스트 기반 Observation Retrieval(RAPobs)보다 약간 더 나은 성능을 보였습니다.

RAPact: Action 정보만을 기반으로 검색.
RAPobs: Observation 정보를 활용하여 검색.
RAPintra: 동일한 유형의 과거 작업(Task) 내에서 가장 유사한 경험을 검색하는 방식.
RAPcat: 상품 카테고리(Product-category) 정보를 고려하여 검색하는 방식.
RAP (Full model): 모든 요소를 결합한 최종 모델.

Observation 정보를 포함한 RAPobs가 Action Retrieval 방식(RAPact)보다 성능이 우수했습니다. RAPintra (Intra-task Retrieval)는 이전과 유사한 작업의 경험을 재사용하는 방식으로, 추가적인 성능 향상을 보여주었고, RAPcat (Product-category Retrieval)은 상품의 카테고리를 고려하여 검색을 수행함으로써 성능을 더욱 향상시켰습니다. 이는 WebShop과 같은 복잡한 검색 환경에서는 단순한 행동 기반 검색보다 추가적인 작업(Task) 관계 분석이 효과적임을 보임과 동시에, 상품의 속성이나 맥락을 고려하는 방식(Product-category Retrieval)이 검색 성능을 높이는 데 기여했다고 볼 수 있습니다.

마지막은 transfer learning입니다. GPT-3.5가 자체적인 메모리를 활용했을 때(63.4%) 성능이 크게 향상되었습니다. LLaMA 2-13B는 자체 메모리를 활용하지 않았을 때(20.9%) 성능이 낮았지만, GPT-3.5에서 구축된 메모리를 활용했을 때 27.6%로 성능이 증가했습니다. 이는 RAP가 모델 간 지식 공유(Transfer Learning)를 지원할 수 있음을 시사합니다. 한 모델에서 구축된 경험을 다른 모델에서도 재사용 가능하므로, 새로운 환경에서 LLM을 훈련할 때 학습 비용을 절감할 수 있었습니다. 특히, 고성능 LLM(GPT-3.5 등)에서 학습된 메모리가 저성능 LLM(LLaMA 2-13B)에도 도움이 될 수 있음을 보여줬습니다.

5. Conclusion

개인적인 소감으로는,, 방법론에 있어서 생략이 꽤나 많이 들어간 논문 같습니다. ReAct 등의 LLM을 agent로써 활용하기 위해 나온 논문들이나 RAG 논문에 대한 기본 지식이 있다는 가정 하에 저자들이 설명하고 있어서 다른 논문을 많이 찾아보느라 시간이 좀 걸려서 힘들었습니다. 리뷰 마치겠습니다.

3 thoughts on “[arXiv 2024] RAP: Retrieval-Augmented Planning with Contextual Memory for Multimodal LLM Agents”

김 주연 says:

02/03/2025 at 14:30

안녕하세요. 좋은 리뷰 감사합니다.

메모리 데이터베이스 구축과 관련하여 질문이 있는데요. 이전에 성공적으로 수행된 작업 실행 기록을 수집하는 거라면, 처음에 해당 에이젠트를 사용할 때는 메모리 데이터베이스가 텅 비어있는 상태일까요? 아니면 이미 구축된 메모리 데이터베이스가 존재하고 작업을 수행하며 성공적으로 수행된 것을 추가적으로 기록하는 것을 의미하는 걸까요?
전자의 경우라면, 언제 시행했는지에 따라서 성능이 많이 달라질 수도 있을 것이라 생각되어 질문드립니다.

감사합니다.

김 태주 says:

02/03/2025 at 16:46

재찬님 좋은 논문 리뷰 감사합니다.

해당 기법은 Reasoner, Executor로만 구성된 ReAct가 풍부한 정보가 있는 과거의 경험을 활용하지 못한다는 단점을 극복하고자 Retriever + Memory를 추가한 기법으로 ReAct 대비 높은 결과를 보여주고 있습니다. 또한 재학습 없이 활용 가능하다는 점에서 활용도가 높은 기법인 것 같습니다.

몇 가지 질문 남기고 가겠습니다.

Q1. 해당 논문에서 나오는 Reasoner, Exeutor, Retriver는 각각 따로 가동되는 LLM인가요? Agent라고 하셔서 질문드립니다. (내용 상 Retriver는 LLM이 아닌 별도의 모델로 유사도만 검사하는 것 같습니다)

Q2. ReAct도 그렇고 RAP에서도 observation이 핵심적인 것으로 보입니다. observation과 reasoning의 차이가 무엇인지 추가적인 설명 부탁드려도 될까요?

김 영규 says:

03/10/2025 at 12:11

안녕하세요 재찬님 리뷰 감사합니다.

observation space가 어떻게 정의되고 구성되는지, 그리고 멀티모달 환경에서는 시각적 정보와 텍스트 정보가 어떤 방식으로 결합되어 에이전트의 planning과 decision-making 과정에 활용되는지 조금만 더 설명해 주실 수 있으실까요??