Intro
LLM의 활용 형태중 하나로 MAS(multi agent system)이 활발하게 연구되고 있습니다. 최근 연구는 특히 roles 제안이나 tool 구성 제안과 같은 방식으로 이루어지고 있는데, 에이전트간 소통의 방식 자체는 보통 자연어를 통한 정보전달, 최근에는 latent space 정보로 공유가 됩니다. 그러나 내용적으로 어떤 정보가 가장 유용한지에 대한 고찰은 아직 없었는데요, 본 논문은 해당 부분을 분석하고 해결책으로 PACT라는 MAS protocal을 제안합니다.
Motivation

기존의 에이전트간 소통은 보통 에이전트의 응답을 전부 제공하거나, 단순히 llm으로 처리된 요약을 활용하는 등 충분한 고찰이 없었습니다. 본 논문에서는 어떠한 정보가 다음 추론을 위해 다른 에이전트로 넘어가야 하는지 확인하기 위하여 분석실험을 진행하였습니다. 논문은 MAS 시스템을 서로 정보를 가진 에이전트가 소통하는 수평적 협업 구조(Setting A)와 명확하게 역할이 부여된 에이전트간에 소통으로 문제를 해결하는 수직적 협업 구조(Setting B)나누어 다양한 파이프라인에 대한 실험을 수행했습니다. 소통의 방식으로는 에이전트가 생성한 모든 텍스트를 가공없이 전달하는 Full context, 에이전트가 내부적 고민(thinking process)를 출력하지 않고 결론 위주의 짧은 답변만 생성하는 concise generation(모델 스스로 장황한 논리를 삭제), 에이전트의 사고과정은 제거하고 최종 정답만을 사용한 conclusion only, 에이전트의 출력에 요약 작업을 하여 활용한 brief summary(별도 모델로 요약작업), 마지막으로 역할의 결과물만 추출하여 전달한 artifact only(에이전트가 찾은 증거, 중간 결론)에 대해 실험하였으며 그 결과는 그림1과 같습니다.
실험에서 특징적인 것은 먼저 full context의 경우 중복되고 장황한 정보를 전달하는데, setting B환경에서 가장 높은 토큰 비용을 발생시키지만 정확도는 비교적 낮은편으로 성능과 비용의 비효율적 관계를 갖는다는 특징이 있습니다. 즉 전체기록을 전달하는것보다 다른 효율적인 방식을 찾아야함을 알 수 있습니다. 다음으로 단순히 메세지를 짧게 하는것이 중복의 해결책이 아님을 Concise Generation, Brief Summary 결과로 알 수 있습니다. 명확한 제약/규칙없이 토큰수를 줄이기 위한 요약의 경우 비효율적일 수 있음을 Concise generation이 Setting B와 같은 역할 특화 파이프라인에서 성능이 개선이 없었음을 통해 확인할 수 있으며, Brief summary의 성능이 실험 전반적으로 안정적이지 않은것을 통해 요약으로 문맥 대비 정보량을 높이는것이 해결책일수는 있으나 완전하지 않음을 확인할 수 있습니다. 다음으로 결론만 제공하는 전략(conclusion only)의 실험을 확인할 수 있습니다.setting b의 경우 결론만 제공하더라도 에이전트의 페르소나들이 출력의 해석에 대한 정보를 주어 비교적 잘 작동하였으나 setting 에서 매우 취약함을 보이며 요약시에 결론만을 활용하는 것이 충분하지 않음을 보였습니다. 마지막으로 결론보다 다양한 정보이면서 요약 정보의 제약을 명확히 한 Artifact-only의 경우 가장 효과적임을 확인할 수 있습니다. 그러나 해당 방법의 경우 소통의 과정에서 다른 방법보다 많은 turn이 필요하며, 체계적으로 어떤 정보가 artifact 인지 정의하는 프로토콜이 부제하다는 한계가 있습니다.
proposed architecture (PACT)

위의 실험을 통해 에이전트간 소통에서 단순히 길이나 노이즈를 제거하는것보다 어떤 내용이 전달되는지가 중요함을 확인하였습니다. 분석을 바탕으로 논문은 다른 에이전트에게 전달할 정보를 명확히하며 중복된 정보를 최소화하는 소통 프로토콜인 PACT: Protocolized Action-state Communication and Transmission을 제안합니다. 기존 방법의 경우 에이전트의 출력인 y를 그대로 사용(1)하였다면, 제안하는 체널(Π)로 가공한 정보를 history에 추가(2)하여 토큰 효율적인 소통을 수행하도록 합니다.


특히 그림2에서 확인하 수 있듯이, Action, State, Result로 포함해야하는 정보의 제약을 명확히한것이 특징입니다. 여기서 Action이란 송신 에이전트가 무엇을 수행했고, 수신 에이전트가 무엇을 수행해야하는지에 대한 정보이고, State란 전달 정보의 근거가 되는 관측 데이터, 도구 실행 결과를 의미합니다. 마지막으로 Result의 경우 도구 호출을 통해 에이전트가 생성한 결과값, 최종 산출물, 정제된 답변을 의미합니다.
Experiments


실험은 모든 MAS 시스템에 대하여 제안한 프로토콜의 우수함을 확인하기 위해, 분석과 동일하게 setting A, B에서 모두 수행되었습니다. 벤치마크는 두 세팅을 통합하여 6개의 벤치마크(HotpotQA, 2WikiMultiHopQA, AIME2024, AIME2025, GPQA-Diamond, OpenBookQA)에 대해 진행되었으며 Qwen 계열의 다양한 사이즈에 모델에 대해 비교 수행했습니다. 소통 방식으로는 직전 에이전트의 메세지만을 활용하는 Chain of Agents(CoA), 제약없이 모든 에이전트의 출력을 공유 체널에 저장해 활용하는 TextMAS, 여러 에이전트가 답변을 수행하고 토론을 통해 다수결로 최종 결론에 도달하는 Multi agent debate 방식과 비교했습니다. 메인 실험 결과(Table1, 2)를 보면 PACT 방법이 활용한 토큰수가 비교 방법대비 확연히 작은것을 통해 효율성 측면에서 가장 효과적임을 확인할 수 있습니다. 정보가 나뉘어져서 활용되는 수평적 MAS인 Setting A방법에서 결론만 제공하는 것 보다 제안 방법과 같이 부과정보를 제공하면 성능이 개선됨을 확인할 수 있으며, 모델 규모가 커질수록 PACT의 효율성도 극대화되는 결과를 확인하였습니다.

다음 Ablation study로 각 필드의 기여도를 확인하였습니다. 본 실험 결과에서도 단순히 결론만 전달하는 것보다 state혹은 action 과 같은 부가정보를 함께 활용하는것이 효율적임을 확인할 수 있으며 최종적으로 모든 정보를 함께 활용하는 PACT 프로토콜이 가장 성능적으로 우수했음을 확인할 수 있습니다.

논문은 제안 방법의 실무적 확장성을 위한 실험도 제시하였습니다. 최근 실무적으로 활용되는 MAS로 엔지니어링이 많이 들어간 실무형 시스템(에이전틱 하네스)인 OpenHands나 SWE-agent에 제안한 프로토콜을 적용하여 토큰 사용 효율성과 정확도를 리포팅했습니다. Github 이슈등 실무 데이터로 구성된 공개 데이터셋 중 비용 문제로 subset인 500개를 활용하여 성능(Resolved%, 실제 성공률 수치는Resolved)을 확인하였을때 PACT가 개선을 보이며 토큰 사용량도 출였음을 확인할 수 있습니다.