본 연구는 7개의 NLP 벤치마크에서 다수결 투표만으로 multi-agent debate(MAD)성능 향상을 대부분 설명할 수 있음을 발견한 연구이다. 고수준 추론이 발생하는 인간 집단(법정)에서는 reflect, revise, converge 과정이 지능적 행위의 특징(hallmark)였다. 이러한 직관에 맞게 llm 역시 구조화된 상호작용을 통해 성능 개선이 있을 수 있는지 탐구되어왔고 MAD(multi-agent debate)가 이러한 프레임워크이다.
MAD를 정의하는 주 재료는 “다중 에이전트를 사용하는 것”과 “iterative discussion을 통한 상호작용”이다. 최신 연구는 이러한 프레임워크를 위해 커뮤니케이션 프로토콘, 효율, 페르소나 등을 제시해왔다. 하지만 MAD의 성능 개선이 어디서 발생하지는 명확하지 않았다. 자연스러운 스텝으로 MAD의 구성요소인 멀티 에이전트 자체와 debate중 어디서 성능 개선이 발생하였는지 알아볼 수 있다. 논문은 ensembling과 interaction의 기여도를 잘 분석하기 위해 경험적 실험을 수행했음에 가치가 있다.
동기

멀티에이전트 시스템의 성능 개선은 단순하게 다양한 출력을 결합해서 생기는 것일까 아니면 토론 과정에서 생기는것일까? 만약 전자라면 voting만 수행하는것이 좋을것이다. Figure1을 보면 debate과정은 voting에 비해 추가적인 연산을 많이 발생시키기 때문이다. 이러한 문제정의를 가지고 실험한 결과는 Figure2이다. 놀랍게도 MAD 시스템의 성능 개선 대부분이 voting에서 유래됨을 알 수 있다. 노란색 막대가 하늘색 막대보다 보통 높거나 비슷하다는 점에서 이를 예상할 수 있다. 이러한 실험적 관찰에서 발견한 분석의 필요성을 기반으로 저자들은 이론적 프레임워크를 제시하여 집단 의사 결정 방식을 더욱 체계적으로 분석했다.
Is debate really necessary?

저자들은 MAD 시스템을 분석하기 위해, 앞서 소개한 바와 같이 본 시스템을 “Multi-agent ensembling”과 “Inter-agent communication” 로 나누어 실험적 분석을 진행하였다. 비교된 debate 방법은 에이전트가 서로의 모든 응답을 공유하는 Decentralized MAD와 이의 변종으로 효율을 높이기 위해 일부 에이전트만 소통하는 Sparse MAD, 마지막으로 center agent가 최종 응답 생성을 위해 상대의 응답을 활용하는 Centralized MAD를 사용하였다. 이 방법들은 초기 응답을 토론과정 없이 앙상블하는 majorit voting과 비교되었다. majority voting은 멀티 에이전트 시스템에서 라운드(T)가 0인 상황에 해당하며, Table1은 2,3,5 라운드와 비교햇다. 실험 데이터셋은 산수(Arithmetics), 수학적 추론(GSM8K), 사실 기반 질문(MMLU 2 type), 자연어 추론(HellaSwag), 상식추론(CommonSense QA), 레이블 정렬(HH-RLHF) 데이터셋에 대해 진행되었으며, 멀티에이전트 세팅은 5개의 동일한 모델(위는 qwen2.5, 아래는 llama3.1)을 에이전트로 사용하였다.
실험 결과인 Table1을 보면 MAD는 단일 에이전트보다는 일관되게 좋은 성능을 보이지만, majority voting에서는 그렇지 못했다. 이러한 경향은 qwen과 llama3.1 모든 실험에서 일관되게 관찰되는 현상으로 모델의 종에 상관없는 일반적인 현상임을 확인할 수 있다. 즉 MAD에서 debate를 제외하여도 성능이 유지되거나 오히려 개선된 것이다.

한편 MAD 시스템에서 에이전트의 수를 줄인 실험은 Figure3과 같다. 데이터셋 별로 차이는 있지만 에이전트의 수를 줄이는건 보통 성능을 일관되게 하락시키고 있으며, multi response 자체가 성능에 긍정적인 영향을 미쳤음을 알 수 있다.
이론적 분석
위에서는 실험을 통해 multi agent system에서 debate가 그리 핵심적인 역할이 아님을 확인했다. 논문은 이를 확실히 하기 위해 이론적 분석 또한 진행하였다. 분석을 위해 저자들은 각 에이전트를 디리클레 다항 분포(DCM)로 보았다. 에이전트가 특정 신념 α를 갖으면 이를 기반으로 렌덤성있는 출력을 통해 응답θ이 생성되는 것으로 모델의 확신 정도(신념)과 출력의 랜덤성(온도 세팅과 유사)을 모두 나타낼 수 있는 모델이다.
이렇게 했을 때 voting 시스템은 N(에이전트 수)이 충분히 커진다면 정답을 고를 확률의 하한을 갖게 된다고 한다. Δ는 logits에서 최고로 예측한 요소와 그 다음 요소간의 차이이다. N이 커질 수록 그 작은 우위가 누적되며 정답 선택확률이 커진다.

한편 debate는 이전 라운드의 답변을 통해 모델의 신념(α)을 직접 업데이트 한다. 즉 주변에서 많이 나온 답이 정답이라고 신념을 업데이트 하게 되는것이다. 답변의 노이즈가 쌓이면서 어떠한 경우에는 정답쪽 신념이 높아질 수 있지만, 에이전트의 노이즈 때문에 틀린 정답이 많이 발생하게 되면 오답쪽으로 신념이 업데이트 되어 최종적으로 답변을 오히려 망치게 되는 경우가 생기는 것이다. 정리하면 voting은 노이즈가 포함된 응답을 누적하며 정답의 미세한 우위를 증폭할 수있지만, debate는 매번 신념 업데이트로 노이즈의 상쇄가 아닌 누적이 발생할 수 있어 본 과정이 언제나 응답을 개선한다고 보기는 어려운 것이다.

실제로 Figure4에서는 단순히 debate를 반복하는 것이 성능 변화를 유발하지 않으며 평탄하게 유지됨을 통해 debate 과정이 노이즈 있는 확률 과정의 특징을 보임을 확인할 수 있다. (즉 성능을 개선할수도 망칠수도 있어 평균적으로 유지되는 현상, 마팅게일 행동 현상이 보임을 알 수 있다)
how to use debate
앞서 MAD가 일종의 마팅게일 특성을 갖음을 확인하였다. 만약 MAD가 확률적 과정의 특성을 갖는다면, 편향등을 과정중에 유도하여 정답에 가까운 응답을 하도록 할 수 있다. 저자들은 위의 MAD 특성 발견을 기반으로 MAD를 잘 이용하는 방법을 제시한다.
먼저 신념 업데이트 과정에 다수에 의한 노이즈가 포함될 수 있음이 MAD의 문제였다. 이를 확인하기 위해 신념 업데이트 과정에 의도적으로 편향을 주어 정답에 가까운 응답을 생성할 수 있는지 Table2를 통해 검토하였다. 검토를 위해 구현한 오라클은 만약 특정 에이전트가 정답을 생성하면 해당 에이전트는 더이상 업데이트가 되지 않으며, 에이전트가 정답을 유지하여 debate 중에 정답이 응답으로 발생할 확률이 높아지도록 구현하였다. 그 결과를 Decentralized MAD, T=5 기준으로 Table2에 리포팅하였으며, vanila 방법 대비 개선이 있었음을 확인할 수 있다.
다음으로, MAD-conformist와 MAD-Follower는 정답을 활용하지 않은 편향 유도 방법으로 conformist는 에이전트의 응답이 이전라운드의 다수결 투표와 일치할 때 응답을 업데이트하지 않는것, follower는 30%의 확률로 이전 라운드의 다수결 응답을 채택하고 그렇지 않을경우 탐색(새로운 응답을 랜덤샘플링)을 하는 방법이다. 해당 방법을 활용하였을 때 역시 vanilla 모델보다 일관되게 서응이 향상됨을 확인할 수 있다.

저자들은 발견한 현상의 일반성을 확장실험에서 검증하였다. 먼저 실험에는 7b모델을 사용했으나 이를 qwen 32B로 확장시켜 voting이 잘 동작함을 table3을 통해 확인하였다. 신념 업데이트 통제와 같은 조작이 없으면 debate가 단순 확률 과정으로 동작하며 일반적으로 는 더 무용함을 확인할수 있다. 둘째로 heterogeneous 에이전트를 멀티 에이전트로 활용했을 때 결과는 Table4와 같다. 실험 결과 서로 다른 페르소나를 부여한 멀티 에이전트를 이용했을 때에도 voting의 강세가 유지되었음을 확인할 수 있다.

또한 주관식 문제풀이에도 이러한 현상이 확인되는지 table5를 통해 확인하다. 검증을 위해 CNN/DailyMail 데이터셋의 subset으로 텍스트 요약 작업에 분석을 적용했으며 객관식은 voting 적용이 어려우므로 각 라운드에서 가장 좋은 성능을 보인 에이전트의 결과를 이용하는 방식(best-single agent)을 적용했다. Rouge-1은 단어의 중복도를, Rouge-은 요약문과 응답의 구조적 유사성을 평가하며, 토론이 진행되었을 때 best-single agent 대비 성능 개선은 거의 미미하거나 T=1라운드에서는 오히려 성능 감소도 보였음을 알 수 있다.

유진님 좋은 리뷰 감사합니다.
multi-agent의 장점이 출력 결합 과정과 토론하는 과정 중 어디서 생기는지 구분하고 이론적으로 분석한 결과가 흥미롭습니다.
당연히 토론하는 과정이 더 좋을 줄 알았는데, 효과가 없다는 것도 놀랍습니다.
해당 논문에 대하여 몇가지 질문이 있습니다.
먼저, 제가 해당 분야를 잘 몰라서, ‘멀티 에이전트 시스템에서 라운드(T)가 0인 상황’은 어떤 상황을 의미하는 것인 궁금합니다.
또한, 신념 업데이트 과정에 정답이거나 다른 모델의 답변과 비교하여 업데이트를 제한하는 방식을 통해 유의미한 성능 개선을 이루었는데, 그렇다면 이 방식으로 업데이트 된 경우에는 토론 과정이 효과가 있어지는 것인지 궁금합니다.
안녕하세요 유진님 좋은 리뷰 감사합니다.
단순하게 궁금한 부분이 있어서 답글드립니다 Figure 3에서 agent 수를 줄이면 성능이 하락한다고 했는데 그러면 debate가 아니라 sample 수 증가 때문일 수 도 있지 않을까라는 생각이 들었는데 5-agent voting과 1-agent self-consistency 5-sample을 비교했을 때도 비슷한 결과가 나오는지도 궁금한데 이에 대한 ablation은 따로 없었는지 궁금합니다!
감사합니다.