[arXiv2025]Agent-Omni: Test-Time Multimodal Reasoning via Model Coordination for Understanding Anything

본 논문은 특별한 학습없이 다양한 모달리티의 foundation model을 에이전트 구조로 통합하여 모달리티 통합 시스템(omni-modal reasoning)을 세팅할 수 있음을 보인 연구입니다. 본 내용에 대해서는 이어서 더욱 자세하게 다루어 보겠습니다.

#intro

최근 멀티모달 대형 언어 모델(MLLMs)은 높은 성능을 보이고 있으나, 다양한 모달리티에 대해 모두 잘 동작하지는 않습니다. 아래의 Figure1에서 확인 할 수 있듯이 Agent-Omni를 제외한 기존 모델의 경우 데이터셋/도메인 마다 성능이 상이하며, 하나의 모달리티에 잘 동작함이 다른 모달리티에서도 잘 동작함을 의미하지는 않습니다. 또한 Table1에서 확인할 수 있듯이 모든 모델이 다양한 모달리티 입력을 수용할 수 있는것은 아닙니다. 한편 다양한 입력을 수용할 수 있는 Omni 시스템을 위해 MLLMs을 학습하는데 큰 비용이 발생하기 때문에 모든 모달리티에서 잘 동작하는 모델을 구성하는 것은 현실적으로 어려우며, 학습 데이터셋을 구축하는것 조차 매우 어렵습니다.

따라서 저자들은 학습 데이터 없이 master agent와 model pool로 구성된 agent system으로 학습 없이 omni modal 에 대해 수행할 수 있음을 보였으며, 그 결과 비교 모델에 대비하여 높은 성능을 달성했음을 확인할 수 있습니다.

#Agent-Omni

저자들은 학습없이 다양한 도메인의 입력을 처리할 수 있는 시스템을 위하여 agent-omni 시스템을 제안했습니다. agent-omni는 master agent를 통해 기존 파운데이션 모델을 조율하도록 하여 입력 모달리티에 대한 유연성을 확보했으며 워크플로우는 Figure2와 같습니다.

구조의 메인이 되는 master agent는 4가지 기능으로 구성됩니다: perception, reasoning, execution, decision(figure2 붉은 박스). perception은 입력을 통일된 json형태로 구조화하는 기능입니다. Figure2 에서 확인할 수 있듯이 모달리티별로 model pool의 파운데이션 모델을 호출하여 구조화된 정보로 요약하는 단계입니다. 다음으로 Reasoning은 사용자의 질의(question)을 작은 질문(sub-question)으로 나누는 과정입니다. Figure2의 노란 박스가 해당 기능의 출력값이며, 모달리티 별로 작은 질문을 정리하여 reasoning 과정의 해석가능성을 확보하였습니다. 다음으로 분해된 질문을 수행하는 과정이 Execution에 해당합니다. reasoning 과정으로 생성된 작업들을 수행하며 그 출력을 수집하는 단계입니다. 해당 메커니즘으로 중간 결과에 대해 추적이 가능하며, 이 또한 해석 가능성을 확보하는 구조입니다. 마지막으로 Decision은 수집된 결과를 기반으로 추론을 멈출지 지속할지 결정하는 기능입니다. 만약 추론을 멈추어도 된다고 판단되면(is_final=True) 정답값(final_answer)를 생성하고 그렇지 않다면 추론을 최대 한계(L)에 도달하기 전까지 반복할 수 있습니다.

다음으로 master agent의 도구인 파운데이션 모델은 Model pool에서 호출됩니다. 이러한 구조는 모델을 유연하게 변경할 수 있어 agent-omni 프레임워크가 확장성을 갖게 합니다. 저자가 제안한 구조는 직관적이고 단순합니다. 또한 프로세스 진행 중간의 해석가능성에 대해 고려하고 있다는 것이 특징입니다.

#Experiment Evaluation

agent 구조를 통해 구성된 시스템의 실제 동작 성능은 어떨까요? 논문은 이를 확인하기 위한 평가를 진행합니다. 특히 아래 항목을 달성하였는지에 집중하여 평가하였다고 합니다. (실험 디테일에 대한 부가적 정보는 아래의 #Additional을 참고해주세요)

  1. agent-omni가 다양한 모달리티에 걸쳐 잘 동작하고 있는가?
  2. 추론에서 계산량/효율성에 대한 경쟁력은 어떠한가?
  3. Model pool에서 다른 파운데이션 모델을 선택할 때 agent-omni 시스템의 정확도에 어떤 영향을 미치는가?
  4. 최대 반복 횟수(L, master loop)를 변경했을 때 최종 성능에 어떤 영향을 미치는가?

전반적인 실험 결과는 Figure1과 같으며, 모든 벤치마크에서 제안 방법이 일반적으로 우수한 성능을 보임을 통해 다양한 모달리티에 걸쳐 잘 동작함(1)을 확인했습니다. Figure1에 대한 수치적 정보는 아래와 같습니다.

다음으로 연산량에 대한 실험 결과입니다. 다양한 파운데이션 모델을 반복적으로 호출하는 에이전트 구조가 성능이 우수한것은 직관적인 결과로 생각될 수 있습니다. 그렇다면 연산량의 증가 정도는 어떨까요? 저자는 추론에 걸리는 시간(Latency)을 리포팅하여 이를 검증했습니다. 안타깝게도 Agent-omni는 성능의 개선만큼 연산량이 크게 증가하고 있음을 확인할 수 있습니다. 논문에서는 그저 연산량과 성능사이의 trade-off 관계가 성립한다고 언급하고 있는점이 아쉽지만, 가장 베이직한 구조를 제시하고 그 현황을 리포팅하는 포지션의 연구로 생각하시면 좋을 것 같습니다.

Table10은 최대 반복횟수 조정에 따른 시스템 전체 성능 변화를 리포팅 한 것입니다. 본 실험은 제안한 agent-omni 아키텍쳐의 안정성을 검토하는 실험으로 볼 수 있습니다. 결과에 따르면 대부분의 쿼리가 첫번째 반복 이후 종료되며(Table10의 Exit Rate의 1에 대다수가 할당) 최대 반복 횟수 증가에 따른 성능 변화가 미미함을 예측할 수 있습니다.

#Additional

A. 실험에 사용된 데이터셋 구성

연구진은 다중모달 이해능력을 평가하기 위해 다섯가지 도메인(텍스트, 이미지, 비디오, 오디오, 옴니 레벨)에 대해 다양한 벤치마크 데이터셋을 사용했습니다. 텍스트(MMLU, MMLU-Pro, AQUA-RAT), 이미지(MathVision, MMMU, MMMU-Pro), Video(VideoMathQA, STI-Bench, VSI-Bench), Audio(MMAU, MELD-Emotion, VoxCeleb-Gender), Omni-level(Daily-Omni, OmniBench, OmniInstruct)

B. 실험의 베이스라인 아키텍쳐

연구진은 제안 방법과 비교를 위해 기존 Foundation model과 구조화된 프롬프트로 single model의 추론을 개선한 DSPy-CoT를 베이스라인으로 하였습니다. 저자는 해당 비교를 통해 단일 모델 내에서 추론을 개선하는 것과 여러 파운데이션 모델을 협력하도록 하는것의 차이를 부각하고자 했다고 언급하였습니다. 또한 실험에서 agent-omni 구조의 최대 반복 횟수(L)는 3으로 설정되었습니다.

C. Model pool의 구성

Model pool로 사용된 파운데이션 모델과 역할은 아래와 같습니다.

Author: 황 유진

2 thoughts on “[arXiv2025]Agent-Omni: Test-Time Multimodal Reasoning via Model Coordination for Understanding Anything

  1. 좋은 리뷰 감사합니다.

    질문이 하나 있는데, Reasoning 단계에서 사용자의 질문을 모달리티별 sub-question으로 나눈다고 하신 것 같은데요. 혹시 이 분해는 master agent가 프롬프트만으로 수행하는 방식인가요? 아니면 각 모달리티별로 정해진 template이나 rule이 있는지도 궁금합니다.

    1. 안녕하세요 리뷰 읽어주셔서 감사합니다.

      말씀해주신대로 프롬프트로 수행하는 방식으로 모달리티별로 정해진 탬플릿이 있는것은 아닙니다
      혹시 프롬프트 생성에 활용된 탬플릿이 궁금하시면 논문의 보충자료의 figure4로 확인할 수 있습니다!
      논문 링크: https://arxiv.org/pdf/2511.02834

      감사합니다.

Leave a Reply