[arXiv 2024] LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding

안녕하세요. 제가 학부 패턴인식 수업에서 프로젝트를 진행하는 데, 그것에 대한 작은 주제로 MLLM(Multimodal LLM)을 활용한 zero-shot Visual Grounding을 시도해보고 있었습니다. 원래 처음엔 단순히 gpt4o에 모호한 명령어 prompt와 함께 이것저것 약 사진 찍어 올리다가, 약의 class는 너무나 잘 알고 제시하길래, 혹시 gpt가 약의 특정 위치를 지정할 수도 있으려나 싶어서 시도하다가 결국 bbox 값은 hallucination으로 자꾸 내뱉게 된다는 것을 알게 되어, 이를 고도화하려고 실험을 여러가지 해보고 있었는데요. 나름대로 아이디어를 떠올려서, 최신 OVD 모델인 Grounding DINO를 통해 미리 이미지 내의 모든 objects를 class agnostic한 느낌으로 검출하고, 검출한 bbox를 순서대로 1,2,3,4… 이렇게 인덱싱하고, 그 값을 기존 이미지 내에 물체 위에 bbox center 부근에 index를 그려넣어 gpt가 visual grounding을 이해하고 실행할 수 있게 할 수 있지 않을까? 싶어 시도해봤는데, 여전히 조금 실패는 하지만, 나름대로 잘 인지하더라고요. 그래서 이런 비슷한 방식으로 zero-shot visual grounding을 시도한 논문이 있지 않을까 싶어 찾아보았는데,, google scholar 뒤적뒤적하다가 arXiv 논문이지만 이 LLM-Optic 논문을 겨우 하나 찾게 되었습니다. 제가 생각했던 방법론과 다른 점은 무엇일지, 문제정의는 어떻게 했을 지, 실험은 어떤 식으로 했을 지 한번 리뷰를 통해 알아가보도록 하겠습니다.

1. Introduction

Visual Grounding은 자율 주행, 로보틱스, 무인 항공기(UAV) 네비게이션 등 여러 분야에서 기반이 되는 computer vision 태스크 중에 꽤나 중추적인 태스크입니다. Grounding DINO 같은 이전 선진 연구로부터 이러한 Visual Grounding 태스크는 지속적인 발전을 이루어왔고, Grounding DINO가 OVOD(Open Vocabulary Object Detection) 태스크에서 가장 SoTA를 찍게 되었습니다. 이 Grounding DINO가 물론 입력 텍스트 쿼리에서 처리할 수 있는 형식이 자유롭다는 점에서 그 동안의 연구들보다 더욱 차별점을 가질 수 있었으나, 그럼에도 불구하고 복잡한 입력 텍스트 쿼리는 완전히 이해하기에는 어려움이 있었습니다.

예를 들면 위의 Figure 1의 경우에서, Query (A)를 보면 “Help me find my printer.”를 쿼리로 줬는데, Grounding DINO는 결과로 프린트를 찾긴 했지만, 객체 레이블명은 “me find my printer.” 라는 부적절한 형태를 가졌습니다. 이는 즉 앞서 말했듯이 조금이라도 복잡한 문장 구조가 나오면 모델이 어려움을 겪고 의미 정보를 잘못 해석한다는 것을 의미하며, Query (B)를 보면 “Printer next to the computer” 라는 여러 객체의 이름이 포함된 쿼리가 주어졌을 때도, 찾고자 하는 Printer에 모델이 집중하는 게 아니라 computer도 같이 잡아내버리는 문제가 발생합니다. Query (C)도 비슷합니다. “The left chair”면 사람이라면 둘 중 당연히 왼쪽 의자만 찾고 싶은 것일 테지만, Grounding DINO는 둘 다 the left chair라고 라벨링해버립니다. 찾고자 하는 목표 객체를 주변 비교대상인 랜드마크들과 구별하지 못하는 것이고, 공간 관계를 잘못 해석하고 있는 것입니다. 정리하자면, 복잡한 text 쿼리에 있어서 조금 더 정밀한 localization 능력이 부족하며 grounding 능력이 조금 아쉽다는 말이기에, 이런 한계는 Visual Grounding의 복잡미묘함과 개선의 필요성을 여지로 남기게 됩니다.

Grounding DINO가 이런 한계를 보이는 주된 이유에 대한 저자들의 분석은 텍스트 인코더로 BERT를 사용하기 때문일 수 있다고 합니다. BERT는 주로 2가지 태스크를 통해 사전학습되는데, 바로 Mask Language Modeling(MLM)과 Next Sentence Prediction(NSP) 입니다. 이 태스크들은 기본적인 언어의 구조를 학습하는 데는 용이하지만, 보다 복잡한 언어적 형상과 문맥 관계의 복잡성을 잡아내는 데에는 조금 불충분하다고 합니다. Grounding DINO 얘기는 잠시 놔두고, LLM 얘기를 하자면, 반대로 LLM은 인터넷 스케일의 대규모 데이터셋을 통해 학습됨에 따라 자연어 이해에 있어서 너무나도 탁월한 능력을 지금까지 보여왔습니다. 복잡한 텍스트를 생성하고 이해하는 것을 넘어 그것보다 더 광범위하고 어려운 태스크나 훨씬 더 큰 데이터셋으로부터 사전학습되는 경우도 많기 때문에, LLM은 복잡한 의미 관계와 문맥적 변형을 더 깊이 이해할 수 있으므로, Grounding DINO와는 달리 텍스트로 제공되는 복잡한 쿼리를 해석하고 대응하는 능력이 더 좋을 것입니다. Multimodal LLMs(MM-LLMs)이라고도 불리는 Large Multimodal Models(LMMs)은 이미지와 텍스트 두 modal을 모두 통합하는 LLM의 확장판이기에(아직도 MLLM, LMM 등 뭔가 명칭이 정해지지 않은 느낌입니다. 본 논문 저자는 LMM이라고 계속 지칭하나,, 저는 LLM이랑 자꾸 헷갈려서 MLLM이라고 지칭하겠습니다.), 앞선 측면에서 Grounding DINO보다 복잡한 언어 이해 능력을 능가할 수 있을 것인데, 사실 MLLM은 현재 Visual Grounding에는 한계가 있어 복잡한 grounding 쿼리에 대해서는 또 정확한 bbox를 생성하지 못하는 경우가 많습니다. Visual Grounding과 같은 Visual-Language 태스크에서 MLLM의 성능을 향상시키기 위해 최근 방법론들 중[14-16](Cogvlm, Llava-grounding, Minigpt-v2, 2023)은 기존의 Large Model을 학습하거나 fine-tuning 하는 방식을 포함합니다. 하지만 그렇게 되면 역시 상당한 학습 cost와 컴퓨팅 리소스, 상당한 학습 시간이 필요하겠죠.

저자들은 이러한 점들에 주목해서, 추가 학습이나 fine-tuning 없이 LLM의 추론 기능을 통합해서 기존 OVOD 모델의 성능을 향상시키는 심플하지만 효과적인 방법론 LLM-Optic을 제시합니다. LLM-Optic 에서 Optic은 Optical Lens의 의미로 쓰였는데, 이로 유추해보자면 LLM과 함께 기존 OVD 모델을 광학렌즈로써 활용해서 현재 한계에 봉착한 복잡한 텍스트 쿼리, 여러 객체와 객체 간 공간 관계를 잘 이해할 수 있게 하면서 visual grounding 능력을 향상시키도록 의도했음을 유추해볼 수 있겠습니다.

그래서 contribution은 다음과 같습니다.

  • 텍스트 쿼리 내의 기본 intent(의도)를 분석하는 LLM 기반 Text Grounder, 잠재적인 target bbox를 생성하고 mark를 통해 텍스트와 해당 이미지 영역 사이의 링크를 주게 되는 Candidate Positioning and Setting Marks 모듈, 이미지 내에서 쿼리에 설명된 객체를 정확하게 식별하는 MLLM 기반 Visual Grounder, 이 3가지 파이프라인 요소를 통해 Visual Grounding 모델의 기능을 향상하도록 설계된 심플하고 효과적인 완전모듈화 프레임워크인 LLM-Optic을 제안합니다. 또한 간소화된 마이그레이션 프로세스를 통해 다양한 컴퓨터 비전 작업에 본 방법론을 적응적으로 적용할 수 있다는 장점이 있습니다.
  • 본 방법론은 추가 학습이나 fine-tuning 없이도 현재 SoTA였던 Visual Grounding 모델(Grounding DINO)의 기능을 크게 확장합니다. 즉 복잡한 텍스트 쿼리를 해석할 때 기존 모델이 직면하는 문제를 효과적으로 해결하며, 본 방법론의 프레임워크는 좁게 정의된 작업과 제한된 출력 형식에만 국한되는 specific한 모델의 한계를 뛰어넘어 다양한 입력 텍스트와 출력 결과를 허용합니다.
  • 여러 Visual Grounding 벤치마크에 걸친 실험 결과, 제안된 프레임워크는 추가 데이터를 사용하지 않고도 zero-shot 설정에서 SoTA를 찍었습니다. 실험은 평가된 모든 데이터 세트에서 개선을 보여주며, 가장 눈에 띄는 개선은 RefCOCOg 검증 세트에서 22% 증가한 것이었습니다.

2. Method


앞서 Intro에서 말했듯이, LLM-Optic은 크게 LLM 기반 Text Grounder, Candidate Positioning and Setting Marks 모듈, LMM 기반 Visual Grounder의 3가지 모듈로 구성됩니다. 처음에 LLM은 Text Grounder로 작동하여 복잡한 텍스트 쿼리를 처리하여 텍스트 뒤에 숨겨진 실제 의도를 확인합니다. 그런다음 Text Grounder의 출력은 Candidate Positioning and Setting Marks 모듈로 전달됩니다. 이 모듈에서는 대상에 대한 간단하면서도 정확한 설명인 Text Grounder의 출력이 사전 학습된 OVOD 모델에 전달됩니다. 이 모델은 설명과 일치할 가능성이 있는 후보 객체에 대한 bbox를 생성합니다. 그런 다음 각 bbox는 숫자 식별자로 표시됩니다. 그 후, bbox가 마킹된 이미지가 원래 쿼리 텍스트와 함께 Visual Grounder에 의해 처리됩니다. 여기서 MLLM은 표시된 개체 중 어느 것이 쿼리 텍스트 설명과 정확하게 일치하는지 결정합니다. 각 프레임워크는 이렇게 모듈식으로 작동한다고 합니다. 하나씩 살펴보겠습니다.

2.1 Text Grounder

복잡한 사용자 쿼리의 경우, 텍스트 구문 분석 및 해석을 위해 LLM(GPT-3.5 Turbo)을 Text Grounder로써 활용한다고 합니다. 예상되는 입력 및 출력 형식을 LLM에 알려주는데, 해당 프롬프트에 대한 내용은 위 이미지 내에서 확인할 수 있습니다. Text Grounder는 핵심 정보를 효과적으로 추출하여 사용자의 실제 의도를 깊이 이해할 수 있도록 prompt가 짜져있습니다. 그렇게 나온 LLM의 지식을 기반으로 한 text grounding 결과는 사전 학습된 뒷단의 Visual Grounding 모델이 사용자 쿼리에 명시된 대상을 정확하게 식별하도록 가이딩을 줄 수 있기 때문에 중요합니다. 예를 들어 앞선 intro의 경우처럼, “노트북 바로 위에 걸려 있는 그림”이라는 쿼리를 시각적 근거 모델에 그냥 직접 입력하면 좋지 않은 결과가 나올 확률이 높습니다. 하지만 Text Grounder는 semantic하고 상식적인 추론을 통해 사진의 locating에 더 초점을 맞추면서 노트북은 단지 참조를 위한 랜드마크로써 이해해야 한다고 판단할 수 있게 됩니다. Text Grounder가 사용자의 원래 쿼리를 처리한 후 Visual Grounding 모델에 대한 refine된 입력은 추출된 텍스트 ‘Picture’가 되어 객체 class를 효율적으로 처리할 수 있게 됩니다.

2.2 Candidate Positioning and Setting Marks

앞서 Text Grounder로 처리한 후, ‘Picture’과 같이 ‘Refined Query’를 뽑았는데요. 그런 다음 이 표현을 OVOD에 전달하는 과정을 여기서 거치게 됩니다. OVOD로는 Grounding DINO를 사용합니다. Grounding DINO는 refined query와 일치할 가능성이 있는 후보 객체에 대한 bbox를 생성하는 역할을 합니다. 그러나 이러한 후보 객체는 최종 타겟이 아니라 쿼리 객체의 특정 카테고리와 일치하는 preliminary한 선택이 됩니다. 객체의 형태나 공간적인 관계 분석을 포함한 추가 처리를 위해서는 후속 모듈에서 Visual Grounder의 추가 추론이 필요한데요.
bbox 후보군이 정해진 후에는 Figure 3-(c) 같이 각 후보 경계 상자의 중앙에 까만색의 숫자 인덱스를 표시합니다. 이 숫자 식별자는 각 후보 bbox에 대한 고유 식별자 역할을 하는데, 이로써 2가지 효과를 가져온다고 합니다. 1. bbox로 주석이 달린 각 특정 영역을 해당 번호에 직접 indexing하여 어떤 text-visual “link”를 걸어줌녀서 후속 Visual Grounder가 이러한 표시를 토대로 보다 효과적으로 추론할 수 있도록 하는 점입니다. 2. Set-of-Mark Visual Prompting[52]이라는 연구에 따르면 이러한 Mark 형태는 MLLM에서 흔히 발생하는 hallucination을 효과적으로 줄여 Visual Grounder의 정확도를 향상시킬 수 있다고 합니다. 사실 이 부분이 제가 프로젝트에서 진행하고 있던 방법론과 완전히 동일해버렸는데요. 단지 index로 GPT에게 grounding 단서를 줘보자. 의 생각으로 시도했던 방식이 알고보니 Set-of-Mark Visual Prompting이라는 연구에서 비롯된 것임을 알게 되었네요. 다 이유가 있었습니다. 하지만 저의 경우와 다른 점은 저는 index 삽입 시 노란색 배경에 검은 숫자로 진행했는데, 본 연구는 검은 배경에 흰 숫자였네요. 저는 이 색깔이 뒷 물체와 극명한 대비가 나야 더 index를 잘 보고 이해할 것이라 생각했는데, 여기는 indexing 배경의 색깔에 대한 언급은 없었습니다.

2.3 Visual Grounder

이미지에 인덱싱 마크가 표시된 후에는 처리되지 않은 원본 텍스트 쿼리와 쌍을 이루어 이미지-텍스트 쌍을 형성합니다. 그런 다음 이 쌍은 MLLM, 특히 Visual Grounder 역할을 하는 GPT-4V에 입력됩니다. GPT-4V의 추론 기능을 활용하여 표시된 이미지와 원본 텍스트 쿼리를 분석하고, 궁극적으로 표시된 후보 중에서 쿼리에 설명된 대상과 가장 일치하는 객체를 선택합니다. Text Grounder와 마찬가지로, GPT-4V에 예상되는 입력 및 출력 형식을 알려주며, GPT-4V에 사용되는 프롬프트에 대한 자세한 내용은 아래에 부록에서 가져왔습니다. GPT-4V의 출력은 텍스트 쿼리와 일치하는 객체의 마킹 식별자(숫자 인덱스)이며, 이 식별자는 이전에 저장된 bbox를 단순indexing하여 대상 객체를 찾는 데 사용됩니다. 위 Figure 4의 예시를 보시면 Query와 Output 등의 형식이 나와있습니다.

3. Experiments

3.1 Datasets

LLM-Optic의 성능을 평가하기 위해 RefCOCO, RefCOCOg, Description Detection Dataset (D3) 등의 데이터셋이 활용되었습니다. 복잡한 설명이 특징인 이러한 데이터셋은 기존 Visual Grounding 모델의 학습과 테스트에 널리 활용되고 있습니다.

<RefCOCO & RefCOCOg.>
RefCOCO 및 RefCOCOg 는 이미지 내에서 고유한 객체를 나타내는 자연어 표현을 이해하는 데 중점을 둔 REC(Referring Expression Comprehension) 작업을 위해 설계된 데이터셋입니다. MS-COCO에서 시작된 RefCOCO는 Train, TestA, TestB, Val로 나뉘며, RefCOCOg는 Train, Test, Val로 나뉩니다. 이 둘의 주요 차이점은 참조 표현식의 복잡성인데, RefCOCO는 모든 유형의 언어를 수용하는 반면 RefCOCOg는 객체에 대한 더 상세한 설명이 주어집니다. RefCOCOg의 평균 표현식 길이는 8.4단어로 RefCOCO의 일반적인 3.5단어보다 훨씬 길다고 합니다.

<Description Detection Dataset (D3).>
RefCOCO 및 RefCOCOg와 구별되는 D3는 길이와 복잡성이 다양한 다양하고 유연한 언어 표현을 사용합니다. D3의 주목할 만한 특징은 “헬리콥터가 공중을 날지 않음”과 같이 어떤 특정 개념이 없는 경우도 있음을 강조하는 수많은 묘사가 포함되어 있다는 점입니다. 이는 robustness를 평가하는 데 도움을 줄 수 있다고 합니다.

3.2 Baselines

  • GPT-4V
  • Grounding DINO
  • UNINEXT
    UNINEXT라는 방법론을 처음봐서, 이것에 대해서만 살펴보겠습니다.
    UNINEXT는 추가 학습 데이터를 사용하여 RefCOCO 벤치마크에서 SoTA를 찍었다고 합니다. 이 모델은 프롬프트 생성, 이미지-프롬프트 특징 융합, 객체 발견 및 검색이라는 3 가지 요소를 중심으로 구성되어 있는데요, 학습 과정은 general perception pretraining, image-level joint training, video-level joint training의 세 단계로 진행됩니다. 특히 뒤의 두 단계에서 fine-tuning을 위해 RefCOCO 시리즈가 사용된다고 합니다.

3.3 Results

GPT-4V의 토큰 할당량 제한 문제로 인해 데이터셋을 다 쓰진 않았고, 샘플링 방식을 채택했다고 합니다. RefCOCO의 각 4개 split에서 200개씩 텍스트-이미지 쌍(총 800개), RefCOCOg의 3개 split에서 200개씩 텍스트-이미지 쌍(총 600개), D3에서 200개 텍스트-이미지 쌍을 무작위로 샘플링해서 총 1,600개의 텍스트-이미지 쌍으로 실험을 진행했다고 합니다.
또, feasibility를 보기 위한 사전 테스트 결과 복잡한 쿼리를 처리하는 데 있어 GPT-4의 Grounding 기능이 상대적으로 약한 것으로 나타났기 때문에 각 데이터셋에서 50개씩 텍스트-이미지 쌍만 샘플링하여 총 400개, 즉 1/4의 텍스트-이미지 쌍만을 GPT-4V용으로 분할해서 사용했다고 합니다. 저의 경우는 평가를 어떻게 진행해야할까 고민이 많았는데, 이런식으로 아주 적은 수로 샘플링을 해서도 실험을 할 수가 있네요. 근데 아직 이 논문이 어디 학회지에 붙은 건 아니라서, 괜찮은 평가방식인지는 시간이 지나고 이 논문이 어디든 붙는다면 나중에 다시 확인해보면 좋을 것 같습니다.

Table 1의 결과는 LLM-Optic이 평가된 모든 데이터 세트에서 zero-shot 세팅에서 SoTA를 달성하며 Grounding DINO보다 더 크게 능가한다는 점을 보입니다. 근데 사실 GPT의 지식을 활용하니까 성능이 오르는 건 당연한 수순이라고 봅니다. 뭐 저자들이 강조하기로는 LLM-Optic이 RefCOCOg val(Accuracy@0.5)에서는 22%나 올랐다고 하네요. 근데 일반적으로 추가 학습 데이터와 함께 32개나 16개의 A100 GPU로 훈련되는 fine-tuning된 최신 모델 UNINEXT와 비교했을 때는, LLM-Optic의 프레임워크가 추가 학습이 필요없음에도 불구하고 UNINEXT가 fine-tuning되지 않았던 D3 데이터 세트에서는 LLM-Optic의 성능이 유니넥스트의 성능을 20%를 넘었다고 합니다.(사실 이것도 fine-tuning 하면 당연히 UNINEXT가 더 높을텐데, 그냥 일부러 이렇게 말하면서 fine-tuning이 필요없는 본인들의 프레임워크를 강조하고 싶은 모양입니다.)

3.4 Ablation Study

D3 데이터셋에 대한 ablation study입니다. Text Grounder로서의 다양한 LLM과 Visaul Grounder로서의 MLLM의 효과를 평가했습니다. 이번엔 D3 데이터셋에서 무작위로 100개를 샘플링해서 실험했다고 합니다.
Text Grounder의 경우, GPT-3.5 터보, GPT-4, LLaMa-2, LLaMa-3을 포함한 다양한 LLM을 사용했습니다. Table 2에 제시된 결과에 따르면 테스트한 모든 LLM이 강력한 성능을 보였는데요. 특히 오픈 소스 LLM의 성능은 GPT-4의 성능과 비슷했으며, 기본 7B 모델도 입력 쿼리에 대한 Text-Grounder 역할을 하기에 충분한 성능을 보여주었습니다. Visual Grounder의 경우, GPT-4V 외에도 널리 사용되는 오픈 소스 LMM인 LLaVa-1.5 및 LLaVa-1.6(LLaVa-Next)도 모델 파라미터 크기가 다른 상태에서 평가해봤는데, LLaVa-1.6은 Visual Grounder로써 기능은 할 수 있었지만 GPT-4V에 비해서는 성능이 좀 떨어졌다고 합니다. 이는 뭐 물론 GPT-4V가 훨씬 더 많은 모델 파라미터를 가지고 있고 더 광범위한 데이터 세트에 대해 사전 학습을 거쳤기 때문일 수 있을 것 같습니다. 반면, LLaVa-1.5는 필요한 기능을 제대로 수행하지 못하여 비주얼 그라운더의 임무를 수행하지 못했다고 하네요. 아예 테이블에 싣지도 않은 모습을 보입니다(실수이려나요). 이런 성능 저하는 LLaVa-1.5에서는 부족한 Visual Instruction-tuning 데이터 혼합을 개선하여 향상된 visual reasoning 및 OCR 기능을 갖춘 LLaVa-1.6의 성능 때문인 것으로 보인다고 합니다. 아무튼 해당 실험으로 GPT-4V가 현재 가장 괜찮은 옵션으로 고르게 되었다고 하며, 모듈식 설계 덕분에 사전 학습된 최신 모델로 구성 요소를 쉽게 교체할 수 있어 해당 분야가 연구가 진행됨에 따라 모델의 성능을 향상시킬 수 있을 것이라고 하네요.

다음은 LLM-Optic의 Robustness를 평가한 실험인데요. LLM-Optic은 좁게 정의된 작업과 특정 출력 형식에 국한되는 specific한 모델의 일반화 한계를 극복하는 모습을 보입니다. 예를 들어, OVD 모델은 대상의 특정 속성을 자세히 고려하기보다는 주로 사전 정의된 카테고리에 초점을 맞추기 때문에 세부적인 맥락 이해가 부족하다는 한계가 있습니다. 그러나 REC(Referring Expression Comprehension) 모델은 확장된 설명을 구문 분석하는 데 탁월하지만 이미지에 오직 하나의 대상만 존재하고 특정 학습 데이터가 필요하다는 가정에 의해 한계가 있습니다. 이 가정은 대상이 없거나 여러 개의 대상이 있는 시나리오에서 한계를 드러냅니다. 이러한 모델과 차별화될 수 있다고 주장하는 LLM-Optic은 다양하고 복잡한 Visual Grounding 문제를 해결할 수 있는 일반화를 제공할 수 있다고 합니다. LLM-Optic은 다양한 설명을 기반으로 여러 개체를 식별할 수 있는 범용 Visual Grounding를 실현하며, 설명된 개체가 이미지에 존재하지 않는 상황도 처리할 수 있습니다. 다양한 Visual Grounding 모델 간의 차이점은 위의 Table 3에, 다양한 상황을 처리하는 LLM-Optic의 정성적 예시는 아래 Figure 5에 있습니다.

4. Conclusion

4.1 Failure Case

당연히 failure case가 빈번히 생길 텐데요. 저자들은 그 이유를 2가지로 생각했습니다. 부적절한 묘사와 GPT-4V가 가진 그 자체의 hallucination 문제였습니다. 제가 하는 프로젝트에서 걱정하는 부분도 딱 이 부분이었기에 저자든 저든 역시 생각하는 게 거기서 거기구나.. 라고 느꼈습니다.

4.2 additional results

마지막은 다른 정성적 결과를 보이면서 리뷰 마치도록 하겠습니다.

Author: 이 재찬

10 thoughts on “[arXiv 2024] LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding

  1. 좋은 리뷰 감사합니다.

    해당 논문(LLM-Optic)에서 Text Grounder의 역할이 어떻게 보면 필터링 역할 및 가이드를 주는 역할로 보입니다. 따라서 해당 모듈의 유무에 따른 실험 결과가 궁금합니다. 또한 ‘Refined Query’가 항상 의도한 대로 나오지는 않을 것 같은 데 이에 대한 정량적 결과는 리포팅 되어있는 것이 있을가요??
    또한 저자들이 제안한 여러 모듈에 대한 ablation study는 따로 없었는지 궁금합니다.

    1. 안녕하세요 승현님, 리뷰 읽어주셔서 감사합니다.

      1. 놀랍게도 없었습니다. 저자들이 이 단순한 ablation 실험을 리포팅하지 않은 것이 저도 의문입니다. appendix에 limitation으로 ‘사실 우리는 LLM이랑 Grounding DINO 없으면 젬병이야~’ 라고만 적어놨더라구요.
      2. 놀랍게도 없었습니다. 정성적 결과로만 퉁치고 넘어가버리더군요.
      3. 이젠 놀랍지 않습니다. 없었습니다.

      승현님의 질문들처럼, 이런 부분에 대한 실험적 reporting이 굉장히 적어서 본 논문이 어디에도 accept되지 못하고 arxiv로만 남아있는 것이 아닌가, 라는 생각이 듭니다.
      동시에 제가 패턴인식 때 진행했던 내용이 이 논문과 상당히 유사하기에, 저의 경우 이를 주제로 목표로 하는 국문저널에 제출을 하려면 승현님이 찝어주신 것처럼 저 또한 실험을 진행하고 reporting 해야 되지 않을까 라고 생각하고 있습니다!

  2. 안녕하세요 ! 좋은 리뷰 감사합니다.
    재찬님이 하고 있는 실험과 굉장히 유사한 task인 것 같습니다.
    그래서 궁금한 점이, 재찬님이 해당 실험 세팅으로 정확도를 판단할 때 클래스가 일치하는지와 인덱스가 동일한지 이 두 가지를 판단하여 하나라도 틀리다면 맞지 않다고 평가하는 것으로 알고 있습니다.
    사실 재찬님이 세팅한 평가 방식은 정확한 localization을 평가하는 요소는 빠져있다는 생각이 들었었고, 실제로 질문도 드렸었는데 그럼 본 논문에서 말하는 Acc라는건 어떤 요소들로 결정되는 것인가요 ?
    그리고 제가 알기로 재찬님이 실험한 약품에 대해서는 인덱싱 정보로 인해 약의 텍스트적인 부분들이 가려지는게 영향을 많이 준 것으로 알고 있습니다. 해당 논문에서는 그런 물체에 대해서까지 확장해서 고려한다거나 언급된 부분이 있을까요 ?
    감사합니다.

    1. 안녕하세요 건화님, 리뷰 읽어주셔서 감사합니다.

      건화님 말씀이 맞습니다. 저는 패턴인식 마무리 전 localization까진 평가지표로써 세팅하지 못했는데요..
      본 논문에서 말하는 acc는 acc@0.25, acc@0.5 이렇게 나뉘어있는데, 단순하게 pred box와 gt box 간의 IoU가 각각 0.25, 0.5 이상인 것들을 thresholding 하고 난 후의 accuracy로 보시면 됩니다. 사실 이 부분은 Grounding DINO의 localization 능력에 기댄다는 점에서 본 논문의 contribution을 더 부각해주는 평가지표는 아니라고 생각합니다.

      물체의 확장성에 대해서는 본 논문에서 언급한 바 없습니다. 본 논문의 한계가 참 여러모로 명확하네요. 좋은 논문은 아닌 것 같습니다.

  3. 안녕하세요 좋은 리뷰 감사합니다.

    추가적인 학습 없이도 MLLM을 활용한 grounding 성능을 많이 끌어올릴 수 있다는 점이 인상적인 방법론이네요.
    저는 MLLM은 아니고 LLM(LLaMa 3.1)을 활용해 텍스트를 몇 번 다뤄본 적이 있습니다. 이 때 2.1절에 첨부해주신 그림과 같이 입력을 주고 출력의 format을 (~~~)로 달라고 강제하더라도 가끔 (Here is the answer: ~~~) 하고 원하는 출력 형태와 조금 다르게 나오는 상황이 꽤 빈번하였습니다.

    저는 텍스트 정제용으로 LLM을 사용한 것이라 추가적인 후처리를 거치면 문제가 없었는데, 벤치마크할 땐 데이터 개수가 많기도 하고 평가 때 포맷이 맞는지 일일이 점검 후 성능을 측정하는 것은 불가능할 것 같습니다. 중간 과정에서 LLM/MLLM을 활용할 때도 그럴 것 같고요. 혹시 직접 실험하실 땐 이렇게 출력 포맷이 원하는 것과 다르게 나오신 적이 없나요? 있다면 어떻게 처리하는지나 학계에서는 어떻게 하고 있는지 궁금합니다.

    1. 안녕하세요 현우님, 리뷰 읽어주셔서 감사합니다.

      넵 저도 일반 LLM API prompting 시 현우님과 같은 경험을 겪었었는데요,
      저의 경우도 그렇고, 본 논문도 그렇고 prompting 시 output format을 instruction으로써 few-shot 예시를 들어주는 형식으로 최대한 출력 형태에 일관성을 가지게 끔 해주면서, 동시에 API hyperparameter 중 temperature값을 0으로 정의해줌으로써 GPT가 가능한 한 결정론적인 결과를 내뱉도록 강제했습니다. 여기서 temperature 값은 보통 0~2로 정의할 수 있는데, temperature 값이 높을수록 LLM이 창의적이고 다양한 답변을 output으로 뱉는 경향이 있고, temperature 값이 0에 가까울 수록 결정론적이고 약간은 고착화된 답변을 내놓는 경향이 있습니다!
      그래서 보통 prompting 논문들의 경향이 experiment에서 temperature 값 세팅을 대부분 0으로 정해놓는 경향이 있습니다!

  4. 안녕하세요. 좋은 리뷰 감사합니다 !

    Grounding DINO를 통해 bbox 후보군을 뽑은 다음 후보 bbox 중앙에 까만색의 숫자 인덱스를 표시한다고 하였고, 선행 연구에 따르면 이런 mark를 붙이는 것이 할루시네이션을 효과적으로 줄여 정확도를 향상시킬 수 있었다고 하셨는데 이런 marking을 하는 것에 포커싱한 관련 연구들은 어떻게 접근하고 있나요 ? Indexing 외에 다른 마킹 방식이 궁금하여 질문 드립니다 . .

    또, 재찬님도 이와 관련하여 노란색 배경에 검은 숫자로 인덱싱을 삽입하였다고 했고 이는 본 논문에서 제안된 검은 배경에 흰 숫자와 대비된다고 하셨는데 이후에 검은 배경 + 흰 숫자 조합으로 바꿔서 수행한 실험 결과가 있는지, 있다면 어땠는지.. 궁금합니다 !

    감사합니다 !

    1. 안녕하세요 윤서님, 리뷰 읽어주셔서 감사합니다.

      1.
      본 논문에서 활용한 marking 방식은 결국,
      기존에 MLLM 단독으로는 Grounding이 안되던 것이, text(bbox prompt)와 image 간의 어떤 link로써의 marking이 Grounding을 위한 단서로써 작용하게 된 것인데,

      사실 marking 자체가 핵심은 아니고, 이런 link를 어떻게 줄 것이냐에 따라 방법이 여러가지가 있는 것으로 기타 연구들을 지나가며 살펴보긴 했었습니다. 가령 예를 들면 단순히 bbox를 그려넣는다던지, index 대신 물체에 점을 찍는다던지, masking 외곽영역의 몇몇 포인트를 그려넣는다던지, 여러 방식이 있겠습니다. 해당 내용은 추후 기회가 되면 x-review로 다뤄보겠습니다.

      2. 하하. 사실 그 때 당시 패턴인식 프로젝트 마무리가 급박하였어서, 검은 배경+흰 숫자 조합의 실험 결과를 남기지 못했는데요, 추후 제가 IJCAS 논문 작성 시 가능하다면 실험 reporting 하면 좋을 것 같습니다.

  5. 안녕하세요. 좋은 리뷰 감사합니다.

    참신한 방향으로 성능을 향상시킨 논문인 것 같아 재밌게 읽었습니다. 궁금한 점이 있는데, 약 상자를 구분하는 경우, 단순히 box라고 인식한다면 이를 디테일하게 인식하기 위해서는 어쩔수없이 파인튜닝을 해야하는 걸까요? 아니면 요즘 LLM은 약 상자를 주었을 때 이게 무슨 약인지까지 인식할 수 있는지 궁금합니다. 만약에 단순히 이거는 상자라고만 인식한다면 grounding 외에도 고려해야할 task가 늘어날 것 같기 때문에 질문드렸습니다.

    감사합니다.

    1. 안녕하세요 주연님, 리뷰 읽어주셔서 감사합니다.

      저의 프로젝트에서는 GPT4, GPT4o 쯤 되니까,
      미리 Grounding DINO가 이미지 전경 내의 모든 약 상자를 class-agnostic하게 detect했다는 상황에서,
      해당 detection된 bbox 좌표를 활용해 index marked image를 만들어주고,
      이를 original image와 함께 input으로 넣어주고, text로 특정 약 이름을 쿼리로 넣으면
      생각보다 정말 잘 인식합니다. 그래서 이게 신기해서 이걸 주제로 프로젝트를 했었구요.. 하하..
      결론은 상자로만 인식하는 것이 아니라서 grounding 태스크로 접근할 수 있다! 입니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다