[arXiv 2023] Open World Object Detection in the Era of Foundation Models (FOMO)

안녕하세요. 이번 주 논문은 Open World Object Detection(OWOD) 분야의 논문 중 Foundation model을 활용한 FOMO입니다. 저는 이번 24년 상반기 랩실 기초교육 이후, 최종적으로 로보틱스 팀에 배정받게 되었는데요. 팀에 할당된 과제에 대한 연구분야를 잘 이해하기 위해 태주님께서 짜주신 팀 기초교육의 일환으로 큼직하게 OWOD 태스크와 6D pose estimation 태스크에 대한 공부를 2주동안 진행하고 있었습니다. 그 중 OWOD 태스크의 FOMO 논문을 공부하면서 정리한 바를 토대로 리뷰를 남겨보겠습니다.

본 FOMO 논문은 현재 arxiv에만 올라와있는 논문인데요. 기존 OWOD 태스크의 초기 주자로 불리던 ORE 방법론과 이를 비롯한 다른 태스크들에 대해, unknown object에 대한 정의의 모호함과 기존 benchmark데이터셋에서의 한계를 꼬집으며 자신들이 구축한 RWD라는 새로운 benchmark 데이터셋을 소개하며 이를 Foundation 모델과 함께 OWOD 태스크에 접목시켰다는 점이 메인 contribution이라고 볼 수 있겠습니다.

그럼 리뷰 시작하겠습니다.

Introduction

Object Detection은 로보틱스에서 메디컬 이미지 분석에 이르기까지 real-world application 에서 필수적입니다. 그런 application에서 안정적으로 사용되려면, 모델은 예상치 못한 또는 새로운 물체를 처리할 수 있어야 하죠. 기존의 OWD(Open World Detection) 패러다임은 모델이 unknown(학습 때 보지 못한 클래스의) 물체를 감지하고, 이렇게 발견된 물체를 학습 중간 Oracle의 클래스 지정(human annotation)을 통해 새로운 클래스의 물체로 점진적으로 학습할 수 있도록 하는 Incremental Learning 기법으로써 이 문제를 해결해왔습니다.

그러나, 기존의 OWD 는 한계가 있었습니다. 기존 벤치마크 데이터셋과 OWD라는 태스크 자체의 정의 때문에 pretrained 된 foundation 모델은 활용이 될 수 없었습니다. 그 이유에 대해선 예시를 하나 들면서 설명하도록 하겠습니다.

<기린과 벤치가 unknown object가 될 수 있느냐!?>

기존에 OWOD benchmark 데이터셋은 위 Figure 1에서 왼쪽에 해당하는 COCO데이터셋 기반입니다. 주변에서 볼 수 있는 common한 object에 관한 데이터셋 셋업을 갖추고 있었는데, 여기서 모순이 두 가지가 나타납니다. 먼저, 사실 COCO데이터셋에는 사람과 기린과 벤치에 대한 클래스가 정의되어 있습니다. 그런데 왼쪽 사진(기존 OWD benchmark)과 같이 한 뷰 안에서 사람을 known이라고 분류해놨으면서, 사진 속 기린은 unknown이라고 분류되고 있었던 것입니다. 그 밑에 벤치도 마찬가지죠. 이렇게 기존 OWOD benchmark는 COCO 데이터셋에서 조금 재정의되어서 약 80개 이상의 클래스만 포함하고 있었는데, 이 클래스들 중 부분부분 나오는 데이터셋들은 부분집합으로 나오는 클래스들의 라벨을 숨기고 이를 unknown이라고 취급하고 있었던 것이죠. 두번째는, COCO 데이터셋이 주변에서 볼 수 있는 common한 클래스들 약 80여개로 구성이 되어있다는 점 자체가 문제였습니다. 해당 셋업은 대규모의 데이터로 학습되어 generalize한 표현력을 가졌던 foundation 모델 기반의 sota detection 방법론들의 활용이 제한되게 만들어버렸죠. 정리하자면 기존 OWOD 벤치마크 정의와 현재의 foundation 모델 기반 detection 방법론들과는 discrepancy가 존재했고, 그렇다고 foundation detection 모델 기반으로는 이런 기존에 알고 있던 기린이나 벤치같은 object들을 unknown object라고 간주할 수는 없는 그런 모순이 발생했던 것입니다.

즉 기존 벤치마크 데이터셋과 OWOD 태스크 자체의 정의 때문에 pretrained된 foundation 모델은 활용이 될 수 없었고, 본 논문의 저자들은 항공샷이나 의료 이미지 같은 챌린징한 도메인을 포함한 새로운 application-driven한 벤치마크 데이터셋인 RWD 벤치마크를 제안했고, 이는 위 Figure 1에서의 우측과 같습니다. foundation 모델 기반은 여러 물체들에 대한 광범위한 supervision을 받는 것이 또 불합리하기 때문에, RWD는 기존 COCO기반 benchmark 클래스 정의와 달리 foundation 모델에 대한 out-of-distribution한 도메인의 데이터들로 구성을 했고, 이로 인해 foundation 모델들에 대한 적용이 가능하게 만들었다고 합니다.

이런 RWD의 application driven data 클래스들 간의 타고난 연결성을 이용, 새로운 방법론을 제시한 것을 저자들은 Foundation Object detection Model for the Open world에서 줄여서 FOMO라고 이름지었고, 이는 unknown object를 식별하는데, base known object가 가지고 있던 그들의 공유된 속성이 기반이 기반이 되었습니다.

결론적으로, real-world application 수준에서 unknown object에 대한 detection을 안정적으로 잘 수행하기 위해, foundation model based object detection 방법론에서의 data driven한 성격과 기존의 OWOD 방법론에서의 Incremental Learning 기법이 잘 통합하게 되는 것입니다. 여기서 Incremental Learning 기법은 OWOD에서 가장 핵심적인 개념으로, 명시적인 supervision 없이 이전에 소개된 적 없는 물체를 “unknown”으로 식별하고, 이 때 이 식별된 unknown 카테고리들을 oracle(human annotation)을 통해 라벨링하고 기존의 detector가 closed set으로 미리 학습된 클래스들에 대해서는 forgetting 하지 않게끔하면서 점진적으로 학습하는 방식을 의미합니다. 기존의 방법론들은 unknown에 대한 정의가 단순히 image view 내의 가능한 “all-object”라고 모호하게 언급해왔는데, FOMO 저자들은 대부분의 application 관점에서는 unknown class의 object가 known object의 어떠한 시각적/기능적 속성을 공유한다는 것을 발견했고, 그러한 속성들을 일부 공유하며 속성범주 내에 분포되어 있으면서 동시에 known 클래스의 분포에는 포함되어 있지 않은 unknown 객체를 detection하자는 정의를 하게 됩니다. 즉, object의 “Attribute(속성)”을 학습하고, 이 속성을 몇 가지 object 예시를 활용하여 “known object에 매핑”하는 방법을 학습하게 됩니다. 이를 위해 “few object example”을 활용하여 초기에 LLM에 의해 제안된 “Attribute Embedding”을 셀렉하고 이를 refine하는 방식을 취하게 됩니다.

<contribution>

저자들이 주장하는 contribution은 다음과 같습니다.

  1. 기존의 OWD 벤치마크는 foundation model을 활용한 방법론을 평가할 때 효과적이지 않음. 나이브한 실험도 saturate performance를 보이고, U-Recall 69.0, final known mAP는 55.5를 보였음.
  2. 새롭고 챌린징한 application-driven open world object detection benchmark를 제시. 이는 real-world application과 도메인에서 온 데이터셋으로 구성. 수중, 공중, 의료 등. = RWD
  3. known class 속성에 기반한 unknown object를 detect하기 위해 pre-trained foundation model을 활용한 FOMO 제시.
  4. 경험적으로 baseline에 비해 이 벤치마크에서 FOMO를 검증했다. 이는 적어도 8% known mAP, unknown mAP는 3배의 향상을 가져옴.

Proposed Method

FOMO는 기본 known 클래스와 시각적/기능적 속성을 공유하는 객체를 식별하여 unknown 객체를 탐지하려고 시도합니다. 이런 속성은 class-agnostic하기 때문에, 속성과 known 객체 분류 사이에 명시적인 매핑이 존재하지 않습니다. 그래서 각 클래스의 예시 이미지를 활용하여 대상 application에 대한 이런 속성을 select and refine 하는 과정을 거치고자 하는데, 그럼 이러한 속성을 어떻게 활용하느냐에 대해서 이제 살펴보도록 하겠습니다.

FOMO의 전체적인 Overview는 다음과 같습니다.

  1. Attribute Generation : 클래스 리스트들을 LLM에 태워서 object attributes에 대한 리스트를 생성 -> 이를 다시 FOMO의 Text Transformer Encoder 에 태워서 Attrubute Embedding인 E_att를 생성. 동시에 비전 인코더와 인풋이미지로부터 vision based object embedding도 생성.
  2. Attribute Selection : BCE classification loss를 사용해서 E_att를 freezing하면서 W를 업데이트. 그 후 thresholding.
  3. Attribute Refinement : W를 freezing하면서 E_att를 업데이트.
  4. 이미지는 인퍼런스 동안 비전 인코더로 들어가고, 임베딩된 값들은 그 후 bbox head, cls head를 각각 들어감.
  5. cls head는 pre-computed된 attribute embeddings(updated E_att)를 attribute logits을 만드는 데 활용한다.
  6. unknown object들을 식별하기 위해 attributes에 대해 in-distribution이지만 known classes에 대해선 out-of-distribution인 object proposal을 찾는다.
  7. s_A는 이미지와 attribute embedding간의 attribute score이다.

[Attribute Generation]

먼저 첫번째 단계인 Attribute Generation에 대해 알아보겠습니다.

LLM을 활용하여 기능적이고 시각적인 속성에 대한 텍스트 후보를 생성합니다. 이 때의 LLM은 GPT-3.5이고, 위의 프롬프트 템플릿을 사용하여 클래스를 식별하기 위해 관련 속성을 나열하도록 요청합니다. 여기서 C는 클래스 이름이고 Z는 프롬프트 속성 카테고리(예: 모양, 크기, 텍스처 등)입니다. 그 다음,

위 알고리즘을 이용하여 클래스에 구애받지 않는(class-agnostic한) N개의 속성 리스트를 생성하며, 이를 A라고 표시합니다. 이런 속성을 인코딩하기 위해 “object which (is/has/etc) is ” 라는 템플릿 프롬프트와 모델의 텍스트 인코더를 사용하는 accept된 prompt 앙상블 접근법을 사용한다고 합니다. 이로 인해 Attribute Embedding 매트릭스(E_att)가 생성되고, 이는 다음과 같습니다.

LLM을 통한 E_att 생성과 동시에 비전 인코더와 인풋 이미지로부터 vision based object embedding도 생성되게 되기 때문에, 이제 object visual embedding(e^v)와 attribute embedding( e^t_A )사이의 점수는 다음과 같이 Cosine_similarity를 이용해 s_A라고 아래와 같이 계산하게 됩니다.

image embedding이 주어진 경우 속성 점수 벡터 s는 다음과 같이 나타내게 됩니다.

[Attribute Selection and Refinement]

속성 selection과 refinement를 위한 방법론에 대해 설명하자면, 일단 모든 생성되고 임베딩 되었던 속성이 문제 해결에 적절한 것은 아니었습니다. 그래서 먼저 학습 이미지의 known 클래스를 사용하여 적절한 속성을 선택하는 과정을 거치게 됩니다. 이 과정이 바로 속성 selection 과정이고, 이때 known에 대해 속성이 얼마나 연관성을 가지고 있는지(주요한 속성을 잘 가지고 있는지)를 평가하기 위해 다시 클래스 prediction을 하는데, 이를 위해 K×N 크기의 가중치 행렬 W으로 구성된 classifier를 사용합니다. 클래스 C의 확률은 위 단계에서 주어졌었던 속성 점수 벡터 s를 통해 Sigmoid(Ws)로 계산할 수 있습니다.

여기서 적절한 속성을 고르기 위해 속성 임베딩 벡터를 고정(freeze)하고, W만을 최적화하여 classifier를 known에 대한 괜찮은 속성들 분류를 잘 할 수 있게 학습시킵니다. 이 과정에서 BCE 손실 함수와 L1 정규화를 사용하여 희소성을 높인다고 언급하는 데 아마 희소성이라는 말은 의미있는 좋은 속성을 조금 더 잘 분류하고자 한다는 의미인 것 같습니다. 그런 다음은, 각 객체 클래스별로 상위 N^개의 속성을 선택하고 객체 분류에 사용되지 않는 속성은 제거합니다. 마지막으로, refinement과정으로 넘어가게 되는데, 기존의 속성임베딩에 대해 finetuning되었던 classifier의 W를 동결한 상태에서 다시 BCE 손실을 사용하여 이번엔 속성 임베딩(Eatt)를 최적화함으로써 속성을 개선합니다.

[Unknown class inference]

객체를 unknown을 식별하기 위해, 속성과 관련해서는 in-distribution하지만, known class와 관련해서는 out-of-distribution에 있도록 하고자 합니다. (unknown은 known이 가지고 있던 어떤 시각적/기능적 속성을 어느정도 포함하기 때문에 그러한 속성 분포에 in-distribution 하면서도, known class 자체에 대해선 out-of-distribution 해야 unknown이라고 정의하고 싶은 것으로 보입니다.) 이 때의 out-of-distribution 표현은 가장 간단한 구현 방식인 softmax의 max값을 활용한다고 합니다. 속성 임베딩과 classifier weight간의 행렬곱이 SoftMax로 때려진 것 중 최대값은 가장 In-distribution 한 놈의 분포값이 무어냐 일텐데, 1에다가 그것을 뺀것이니까 out-of-distribution을 나타낸 것으로 볼 수 있겠습니다. 그래서 다음의 식이 out-of-distribution의 확률값이 P_OOD입니다.

그 다음은 속성에 대해 분포 내에 있는지를 결정하기 위해서는 높은 활성화 값을 원하기 때문에, 이 클래스 갯수만큼의 속성 임베딩값에 sigmoid를 씌우면 어떤 0~1의 값이 될 텐데, 그것들 중 가장 큰 값을 가지는, 즉 기존의 class 분포를 나타내는 속성 중 가장 대표 속성임베딩값의 정도 만큼을 스칼라로 가지는 어떤 값을 원합니다. 즉 이 태스크의 전제는 결국, 이 image 뷰 내의 모든 객체를 찾고자 하는 것이 아니라, 기존의 데이터셋에서의 class와 in-distribution하게 엮인 어떤 속성을 가진 객체에 대해서만 owod로 찾고싶다이기 때문이죠. 그래서 in-distribution의 확률값은 다음과 같이 P_ID로 나타내게 됩니다.

그러고 난 다음에 이제 최종적으로는 unknown 객체 예측 점수인 P_unk를 위의 두 값을 곱하여 생성하게 됩니다.

Experiments

먼저 저자들이 제안한 RWD 데이터셋의 세부 디테일입니다. 5가지의 도메인 상황에 대한 데이터로 구성된 모습을 보입니다. Roboflow 100 (RF100) 데이터셋 중에서 real-world 적용 가능성 때문에 CVPR 2023의 CVinW 워크숍에서 소개된 다양한 데이터셋들 중에서 세 가지를 선택하여 사용했다고 합니다. Aquarium, Team Fight Tactics(롤토체스..), X-ray Rheumatology입니다. 각각이 Aquatic, Game, Medical 도메인 데이터가 되는 것 같습니다.
추가로, Aerial 데이터셋은 DIOR 데이터셋에서 수집된 것으로, 경기장 및 저장 컨테이너의 항공 이미지이고, Surgery 데이터셋은 NeuroSurgicalTools 데이터셋에서 가져온 것으로, 신경외과 현미경으로 촬영된 다양한 수술 도구를 보인다고 합니다.

RWD 벤치마크의 각 데이터셋의 클래스는 가장 흔한 클래스 50%와 가장 적은 클래스 50%로 나누어집니다. train 이미지와 test 이미지 수가 균등하게 분포하는 것이 아마 이것때문이지 않을까 싶습니다. 저자들의 방법론은 RWD 벤치마크에서 두 단계인 Task 1 (T1)과 Task 2 (T2)로 평가됩니다. T1, T2에 대해 설명하자면,

T1: 가장 흔한 50%의 known class, 나머지 50%는 unknown class입니다. 이 단계는 long-tail paradigm의 확장으로, 알고보니 기존의 open world task들에서 쓰이던 형태라고 합니다. 여기선 먼저 known/unknown 을 잘 구분하는 지를 테스트합니다.
T2: 나머지 가장 적은 50%의 클래스가 공개되며, 이 벤치마크는 객체 탐지기가 Prev/Curr known 객체를 안 잊어버리고 잘 탐지하는지에 대한 능력을 테스트합니다.


단순한 baseline 모델들은 기존의 OWD 벤치마크인 “superclass-mixed”와 “superclass-separated” OWD 벤치마크(M-OWODB 및 S-OWODB)에 대해 평가되어 왔습니다. M-OWODB에서는 MS-COCO, PASCAL VOC2007, PASCAL VOC2012의 이미지들이 겹치지 않게 네 개의 Task 세트로 그룹화됩니다. 각 Task 에서는 20개의 새로운 클래스가 도입되며, 훈련 시에는 이 클래스들만 라벨링되지만 테스트 시에는 모든 클래스를 탐지해야 합니다. S-OWODB는 MS-COCO 데이터셋만을 사용하여 구성되었으며, 동물/차량과 같은 상위 카테고리를 명확히 구분하였습니다.

이제 Implementation Details와 평가지표에 대해 설명드리겠습니다.

FOMO는 CLIP으로 사전 학습된 OWL-ViT(L/14 및 B/16) 모델을 사용하여 초기화되며, 이 모델은 Objects 365와 Visual Genome으로 구성된 연합 데이터셋에서 detection에 최적화되어 있습니다. FOMO는 이 frozen 모델을 사용하여 최적의 속성 임베딩을 생성하는 데 중점을 두며, [unknown class inference]단계에서 설명된 것처럼 unknown 객체 탐지를 통합하기 위해 추론 파이프라인에 적용됩니다.
known 클래스의 경우, mAP를 사용합니다. Incremental Learning의 성능정도를 더 잘 이해하기 위해, mAP는 이전에 소개된 객체 클래스(Prev./Curr. Known)로 나뉩니다. OWD에서는 일반적으로 unknown object 재현율(U-Recall)을 사용하며, 이는 이전 OWD 벤치마크에서 탐지된 unknown object의 비율을 나타냅니다. 한편, RWD bench mark 실험에서는 unknown object mAP(U-mAP)를 사용합니다.

위는 MOWDB와 SOWODB 에 대한 Baseline 비교를 보이는 테이블입니다. 절반을 기준으로 위가 MOWODB, 아래가 SOWODB입니다. 테이블 상에 보이는 baseline에 대해서도 추가 notation을 달자면, 아래와 같습니다.

Zs: zeroshot을 위한 일반적 프롬프팅(“object”)
IN : unknown object proposal로 ImageNet Class 이름 활용.
LLM : LLM 도입해서 known class들 고려, 가능한 unknown을 생성.
Fs: fewshot

OVD 방법들은 여전히 클래스 이름이 주어져야만 하기 때문에 unknown 클래스를 다루지 못합니다. 그래서 저자들은 OWL-ViT를 확장하여 unknown 객체 탐지를 통합하는 여러 baseline을 실험했던 것입니다.

BASE-ZS+ : unknown 객체에 대한 일반적인 프롬프트(“object”)를 사용합니다.
BASE-ZS+IN : known 객체를 제외한 모든 ImageNet 클래스 이름을 unknown 객체에 대한 제안으로 사용합니다.
BASE-ZS+LLM : 일반적인 프롬프트 대신, LLM을 사용하여 known 클래스를 기반으로 가능한 unknown 객체를 예측하고, LLM이 생성한 클래스 이름(unknown용)을 사용하여 unknown 객체를 탐지합니다.
BASE-ZS+GT : 실제 oracle로 annotation하여 GT unknown 객체 클래스 이름을 사용합니다. 이는 저자들이 제안하는 방법론에 대한 upper라고 할 수 있겠습니다.

위는 Unknown object 성능에 대해 더 중점적으로 확인한 테이블입니다. M-OWODB 벤치마크에서 테스트된 다양한 모델에 대한 Absolute Open Set Error(AOSE)와 Wilderness Impact(WI)에 대한 중점적으로 보게 됩니다. AOSE는 unknown 객체를 known 객체로 잘못 분류하는 빈도를 측정하고, WI는 known 객체 탐지에 unknown 객체가 미치는 영향을 정량화하는 지표라고 합니다.
따라서, AOSE와 WI가 낮을수록 모델이 unknown 객체를 잘 식별하고 known 클래스와의 혼동을 최소화하는 능력이 뛰어나다고 볼 수 있겠습니다. 하지만 정의상, U-Recall가 값이 좋아지면 AOSE와 WI도 따라서 증가하는 경향이 있다고 합니다. 그래서인지 값을 보면 꽤나 들쑥날쑥한 경향을 보이긴 하는 것 같습니다.

다음은 shot의 수가 성능에 미치는 영향을 나타낸 테이블입니다.

Fomo는 Base와 비교했을 때, 확실히 unknown mAP에서 더 높은 모습을 보이고. Foundation model이 더 큰 경우에 역시 더 좋은 성능을 보입니다. 추가로 One shot 에서 few shot으로 갈수록 성능이 점진적으로 좋아지고, 반대로 보면 Few shot에서 one shot으로 갈수록 base보다 성능의 방어가 더 좋아집니다.

마지막으로 정량적 결과는 위와 같습니다. 해당 결과는 100-shot L/14 model 로 실험되었다고 합니다. Figure 7에서는 FOMO의 좋은 결과들을 보이고 있는데, FOMO(아래)는 BASE-FS(위)보다 unknown 탐지 에서 조금 더 일관된 탐지를 보인다고 주장하고 있습니다. 뭐 예를 들면 Aquatic 데이터셋에서 FOMO는 이미지에 있는 3개의 불가사리를 다 인지했지만 BASE는 못했다 뭐 이런 내용이었습니다. 그런데 Figure 8에서는 FOMO가 실패한 부분들에 대해서도 언급을 하는데요. 예를 들면 GAME 데이터셋에 대해서 모든 캐릭터를 다 식별하지는 못했다 등이 있겠습니다.

Conclusion

이런 저런 면을 살펴봤을 때, 저자들 본인들의 방법론을 통해 unknown 클래스에 대해 개념적인 정의를 제시해보고 Weakly supervision을 주었으며 foundation model을 활용하여 detection에서의 좋은 성능을 가져올 수 있었다는 contribution이 있긴 한 것 같지만 “Unknown”에 대한 정의가 여전히 모호한 점이 남아 있는 것 같습니다. 이는 위의 정성적 결과를 봐도 유추해볼 수 있습니다. 저자들은 추후 “Unknown”의 level도 정의되면 좋을 것 같다고 했음을 언급하며 리뷰 마무리 짓겠습니다. 감사합니다.

Author: 이 재찬

2 thoughts on “[arXiv 2023] Open World Object Detection in the Era of Foundation Models (FOMO)

  1. 안녕하세요 ! 좋은 리뷰 감사합니다.
    물체의 unknown을 식별하기 위해서 속성과는 in-distribution하고 known class와는 out-of-distribution해야 한다는 정의가 굉장히 모호하다는 생각이 드는데 .. 제가 이해한 바로는 그럼 기존의 데이터셋에서 어노테이션하여 물체로 정의한 클래스 이외의 물체를 당연하게도 unknown이라고 정의하고 검출해야 하며 이는 기존의 class와는 out-of-distribution한 관계이어야 한다고 생각합니다. 그런데 리뷰에서 보니 이미지 뷰 내에서 기존 데이터셋의 클래스와 in-distribution하게 엮인 객체에 대해서 찾아야 한다고 말씀하시는데 .. 이 말은 결국에는 클래스가 아니라 속성 관점에서 in-distribution해야 한다고 말씀하신게 맞을까요 ?
    마지막으로 LLM을 활용할 때 프롬프트 템플릿을 사용하고 있는데, 3D 쪽에서는 여기서 템플릿을 여러 개 사용한 후 사용한 템플릿의 개수에 따라서도 성능을 ablation study로 리포팅하곤 하는데 본 논문에서는 그러한 실험은 따로 없었는지 궁금합니다.
    감사합니다.

  2. 안녕하세요 건화님, 리뷰 읽어주셔서 감사합니다
    1.
    그렇죠 조금 정리를 해드리자면,
    우선 FOMO 는 기존의 OWOD 태스크들에서 변화를 주고 싶었던 점이,
학습단계에서 본 적 없는, 기존 데이터셋에서 정의된 클래스 이외의 객체를 unknown이라고 정의하여 검출하고 싶은게 맞습니다.
    그러나 여기서 쿼리로 들어오는 이미지 뷰 내의 가능한 ‘모든 객체’를 unknown이라고 찾고 싶은 게 아니라, 조금 더 합리적으로 unknown에 대해서 정의를 하고 싶었던 것입니다.

    사실 unknown class들은 기존 정의된 데이터셋 내의 known object 가 갖고 있던 어떤 “시각적/기능적 속성”을 공유한다고 저자들이 생각을 했기 때문에, 그들이 정의하고 싶었던 unknown 객체는 기존 정의된 class 객체 자체들의 분포와는 out-of-distribution 관계를 띄되, known object의 속성정보들은 일부 공유하며 그러한 속성범주 내에는 분포되어 있는 unknown 객체를 detection하고 싶었던 것입니다.

    제 리뷰에 오류가 있을 까봐 건화님이 언급하신 부분을 다시 훑어보았는데, “image 뷰 내의 모든 객체를 찾고자 하는 것이 아니라, 기존의 데이터셋에서의 class와 in-distribution하게 엮인 어떤 ‘속성객체’에 대해서만 owod로 찾고싶다” 라고 언급하였고, ‘속성객체’가 아니라 ‘속성을 가진 객체’가 더 맞는 표현일 것 같은데 아마 이 부분때문에 이해하는데 혼동이 생기신 것 같습니다. 수정했습니다

    2.
    LLM 프롬프트 템플릿 개수 관련 ablation study는 없었고, LLM 프롬프트는 한 가지로 고정한 채 어떤 Unknown Class들을 LLM이 제안했는지에 대한 결과는 정성적으로 나와있었습니다. 필요하시면 논문의 Supplementary Material Table 6. 7. 쪽을 찾아보시면 될 것 같습니다!

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다