안녕하세요 이번에 소개할 논문은 SGG 논문으로 Long-tail 문제를 완화하기 위해 제안된 논문입니다. 구체적으로 기존의 SGG 모델은 의미적 모호성을 충분히 처리하지 못하고, 단일한 결정론적 관계만을 예측하려고 하기 때문에, 빈도 높은 관계에 대한 편향이 발생하거나 다양한 관계를 포착하는 데 한계가 있습니다. 이로 인해 구체적인 관계에 대한 예측 성능이 저하됩니다. 따라서, 이 논문은 의미적 모호성을 확률적으로 모델링함으로써, 다양한 관계 예측을 가능하게 하고, 더 나아가 빈도 높은 관계에 대한 편향을 줄이고 구체적인 관계 예측을 향상시키는 것을 목표로 하고 있습니다.
1. Introduction
Scene Graph Generation (SGG)은 주어진 이미지에서 visual relation triplets을 생성하는 것을 목표로 하는 task입니다. SGG는 visual captioning , visual question answering, 3D scene understanding와 같은 다양한 task에서 널리 사용됩니다.대부분의 기존 연구들은 SGG를 objective task으로 보고, 객체 쌍 간의 관계를 deterministic(deterministic) 방식으로 예측합니다. 즉, 객체 쌍이 주어지면 항상 동일한 술어를 생성하는 모델입니다. 그러나 human annotator와 비교할 때, 이러한 방법은 visual relationship의 내재된 의미적 모호성을 간과합니다. 구체적으로, human annotators들의 주석은 다양한 관계 설명을 포함하여 유사한 시각적 장면에 대해 다양한 설명을 제공합니다.
저자는 대규모 Visual Genome 데이터셋에서 여러 유형의 의미적 모호성이 존재한다는 것을 관찰했습니다. 언어적 지식을 바탕으로, 저자는 모호성을 세 가지 유형으로 분류했습니다.
첫 번째 유형은 동의어적 모호성(Synonymy Ambiguity)으로, 정의가 겹치는 여러 동의어 술어들이 유사한 시각적 장면을 설명하는 데 적합한 경우를 말합니다. 예를 들어, 그림 1(a)에서 남자와 우산 사이의 관계를 설명하는 데 carrying과 holding은 서로 교환 가능합니다. 이 두 단어를 의미 공간에서 시각화하면, visual relationship이 동일한 위치를 가리켜야 합니다.
두 번째 유형은 하위어적 모호성(Hyponymy Ambiguity)입니다. 이는 어떤 사람은 고양이가 벤치 위에 있는 장면을 설명하는 데 단순히 on을 사용할 수 있지만, 다른 사람들은 보다 세부적인 laying on을 선택할 수 있습니다. 이 경우, laying on은 on의 하위어(hyponym)로, 전자의 의미 범위는 후자의 의미 범위에 포함됩니다.
세 번째 유형은 Multi-view 모호성으로, 저자는 human annotators들이 종종 다른 visual relationship 유형에 집중한다는 점을 관찰했습니다. 이는 다른 관점에서 기인한 현상으로, 이를 다중 관점 모호성(Multi-view Ambiguity)이라고 부릅니다. 예를 들어 그림 1(c)에서는 working man과 laptop 사이의 관계를 설명하는 데 사용(actional)과 in front of(spatial)의 두 가지 술어가 모두 적합할 수 있습니다. 시각적 장면을 3차원 공간으로 추상화하면, 이는 다색 구체(multicolor sphere)로 표현될 수 있습니다.
위에서 언급한 의미적 모호성으로 인해 대부분의 술어는 데이터셋에서 단일 레이블로 지정되지만, 저자는 많은 술어가 다중 레이블로 지정되어야 한다고 주장합니다. 유사한 시각적 장면이 서로 다른 술어로 주석되기 때문입니다. 저자는 이 문제를 implicit multi-label 문제라고 지칭하며, visual relationship에 대해 diverse predictions을 생성할 필요성을 강조합니다.
본 연구에서는 visual relationship의 의미적 모호성을 모델링하는 데 집중하며, 기존 SGG 모델에 쉽게 배치할 수 있는 Probabilistic Uncertainty Modeling(PUM) 모듈을 제안합니다. 구체적으로, 저자는 각 union region을 deterministic feature vector 대신 확률 분포로 표현합니다. 기하학적 관점에서, 확률적 표현은 각 visual relationship를 단일 점 대신 공간 내의 soft regio에 매핑할 수 있게 합니다. 모델링의 용이성을 위해, 저자는 가우시안 분포를 선택하여 이를 표현합니다. 즉, 각 union region은 이제 평균과 분산으로 매개변수화됩니다. 평균은 전통적인 모델에서 정상적인 feature vector처럼 작동하며, 분산은 특징의 불확실성을 측정합니다. 이러한 uncertainty modeling 덕분에 모호한 union region은 큰 분산을 가진 가우시안 분포로 할당되어, 다양한 샘플을 생성하고 diverse predictions을 이끌어냅니다.
본 연구의 주요 contributions은 다음과 같습니다:
- 저자는 visual relationship의 의미적 모호성을 인식하고, 각 union region을 deterministic feature vector 대신 확률 분포로 표현하는 novel plug- and-play Probabilistic Uncertainty Modeling(PUM) 모듈을 제안합니다.
- PUM과 ResCAGCN을 결합하여, Visual Genome 벤치마크에서 기존 평가 지표, 특히 mean recall metric에서 sota를 달성했습니다.
- 다양한 평가를 통해, PUM이 기존 SGG 모델에 연결될 때 자주 발생하는 categories에 대한 편향을 완화하는 데 우수함을 입증했으며, 이는 mean recall metric의 개선에 반영되었습니다.
- 저자에 따르면, 저자는 SGG를 위해 diverse predictions을 탐구한 첫 연구입니다.
2. Method
일반적으로, Scene Graph는 시각적 장면의 내용을 설명하는 구조화된 표현으로, 객체 인스턴스는 노드를 통해, 객체 간의 관계는 엣지를 통해 인코딩합니다. Scene Graph Generation(SGG) task는 이미지와 연관된 시각적으로 근거가 있는 Scene Graph를 생성하는 것입니다. 수학적으로, Scene Graph는 G = {B, O, R}로 정의되며, 여기서 B는 경계 상자(bounding box)의 집합을, O는 객체 레이블을, R은 관계 레이블을 나타냅니다. 기존의 방법에서는 주어진 이미지 I에 대해 Scene Graph의 확률 분포 P(G|I)가 세 가지 요인으로 분해됩니다:
먼저 이미지가 주어졌을때 Faster R-CNN 이 P(B|I)를 모델링하고 object proposals을 생성합니다. 다음으로, 후보 경계 상자를 조건으로 하여, 객체 모델 P(O|B, I)는 각 상자에 대한 클래스 레이블을 예측합니다. 마지막으로, 객체 탐지 결과를 기반으로 관계 모델 P(R|O, B, I)는 각 객체 쌍의 관계를 추론하여 현재 이미지에 대한 전체 Scene Graph를 생성합니다. 기존의 연구들은 P(R|O, B, I)를 deterministic 모델로 처리하여 동일한 객체 쌍에 대해 항상 동일한 레이블을 생성합니다. 이 프레임워크는 그림 2(a)(b)(c)에 설명되어 있습니다. 그러나 이러한 방법은 visual relationship의 내재된 의미적 모호성을 간과하고, 자주 사용되는 레이블을 생성하는 경향이 있어 편향된 예측 문제에 직면하게 됩니다. 본 연구에서는 관계 모델을 위한 plug- and-play 모듈인 Probabilistic Uncertainty Modeling(PUM)을 제안하며, 이는 앞서 언급한 의미적 모호성을 확률적으로 처리합니다. 저자는 기존의 deterministic 모델링을 PUM으로 대체하며, 이는 그림 2(d)에 설명되어 있습니다.
2.1 Object Model
저자는 ResCAGCN(Residual Cross-attention Graph Convolutional Network)을 Object Model 로 채택하여 객체 특징을 융합하고 객체 레이블을 예측합니다. ResCAGCN의 핵심은 coss-attention module(CA)로, 이는 객체 특징과 pairwise union region 특징 간의 의미적 관련성을 포착하도록 설계되었습니다. 이 모듈은 다음과 같이 수식화됩니다:
여기서 ⊕는 element-wise product을, σ는 attention score 를 정규화하기 위한 시그모이드 함수입니다. W*는 모두 동일한 차원으로 특징을 임베딩하기 위한 linear transformations을 나타냅니다. 두 개의 객체 특징 xi와 xj 및 이들의 union region 특징 uij를 제공받아, ResCAGCN은 coss-attention module을 사용하여 context coefficient cij를 계산합니다. 이는 다음과 같이 수식화됩니다:
ResCAGCN은 계산된 특징을 출력 특징으로 직접 사용하는 대신, residual connection 을 사용하여 원래 특징에 다시 추가합니다:
여기서 ⊗는 Kronecker product 을, Ni는 i번째 노드의 이웃을, LN은 층 정규화(layer normalization)를 나타냅니다. 이렇게 업데이트된 객체 특징 ˆxi는 이후 분류기에 입력되어 객체 레이블을 예측합니다.
2.2 Probabilistic Uncertainty Modeling
전통적으로, 두 개의 proposal의 결합은 공간에서 단일 지점으로 표현되며, 이를 포인트 임베딩(point embedding)이라고 합니다. 그러나 이러한 점 추정치는 입력으로 인한 불확실성을 자연스럽게 표현하지 못합니다. visual relationship의 경우, 이는 애매한 주석으로 인해 발생할 수 있으며, 예를 들어, holding과 looking at은 남자와 휴대폰이 있는 장면을 묘사하는 데 모두 적절할 수 있습니다. 그림 2(d)에 표시된 것처럼, visual relationship의 내재된 불확실성을 포착하기 위해, 저자는 각 union region의 특징 분포를 가우시안으로 모델링할 것을 제안합니다. 즉, 저자는 각 union region을 전통적인 포인트 임베딩 대신 확률적 임베딩으로 표현합니다. 확률적 관점에서, 각 union region의 최종 표현은 더 이상 deterministic vector가 아니며, 가우시안 분포에서 무작위로 추출됩니다. 결과적으로, 저자는 동일한 객체 쌍에 대해 다양한 술어를 생성할 수 있으며, 이는 Scene Graph Generation의 다양성을 이끌어냅니다.
Stochastic Representation
각 객체 쌍에 대해, 저자는 먼저 ResCAGCN을 따라 이들의 context 객체 특징 xiˆ와 xjˆ 및 visual union region 특징 uij를 융합하여 관계 특징 eij를 얻습니다:
융합된 각 관계 특징에 기반하여, 저자는 해당 표현 zij를 잠재 공간에서 가우시안 분포로 정의합니다:
여기서 μij와 σ²ij는 각각 평균 vector와 diagonal covariance matrix을 나타냅니다. 이들은 다음과 같이 수식화됩니다:
테스트 시, 저자는 여러 개의 zij 샘플을 추출하여 각각 관계 분류기 φr에 입력하고, posterior probability distribution의 평균을 계산합니다:
여기서 z(k)ij ∼ N(μij, σ²ij)는 가우시안에서 추출된 K개의 샘플입니다. 그런 다음, 저자는 Pij의 argmax를 취해 예측된 관계 레이블을 얻습니다.
Uncertainty-aware Los
μij는 union region의 원래 deterministic 표현으로 간주될 수 있으며, 무작위 변수 zij는 확률적 표현 샘플 역할을 합니다. 여기서 저자는 두 가지 표현을 모두 고려하고 이를 각각 φr에 입력합니다. 그런 다음, 저자는 교차 엔트로피 손실로 관계 모델을 학습합니다:
여기서 λ는 deterministic 예측과 확률적 예측 간의 균형을 맞추기 위한 가중치이며, CE는 교차 엔트로피 손실을 의미합니다. 저자는 계산의 편의를 위 z(k) ∼ p(z|e)에서 Monte-Carlo 샘플링을 통해 기댓값 항을 근사합니다:
여기서 N은 가우시안에서 샘플링된 샘플 수를 의미합니다. 하지만 위의 식 훈련이 진행됨에 따라 분산 σ²이 줄어들어 점점 deterministic 모델로 되돌린다고 합니다. 따라서 이 문제를 다음과 같은 정규화 항을 해결하고자 합니다:
따라서 최종적인 손실은 다음과 같이 표현됩니다:
3. Experiment
3.1. 실험 설정
저자는 Visual Genome (VG) 데이터 셋을 사용하여 실험을 진행합니다. 평가 방식은 다음과 같습니다.
(1) Predicate Classification (PredCls): 이미지에서 bounding boxes와 객체 레이블이 주어졌을 때, 모든 쌍의 관계에 대한 술어를 예측합니다.
(2) Scene Graph Classification (SGCls): 이미지에서 gt bounding boxes가 주어졌을 때, 각 쌍의 관계에 대해 술어와 객체 레이블을 예측합니다.
(3) Scene Graph Detection (SGDet): 이미지만 주어졌을 때, 객체 집합을 탐지하고 탐지된 각 객체 쌍 사이의 술어를 예측합니다. VG 데이터셋에서 관계의 분포가 매우 불균형하기 때문에 각 관계를 균형 있게 평가하기 위해 mean Recall@K (mR@K)를 사용합니다.
3.2. Comparisons with State-of-the-Art Methods
이 실험에서는 기존의 최신 방법들과 저자의 모델을 비교합니다
정량적 결과: 표 1에서, 이전 최신 방법들과 비교했을 때 제안된 모델(ResCAGCN + PUM)은 mR@K 지표에서 가장 우수한 성능을 보여주며, VCTREE-HL과 비교하여 평균적으로 13.9%의 향상을 나타냅니다. 이는 제안된 모델이 빈도가 적은 카테고리에서 상당한 개선을 이루었음을 나타냅니다.
그림 3에서 PredCls 설정에서 각 술어 카테고리의 R@100 개선을 VCTREE-HL에 대해 추가로 제시했습니다. x축 레이블은 VG 데이터셋에서 샘플 수에 따라 내림차순으로 정렬되어 있습니다. 제안된 모델이 대부분의 카테고리에서 성능 개선을 달성했음을 알 수 있습니다. 특히, 빈도가 적은 카테고리에서의 개선이 더 큽니다. 이 결과를 통해 어느정도 편향된 문제를 완화했음을 확인할 수 있습니다.
3.3. Ablation Study
PUM의 효과를 더 잘 증명하기 위해, 이 부분에서는 PUM을 플러그 앤 플레이 모듈로 사용했을 때의 이점을 탐구합니다. 먼저, 표 1의 세 번째 부분에서 설명한 것처럼, PUM은 기본 ResCAGCN 모델에 비해 mR@K에서 평균적으로 1.2%의 향상을 가져왔습니다. 또한, 표 2에서 PUM은 R@K에서도 적절한 개선을 이루었습니다. 이 결과는 PUM이 더 균형 잡힌 예측을 가능하게 함을 보여줍니다.
그 다음 PUM을 기존 최신 방법들에 적용했습니다. 기존의 최신 방법들은 일반적으로 시각적 관계를 결정론적 방식으로 표현합니다. 표 1의 두 번째 부분에서 기존 최신 방법들(IMP, SMN, KERN, VCTREE-SL2)과 PUM이 추가된 버전 간의 mR@K 비교를 제시했습니다. PUM은 모든 모델에서 성능을 향상시켰으며, 각각의 기준 모델과 비교했을 때 14.7%, 30.0%, 5.1%, 11.1%의 상대적 성능 향상을 보였습니다. 이 결과는 PUM이 결정론적 모델링에 비해 보편적인 우수성을 가지고 있으며, 특히 빈번한 관계에 대한 편향된 예측 문제를 완화하는 데 효과적이라는 것을 보여줍니다.
또한, 표 2에서 R@K 비교도 제시했습니다. 그러나 PUM이 이 지표에서는 모든 기본 모델을 반드시 향상시키지는 않습니다. 이유는 R@K는 SGG를 평가하기에 적절한 지표가 아니며, 단순히 자주 등장하는 카테고리에만 맞추고 드물게 등장하는 카테고리를 무시하면 불공정하게 좋은 성능을 얻을 수 있습니다. 따라서 PUM으로 인한 성능 저하는 주로 일반적인 head 술어를 더 세밀한 tail 술어로 분류하는 과정에서 발생하는 것으로 관찰된다고 합니다.
3.4. Understand Uncertainty Modeling
제안된 모델은 다양한 관계를 생성할 수 있어, 의미적 모호성으로 인한 다중 레이블 문제를 해결하는 데 도움이 됩니다. 이 부분에서는 Uncertainty Modeling에 대한 분석을 진행합니다.
그림 4에서는 PredCls 설정에서 제안된 모델이 연속적으로 예측한 예시들을 보여줍니다. 첫 번째 행에서는 제안된 모델이 연속적으로 의미가 유사한 술어(at vs. near, holding vs. carrying)를 생성합니다. 이를 통해 동의어 모호성(Synonymy Ambiguity)이 존재한다고 주장할 수 있습니다. 즉, 여러 동의어가 동시에 적합할 수 있다는 것입니다. 하위어 모호성(Hyponymy Ambiguity) 또한 흔한 현상으로, 추상적인 수준이 서로 인접한 술어들이 상호 교체될 수 있습니다. 두 번째 행에서는 정답 레이블이 세밀(walking on)하거나 일반적(on)일 수 있습니다. 불확실성 모델링 덕분에 제안된 모델은 두 수준의 세밀도를 모두 다루며, 이로 인해 정답을 맞출 가능성이 증가합니다. 그림 4 (c)에서, 사람과 양 사이의 관계에 대해 제안된 모델은 공간적 위치(뒤)에 초점을 맞추거나 사람의 행동(쳐다보는 것)에 초점을 맞추었습니다.
Oracle Evaluation
저자는 Multiple Choice Learning에서의 oracle error rate에서 영감을 받아 예측의 다양성을 측정하기 위해 oracle Recall, oR을 사용할 것을 제안합니다. 이는 여러 연속적인 예측 중 하나가 정답과 일치하면 정답으로 간주합니다.
실험결과는 그림 5에 나와있습니다. 이는 PUM을 적용한 모델과 그렇지 않은 모델의 oR을 각각 평가했습니다. M이 증가함에 따라, ResCAGCN의 성능은 다양성 부족으로 인해 변하지 않았지만, ResCAGCN + PUM은 꾸준히 향상되었습니다. 이 결과는 PUM이 단일 추론에서 예측된 관계의 범위를 넓힐 뿐만 아니라, 다음 연속적인 새로운 예측에서 새로운 관계를 다양하게 생성하여 정답을 맞출 가능성을 높일 수 있다는 것을 보여줍니다.
안녕하세요 정의철 연구원님 좋은 리뷰 감사합니다.
Probabilistic Uncertainty Modeling(PUM) 모듈을 설명해주실 때에 point embedding이 입력으로 인한 불확실성을 자연스럽게 표현하지 못한다고 설명해주셨는데, point embedding은 discriminative하게 relation을 구분하기에 relation을 설명할 수 있는 여러가지 표현 중에 annotation되어 있는 하나의 표현을 제외한 나머지 표현들이 억압되기 때문이라고 생각되는데 제가 제대로 이해한 것이 맞는지 궁금합니다. 또한, 확률적 임베딩이 확률적으로 표현되게된다면 가우시안 분포에서 무작위로 추출된 표현이 운이 안좋다면 적절한 술어가 생성되지 않을 수도 있을 것이라 예측되는데 그렇게 된다면 성능에서 손해를 볼 것 같은데 그에 대한 대책은 없나요?
감사합니다.