[IEEE Transaction 2023] GraSS: Contrastive Learning With Gradient-Guided Sampling Strategy for Remote Sensing Image Semantic Segmentation

안녕하세요 정의철 연구원입니다. 이번 논문은 원격 감지 이미지(RSI:remote sensing image)에서 Self-supervised contrastive learning (SSCL) strategy에 대해 연구한 논문입니다. 이 논문을 읽게된 계기는 이미지넷과 같이 object centric한 데이터셋에는 기존의 SSCL방법론들이 잘 적용되지만 KAIST PD 데이터셋처럼 다양한 물체가 포함되어있는 경우 SSCL위한 적절한 pair를 구성하기에 어려움이 있습니다. 그래서 이미지안에 있는 단일 객체들에 대해 SSCL 어떻게 적용시킬 수 있을지 찾아보다가 이 논문을 읽게 되었습니다.그럼 바로 리뷰 시작하겠습니다.

1. INTRODUCTION

자기 지도 대조 학습(SSCL)은 원격 감지 이미지(RSI) scene classification, hyperspectral image classification, object detection, change detection and semantic segmentation 등 다양한 다운스트림 task에서 큰 성공을 거두었습니다. SSCL의 핵심 아이디어는 대규모 라벨이 없는 이미지에서 효과적인 이미지 표현을 학습하기 위해 비지도 instance discrimination pretext task을 설계하는 것입니다. 그러나 RSI semantic segmentation task에 SSCL을 적용할 때 두 가지 제한 사항이 있습니다: 첫째, 양성 샘플 혼동 문제(SCI: sample confounding issue)입니다. 양성 SCI는 SCI의 한 측면으로, RSI에 포함된 지상 객체의 풍부함, 복잡성, 불균형 때문에 SSCL 모델이 양성 샘플을 더 가깝게 끌어당기는 과정에서 다양한 지상 객체를 더 가깝게 끌어당겨 모델이 서로 다른 지상 객체의 특징을 혼동하게 만드는 문제입니다. 둘째, feature adaptation bias(feature adaptation bias) 문제입니다. SSCL은 다양한 지상 객체를 포함하는 RSI 패치를 개별 인스턴스로 취급하여 인스턴스 수준의 특징을 얻지만, 이는 픽셀 수준 또는 객체 수준의 특징을 필요로 하는 RSI semantic segmentation task에는 완전히 적응하지 못합니다. 이러한 문제는 Fig1에 나와있습니다.

Positive Sample Confounding Issue(SCI) 문제를 해결하기 위해, ContrastiveCrop과 Leopart는 샘플링을 위해 이미지에서 특징 레이어로 전달된 활성화 맵을 사용하여 양성 샘플을 구성합니다. 그러나 이러한 방법들은 대조 손실의 그래디언트를 충분히 활용하지 않습니다. 최근 연구에서는 학습 공통 이론(LCR: learning common rational)과 같은 방법이 추가적인 브랜치를 추가하여 특징 활성화 맵과 대조 손실 그래디언트 활성화 맵을 정렬하여 SSCL의 성능을 향상시켰습니다. 그러나 이러한 방법은 샘플의 특징만 변경하고 활성화 맵을 사용하여 양성 샘플을 재구성하지 않습니다. RSI semantic segmentation task에서는 양성 샘플이 여전히 다양한 지상 객체를 포함하고 있어 양성 SCI를 효과적으로 완화할 수 없습니다.

두번째 문제인 feature adaptation bias 문제를 해결하기 위해, DenseCL, VADeR, IndexNet은 입력 이미지의 두 뷰 간의 픽셀 수준 대조 손실을 최적화하기 위해 밀집 대조 접근법을 사용합니다. 그러나 고해상도 RSI의 semantic segmentation task에서는 이러한 접근법이 더 높은 대조 학습 오버헤드를 초래합니다. 또한, GLCNet은 원래 인스턴스 수준 대조에 로컬 대조 모듈을 추가하는 것을 고려하지만, 이는 자기 지도 사전 학습 단계에서 semantic segmentation을 위한 디코더 구조를 지정해야 합니다.

이와 달리, 저자는 대조 손실의 그래디언트가 RSI의 특정 영역에 매핑될 수 있음을 관찰했습니다. 이러한 특정 영역은 단일 지상 객체를 포함하는 경향이 있습니다. 따라서 저자는 대조 손실의 그래디언트를 사용하여 샘플링하고 훈련 과정에서 더 많은 단일 지상 객체를 포함하는 양성 및 음성 샘플을 반복적으로 구성합니다. 제안된 그래디언트 기반 샘플링 전략(GraSS)과 이전 task의 주요 차이점은 GraSS가 추가적인 밀집 대조 모듈이나 로컬 대조 모듈을 사전 학습 단계에서 추가하지 않고도 대조 손실 그래디언트를 완전히 사용하여 RSI를 모델 입력으로 재샘플링한다는 점입니다.

실험 결과, GraSS는 다양한 지상 객체를 포함하는 양성 샘플로 인해 발생하는 양성 SCI를 효과적으로 완화하며, 구성된 양성 및 음성 샘플이 더 많은 단일 지상 객체를 포함하기 때문에 인스턴스 수준 대조를 객체 수준 대조에 더 가깝게 만들어 instance discrimination pretext task의 feature adaptation bias을 효과적으로 완화합니다.

이 논문의 주요 기여는 다음과 같습니다:

  1. 저자는 RSI semantic segmentation을 위해 GraSS를 사용한 SSCL을 제안합니다. 이는 대조 손실 그래디언트에서 양성 및 음성 샘플 구별 정보를 사용하여 양성 및 음성 샘플 구성을 안내합니다. 이는 추가적인 밀집 대조 모듈이나 로컬 대조 모듈을 추가하지 않고도 SSCL의 양성 SCI와 feature adaptation bias을 효과적으로 완화합니다.
  2. 저자는 대조 손실 그래디언트에 포함된 양성 및 음성 샘플 구별 정보가 RSI의 특정 영역에 매핑될 수 있음을 발견했습니다. 이는 종종 더 많은 단일 지상 객체를 포함합니다. 이는 대조 손실의 그래디언트가 풍부한 특징 정보를 포함하고 있음을 시사하며, 모델 학습 과정에서 추가적인 모델 능력을 얻기 위해 그래디언트 정보를 더 많이 활용할 수 있습니다..
  3. Potsdam, LoveDA Urban, LoveDA Rural의 세 개의 공개 데이터셋에 대한 실험 결과, GraSS는 여섯 가지 다른 유형의 양성 및 음성 샘플 구성을 사용한 여덟 가지 SSCL 기준 방법과 비교하여 평균 1.57% 및 최대 3.58%의 mIoU 향상을 달성하며, 최고의 성능을 보였습니다.

2. Method

A. overview

이 방법의 핵심 아이디어는 SSCL 모델의 기본 특성에서 비롯됩니다. SSCL은 비지도 instance discrimination pretext task을 설계하여 모델이 이미지 특징을 획득하도록하며, 이는 각 RSI 샘플을 독립적인 범주로 취급하는 이미지 classifier로 볼 수 있습니다. 딥 네트워크 이미지 classifier가 서로 다른 이미지 instance를 discrimination할 때 instance의 주요 영역에 의존하고 다른 영역의 정보를 무시하는 경향이 있다는 사실에 영감을 받아, 저자는 instance discrimination 중 SSCL 모델이 집중하는 semantic consistency 영역을 얻고 이 영역을 사용하여 양성 및 음성 샘플을 구성하고자 합니다. 저자는 대조 손실 그래디언트에 포함된 양성 및 음성 샘플 discrimination 정보를 대조 손실의 역전파를 통해 RSI의 특정 영역에 매핑할 수 있음을 관찰했습니다. 이러한 특정 영역은 단일 지상 객체를 포함하는 경향이 있습니다. 이러한 특정 영역을 양성 및 음성 샘플로 추출하면 RSI semantic segmentation을 위한 SSCL의 양성 SCI와 feature adaptation bias을 효과적으로 해결할 수 있습니다. 따라서 저자는 두 가지 훈련 단계를 설계했습니다: 1) instance discrimination warm-up 및 2) 그래디언트 기반 샘플링 대조 학습. GraSS의 전체 프레임워크는 Fig. 2에 나와 있습니다.

instance discrimination warm-up 단계는 모델이 instance 수준 discrimination을 수행하도록 대조 손실 그래디언트에 초기 양성 및 음성 샘플 discrimination 정보를 제공합니다. 그래디언트 기반 샘플링 대조 학습 단계는 대조 손실의 그래디언트를 사용하여 RSI 패치에서 더 많은 단일 지상 객체를 포함하는 영역을 얻고 새로운 양성 및 음성 샘플을 구성하는 것을 목표로 합니다. 이 단계에서는 대조 손실을 두 번 계산합니다: 첫 번째 계산은 대조 손실의 역전파 그래디언트를 이미지 특징 레이어에 전달하여 활성화 맵을 얻는 것이고, 두 번째 계산은 모델 매개변수를 업데이트하는 것입니다.

B. instance discrimination warm – up

instance discrimination warm – up 단계의 목적은 모델이 초기 instance discrimination 능력을 획득하도록 훈련하는 것입니다. 이 단계에서는 대조 손실을 사용하여 모델이 instance discrimination을 수행하도록 제한합니다. 이 단계는 주로 양성 및 음성 샘플의 구성, 모델 특징 추출, 대조 손실 계산 및 모델 매개변수 업데이트를 포함합니다.

  1. Construction of Positive and Negative Samples: RSI 데이터셋 x = {xi}에 대해 함수 T를 사용하여 N · K 샘플 instance를 얻습니다. 여기서 ˜xi = {˜xij}입니다. 함수 T는 이미지 copy c(·), random spectral augmentation rc(·), random spatial augmentation rs(·)의 세 가지 task으로 구성됩니다. 따라서 이 과정은 다음과 같이 설명할 수 있습니다:

여기서 ˜xci1 = ˜xci2 = · · · = ˜xciK = xi입니다. 모든 이미지 instance ˜xij는 동일한 원본 이미지 xi에서 얻은 것이며, 서로의 양성 샘플입니다. ˜xp와 ˜xq (p ≠ q)의 두 이미지 instance는 서로의 음성 샘플입니다.

2. Model Feature Extraction and Contrastive Loss Calculation: 이미지 샘플 instance ˜x는 인코더 특징 추출 네트워크 E(·)에 입력되어 고차원 특징 F를 얻고, 다시 고차원 특징 F를 특징 투영 헤드 P(·)에 입력하여 저차원 특징 f를 얻어 대조 손실 L을 계산하고 모델 매개변수를 반복적으로 업데이트합니다. 구체적으로, 이미지 instance ˜xij의 경우 모델 특징 추출 및 대조 손실 계산은 다음과 같이 설명할 수 있습니다:

여기서 K는 보통 2이고 sim(·, ·)는 보통 코사인 유사도를 사용합니다. 각 반복 매개변수 업데이트 과정에서 대조 손실은 최종적으로 다음과 같이 정의됩니다:

C. Gradient-Guided Sampling Contrastive Training

그래디언트 기반 샘플링 대조 학습 단계는 대조 손실의 그래디언트를 사용하여 RSI 패치에서 더 많은 단일 지상 객체를 포함하는 영역을 얻고, 양성 및 음성 샘플을 재구성하는 것을 목표로 합니다. 이 단계는 양성 및 음성 샘플 instance의 구성, discrimination attention region(DAR)의 획득, 샘플 재구성 및 대조 손실 계산 및 모델 매개변수 업데이트를 포함합니다. 양성 및 음성 샘플 instance의 구성 및 대조 손실 계산 설정은 instance discrimination warm – up와 일치합니다. DAR 획득 및 샘플 재구성에 대한 자세한 내용은 Fig. 3에 나와 있습니다.

  1. Acquisition of DAR: (1)–(4)를 사용하여 양성 및 음성 샘플 instance를 구성한 후, (5) 및 (6)에 따라 이미지 instance를 저차원 특징 f에 투영하고 (7) 및 (8)를 사용하여 대조 손실을 계산하여 특징 공간에서 양성 및 음성 샘플 instance의 분포를 특성화합니다. 그런 다음, 역전파를 사용하여 고차원 특징에 대한 대조 손실의 그래디언트(∂L/∂F)를 계산합니다. 이미지 instance ˜xij의 경우, 이 과정은 다음과 같이 설명할 수 있습니다:

대조 손실 그래디언트와 특징 F의 내적에 대한 평균 활성화 M을 계산하고, M을 이미지 샘플과 동일한 크기로 조정하여 contrastive loss attention map(LAM)을 얻습니다. 이미지 instance ˜xij의 경우, 이 과정은 다음과 같이 설명할 수 있습니다:

여기서 Fdij는 D차원 특징 Fij의 d번째 차원 구성 요소를 나타냅니다. pooling(·)은 그래디언트에 적용되는 글로벌 풀링 task을 나타냅니다. ResizeH=h, W=w(·)는 활성화 M을 높이 h와 너비 w의 2차원 활성화 맵으로 조정하는 task을 나타냅니다. 여기서 h와 w는 각각 입력 이미지 instance의 높이와 너비에 해당합니다. 마지막으로, contrastive LAM을 기반으로 DAR을 얻습니다. 구체적으로, 저자는 DAR acquisition 함수 G(LAM; TA)를 정의하여, TA는 DAR을 선택하기 위한 활성화 맵 임계값입니다. 저자는 LAM에서 값이 TA보다 높은 영역을 후보 DAR로 간주하고, 모든 후보 DAR의 최대 활성화 값을 계산하여 최대 활성화 값이 가장 높은 후보 영역을 DAR로 선택합니다. 위 과정은 다음과 같이 설명할 수 있습니다:

2. Reconstruction of Positive and Negative Samples: 저자는 DAR을 기반으로 양성 및 음성 샘플을 재구성합니다. 구체적으로, 먼저 원본 이미지 샘플에 해당하는 DAR의 가장 작은 직사각형의 중심 좌표 (x, y), 너비 w, 높이 h를 얻습니다. 이후, 해당 좌표를 기준으로 RSI 영역을 자르고 이를 원래 이미지 크기로 조정하여 새로운 샘플을 얻습니다. 저자는 DAR을 기반으로 이미지를 자르는 작업을 DACrop이라고 부릅니다. 위 과정은 다음과 같이 표현됩니다.

최종적인 GraSS 알고리즘은 다음과 같습니다.

3. EXPERIMENT

A. Experimental Setup

  1. 데이터셋: 고해상도 RSI semantic segmentation 성능을 평가하기 위해 Potsdam, LoveDA Urban, LoveDA Rural 세 가지 고해상도 RSI semantic segmentation 데이터셋을 선택했습니다. 아래 표1에 Potsdam, LoveDA Urban, LoveDA Rural 데이터셋에 대한 세부정보가 나와있습니다.

2. Baselines

a) Original contrastive learning method: 대표적인 SimCLR와 MoCo v2를 클래식 SSCL 기준으로 선택했습니다. SimCLR과 MoCo v2 모두 동일한 이미지의 다른 증강을 양성 샘플로, 다른 이미지의 증강을 음성 샘플로 취급하는 일반적인 양성 및 음성 샘플 구성 방법을 사용합니다. 차이점은 SimCLR은 동일한 훈련 배치의 다른 이미지에서 음성 샘플을 구성하여 배치 크기에 의해 음성 샘플의 수가 제한되는 반면, MoCo v2는 큐 모멘텀을 유지하여 음성 샘플을 업데이트하고, 음성 샘플의 수는 훈련 배치의 샘플 수에 제한되지 않습니다..

b) Contrastive learning method with clustering: PCL을 클러스터링을 도입하여 양성 및 음성 샘플을 구성하는 SSCL 기준으로 선택했습니다. SimCLR 및 MoCo v2와 달리, PCL은 데이터 증강을 기반으로 양성 및 음성 샘플을 구성하기 위해 클러스터링 전략을 도입하며, 동일한 클래스의 이미지 클러스터링의 클러스터 중심을 양성 샘플로, 다른 클래스의 클러스터 중심을 음성 샘플로 취급합니다.

c) Contrastive learning method without negative samples: Barlow Twins 와 BYOL을 양성 샘플만 구성하고 음성 샘플을 구성하지 않는 SSCL 기준으로 선택했습니다. 양성 샘플만 가깝게 만들었을 때 모델 붕괴를 방지하기 위해, BYOL은 비대칭 네트워크 구조를 사용하여 동일한 이미지의 다른 증강을 서로 다른 특징 공간에 투영하여 비교합니다. 반면에 Barlow Twins는 양성 샘플을 직접 가깝게 만들지 않고, 샘플 특징의 차원을 상대적으로 독립적으로 만듭니다.

d) Negative-aware contrastive learning method: FALSE을 Self-supervised negative-aware contrastive learning baseline으로 선택했습니다. FALSE는 클래식 양성 및 음성 샘플 구성 방법에 기반하여 잘못된 음성 샘플을 양성 샘플로 수정하는 결정 모듈을 추가하며, 양성 샘플은 동일한 이미지의 다양한 증강뿐만 아니라 양성 샘플과 동일한 지상 객체를 포함하는 이미지에서 파생됩니다.

e) Positive-aware contrastive learning method: ContrastiveCrop을 Self-supervised positive- aware contrastive learning baseline으로 선택했습니다. ContrastiveCrop은 이미지에서 모델의 특징 레이어로 전달된 활성화 정보를 사용하여 양성 샘플을 구성합니다.

f) Dense contrastive learning method: DenseCL을 Dense contrastive module을 갖춘 SSCL 기준으로 선택했습니다. DenseCL은 인스턴스 대조에 밀집 특징 대조를 추가하여, 모델이 이미지의 특정 객체 수준 또는 픽셀 수준 특징을 캡처할 수 있는 능력을 부여합니다.

3. Implementation Details: 여덟 가지 SSCL 기준 방법과 제안된 GraSS 모두에서 ResNet50을 백본 네트워크로 사용했습니다. 자기 지도 사전 학습 단계에서는 레이블 없이 전체 훈련 데이터셋을 사용하여 350 에포크 동안 훈련하며, 배치 크기는 256으로 설정했습니다. 각 기준 방법에 대해 원본 논문에서 사용하는 데이터 증강 및 최적화 설정을 사용하고, 모든 자기 지도 사전 학습 방법은 특징 추출기만 훈련하는 데 사용했습니다. RSI semantic segmentation fine-tuning 단계에서는, 서로 다른 자기 지도 사전 학습 방법으로 추출된 특징의 성능을 정확하게 평가하기 위해 백본 네트워크의 모든 가중치를 고정하고 RSI semantic segmentation 결과를 얻기 위해 사용된 feature decoder의 매개변수만 업데이트했습니다. 훈련 데이터셋의 전체 1%를 무작위로 선택하여 미세 조정 훈련에 사용했습니다.

B. Experimental Result

a) 정량적 분석:

실험 결과는 표 II에 나와 있습니다.

또한, GraSS의 적용 가능성을 탐구하기 위해, GraSS와 GLCNet의 실험 조건과 지표를 정렬하여 GraSS가 GLCNet의 성능을 향상시키는지 보여주었으며, 실험 결과는 표 III에 나와 있습니다.

마지막으로, 제안된 GraSS의 성능을 추가로 검증하기 위해, GraSS를 ContrastiveCrop 및 LCR 두 가지 샘플링 방법과 비교하였으며, 실험 결과는 표 IV에 나와 있습니다.

표 II는 GraSS가 SimCLR, MoCo v2, PCL, Barlow Twins, BYOL, FALSE, ContrastiveCrop, DenseCL 여덟 가지 SSCL 기준 방법과 비교하여 세 가지 데이터셋에서 모든 세 가지 지표에서 가장 좋은 결과를 달성했음을 보여줍니다. Potsdam 데이터셋에서는 GraSS가 DenseCL보다 약간 더 뛰어난 성능을 보였으나, LoveDA Urban 데이터셋에서는 GraSS가 mIoU에서 DenseCL보다 3.85% 높았고, LoveDA Rural 데이터셋에서는 mIoU에서 DenseCL보다 3.89% 높았습니다. 이는 GraSS가 semantic segmentation 성능을 안정적으로 향상시킴을 보여줍니다.

표 III은 자기 지도 사전 학습 단계에서 특정 semantic segmentation 디코더를 필요로 하는 GLCNet에 GraSS를 사용한 실험 결과를 보여줍니다. 실험 결과는 GraSS가 GLCNet의 semantic segmentation 성능을 더욱 향상시킴을 나타냅니다. 이는 GraSS가 사전 학습 단계에서 특징 추출기와 semantic segmentation 디코더를 모두 훈련하는 SSCL 방법에도 적용될 수 있음을 의미합니다.

표 IV는 제안된 GraSS와 Original, ContrastiveCrop, LCR의 semantic segmentation 성능 비교 결과를 보여줍니다. 여기서 Original은 원래의 SSCL 방법을 나타냅니다. 실험 결과는 Potsdam, LoveDA Urban, LoveDA Rural 데이터셋에서 Original, ContrastiveCrop, LCR과 비교했을 때, GraSS가 세 가지 지표에서 가장 좋은 성능을 달성했음을 나타냅니다. 특히, LoveDA Rural 데이터셋에서 제안된 GraSS는 mIoU에서 2.19%, mAcc에서 3.53% 개선되었습니다.

b) 정성적 분석:

RSI의 semantic segmentation 시각화 결과를 정성적으로 분석했으며, 실험 결과는 Fig. 4에 나와 있습니다.

실험 결과는 GraSS의 semantic segmentation 결과가 여덟 가지 SSCL 기준 방법보다 더 풍부한 세부 정보를 제공하며, 특히 RSI의 작은 규모의 지상 객체에 대해 인스턴스 수준의 SSCL 방법으로는 포착하기 어려운 세부 정보를 잘 잡아냄을 보여줍니다. 정량적 및 정성적 실험 결과는 제안된 GraSS가 RSI semantic segmentation 작업에서 성능을 효과적으로 향상시키는데 이는 제안된 GraSS가 대조 손실 그래디언트의 판별 정보를 충분히 활용하여 단일 지상 객체를 더 많이 포함하는 샘플을 구성하여 대조 학습 과정에서 양성 SCI를 효과적으로 완화하기 때문입니다.

동시에 모델은 단일 지상 객체를 포함하는 샘플의 대조를 통해 지상 객체의 더 정확한 특징을 얻을 수 있습니다. 제안된 GraSS는 다른 방법과 비교했을 때 RSI semantic segmentation 작업에서 SSCL의 양성 SCI를 효과적으로 완화하지만, 양성 및 음성 샘플 구성 과정이 비지도 학습이기 때문에 제안된 GraSS는 얻어진 샘플이 단일 유형의 지상 객체만 포함한다고 절대적으로 보장할 수 없으며, 양성 SCI를 완전히 제거할 수는 없습니다.

c) Visual Analysis of Contrastive LAM

LAM의 시각화 및 분석을 위해 0, 50, 100, 150, 200의 다섯 가지 인스턴스 구별 준비 에포크를 선택했습니다. 실험 결과는 인스턴스 구별 준비가 진행됨에 따라, 얻어진 LAM이 점차 RSI의 특정 영역에 집중되며, 이는 RSI에서 단일 지상 객체를 더 많이 포함하는 경향이 있음을 보여줍니다

RSI에 포함된 지상 객체가 LAM에 미치는 영향을 탐구하기 위해, 인위적으로 서로 다른 배치의 이미지 데이터를 구성하고 시각화를 위해 LAM을 획득했으며, 배치 크기는 8로 설정했습니다. 먼저 앵커 샘플 이미지를 지정하고 동일한 배치의 다른 이미지를 교체하여 앵커 샘플의 LAM 변화를 관찰했습니다. 동일한 배치의 다른 이미지는 SSCL에 의해 음성 샘플로 간주되며, 실험 결과는 아래에 나와 있습니다.

실험 결과는 LAM에서 더 높은 활성화 값을 가진 영역이 동일한 배치의 지상 객체가 상대적으로 많은 경우에 집중되는 경향이 있음을 보여줍니다. Fig. 10의 첫 번째에서 세 번째 행에 나타난 바와 같이, 동일한 앵커 샘플 이미지의 경우, 앵커 샘플의 LAM에서 더 높은 활성화 값을 가진 영역은 낮은 vegetation area에 집중됩니다(첫 번째 행). 동일한 배치의 다른 이미지에 많은 수의 clutter가 포함되어 있을 때, 앵커 샘플의 LAM에서 더 높은 활성화 값을 가진 영역은 clutter 영역에 집중됩니다(두 번째 행). 동일한 배치의 다른 이미지에 많은 수의 자동차가 포함되어 있을 때, 앵커 샘플의 LAM에서 더 높은 활성화 값을 가진 영역은 자동차 영역에 집중됩니다(세 번째 행).

Author: 정 의철

2 thoughts on “[IEEE Transaction 2023] GraSS: Contrastive Learning With Gradient-Guided Sampling Strategy for Remote Sensing Image Semantic Segmentation

  1. 안녕하세요. 리뷰 잘 읽었습니다.
    1. 본문 설명 중 Leopart란 어떤 바를 의미하나요? 한 번만 쓰여져 있어 이에 대해 단순 오타인지, 제가 모르는 원래의 개념인지 궁금합니다.
    2. 원격 이미지 감시가 해당 태스크로 보이는데, 원격 이미지란 드론이나 CCTV 뷰에서의 이미지를 의미할까요?

    1. 안녕하세요 상인님 좋은 질문 감사합니다.
      1 .Leopart는 “[CVPR 2022]Self-supervised learning of object parts for semantic segmentation”에 해당하는 논문에서 제안된 방법론입니다.
      2. 네 맞습니다. 원격이미지는 위성이나 항공기, 드론 등의 원격 센서를 통해 수집된 이미지를 뜻합니다.
      감사합니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다