[CVPR 2024] ImageNet-D: Benchmarking Neural Network Robustness on Diffusion Synthetic Object

오늘은 CVPR 2024에 게재된 데이터셋 논문 리뷰를 해보려고 합니다. 데이터셋 이름은 ImageNet-D로, 여기서 D는 Diffusion를 의미합니다. 본 논문을 한 줄로 요약하면, “보다 다양하고 사실적인 합성 이미지를 생성하기 위해 생성 모델인 Difussion을 사용한, 새로운 벤치마크 데이터셋인 ImageNet-D를 제안”이라고 할 수 있을 것 같습니다. 그렇다면 해당 데이터셋이 왜 필요하고, 어떤 특징이 있는지를 알아보도록 하겠습니다.

Paper: (Arxiv Link) ImageNet-D: Benchmarking Neural Network Robustness on Diffusion Synthetic Object
Project: ImageNet-D
Code: Github
Dataset Download: Link

The Robustness of Neural Networks

지금까지 신경망 기술은 다양한 분야에서 눈에 띄는 성과를 보이고 있습니다. 이렇게 신경망의 급속한 발전과 적용 분야의 확대에 따라, 많은 연구진들이 신경망의 Robustness(견고성) 문제에 초점을 두고 연구를 진행하고 있습니다.

Robustness(견고성)란, 예측하지 못한 입력이나 데이터 변화, 악의적인 공격에도 안정적인 성능을 유지하는 능력을 의미합니다. 이는 우리의 모델이 실제 세계와 유사한 복잡하고 다양한 환경에서 효과적으로 동작하기 위해 반드시 필요한 특징입니다. 예를 들어, 자율 주행 차량의 다양한 기상 조건, 도로 상황, 그리고 예측 불가능한 운전자의 행동에도 불구하고 안전하게 운행할 수 있어야 합니다. 뿐만 아니라, 의료 AI는 환자마다 다른 데이터 패턴을 해석하여 정확한 진단을 내려야 합니다.

따라서 예측하지 못한 입력이 들어오더라도 신뢰성있고 안전하고 정확한 성능을 유지하기 위해서는, 모델의 Robustness에 대한 고려가 반드시 필요합니다. 당연히 컴퓨터 비전 분야에서도 마찬가지입니다. 최근 다양한 LLM 모델을 사용하면서 비전 인식에 대한 정확도는 폭발적으로 향상했습니다. 그렇다면 Robustness 고도화 관점에서, 개발된 모델이 ‘예측하기 어렵고 많이 변형된 데이터’에서도 안정적인 성능을 내는지에 대한 고찰이 필요할 수 밖에 없습니다.

Evaluation for Robustness

그렇다면 기존에는 신경망의 견고성을 평가하기 위해 어떤 방법을 사용했을까요? 기존에는 견고성을 표현하기 위한 어려운 평가 데이터셋으로 학습을 완료한 모델의 성능을 평가하였습니다. 즉, 새로운 평가 데이터셋을 사용하여 모델의 견고성을 확인하였습니다. 그런 평가 데이터셋을 설계하기 위해서는, 모델이 예측하기 어렵고 실제 세계에서 발생할 수 있는 다양한 상황과 변형을 표현해야하는데요, 대표적으로 ObjectNet, ImageNet-C, ImageNet-9, 그리고 Stylized-ImageNet 이 존재합니다.

ObjectNet

ObjectNet은 일상 생활에 존재하는 Object를 다양한 background, rotation, 그리고 viewpoint에서 촬영한 이미지를 포함한, 실제 환경에서 촬영된 이미지들을 사람이 직접 수집한 데이터셋입니다. 신경망 모델의 객체 인식 능력을 현실 세계의 조건에서 평가할 수는 있지만, 실제로 이렇게 데이터셋을 수집하고 라벨링하기 위해서는 많은 시간과 노동력이 필요합니다.

따라서 데이터 수집을 확장하기 위해, 다양한 합성 이미지들을 포함한 평가 데이터셋들이 제안되었습니다.

ImageNet-C

ImageNet-C는 원본 ImageNet 데이터셋에 다양한 유형의 상관성없는 노이즈(corruptions)를 적용하여 합성된 데이터셋입니다. 다양한 강도의 가우시안 노이즈, 블러, 아티팩트 같은 시각적 corruptions을 적용하였습니다.

데이터셋 논문: Benchmarking Neural Network Robustness to Common Corruptions and Perturbations (ICLR 2019)
데이터셋 설명: Github

ImageNet-9

ImageNet-9는 이미지의 background와 foreground에 대해 단순 자르기 및 붙여넣기 기법을 적용한 합성 데이터셋입니다. 이 데이터셋은 모델이 object를 인식할 때 배경 정보에 얼마나 의존하는지를 평가하기 위해 설계되었습니다. 배경이 변경되었거나 완전히 제거된 이미지를 포함함으로써, 모델이 실제 object의 형태와 특성을 학습하는지, 아니면 background에 지나치게 의존하는지를 테스트할 수 있습니다. 그러나 합성한 이미지들이 사실적이지 않고 부자연스럽다는 특징이 있습니다.

데이터셋 논문: Noise or Signal: The Role of Image Backgrounds in Object Recognition (ICLR 2021)
데이터셋 설명: Github

Stylized-ImageNet

Stylized-ImageNet은 원본 ImageNet 데이터셋의 이미지에 다양한 예술 스타일을 적용하여 변형한 합성 데이터셋입니다. 모델이 이미지의 텍스처보다는 형태와 구조에 더 많이 의존하여 object를 인식하도록 유도하는 것을 목적으로 설계되었습니다. 이러한 스타일 변형을 통해 생성된 이미지는 모델이 텍스처에 과도하게 의존하는 경향을 감소시키고, 대신 보다 일반적인 형태와 구조를 인식하는 능력을 개선할 수 있습니다. Stylized-ImageNet은 텍스처를 변경할 수는 있지만, 배경만을 변경시키는 등 특정 속성만 변경한 이미지를 합성할 수는 없습니다.

데이터셋 논문: ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness (ICLR 2019)
데이터셋 설명: Github

Introduction

본 논문에서는 기존 데이터셋과는 다른 새로운 합성 데이터셋인 ImageNet-D를 제안하였습니다. 합성 데이터 생성을 위해 Stable Diffusion을 활용하였기 때문에, Text를 사용하여 데이터셋을 생성하였습니다. 그 덕분에 비전 모델이 어려워하면서 실제와 가까운 테스트 데이터셋을 텍스트로 제어하고 생성할 수 있다는 특징을 가집니다.

상단 그림은 제안하는 ImageNet-D 를 테스트로 평가했을 때, CLIP 모델이 예측 실패한 세 가지를 나타냅니다. text에 의존하여 이미지를 생성하기 때문에, 기존 데이터셋들의 corruption 혹은 텍스처와는 다르게 다른 요소(배경 등)를 변경할 수 있다는 특징이 있습니다. 해당 데이터셋을 사용하였더니 MiniGPT-4, LLaVa 와 같은 최신 모델에서도 정확도가 크게 하락하였다고 합니다.

뿐만 아니라, 기존 합성 데이터셋과는 다르게 ImageNet-D는 이미지 품질 측면에서 많이 향상된 결과를 보였다고 하였습니다. 상단 이미지가 그 대표적인 예시인데요. 기존 데이터셋은 누가봐도 합성했다고 생각할 만큼 의도적으로 합성한 이미지를 보였는데, 그에 반해 하단에 있는 ImageNet-D는 다양한 배경, 텍스처, 재료(Material)을 가진 이미지를 생성했음에도 사실과 가까운 이미지를 보여줄 수 있었다고 합니다.

~~(그런데 저는 개인적으로 ImageNet-D 이미지들을 보고 있으면… 뭐랄까 형용하기 어려운, 생성 모델이 만들어낸 이미지 특유의 느낌이 들긴 합니다..ㅋㅋ)~~

ImageNet-D

Dataset Design

앞서 설명드린 것처럼, 견고성을 평가하기 위해서는 합성 데이터셋을 수집하는 것이 더 효율적입니다. 그러나 기존 합성 테스트 셋의 기존 이미지에 의존적이기 때문에, 다양성에 있어서 떨어지는 것이 사실입니다. 게다가 현실적이지 않습니다. 이러한 한계를 해결하기 위해, 저자는 다양한 object 와 nuisance(노이즈)의 조합으로 구성된 데이터를 생성하고자 하였습니다.

Image generation by diffusion model

ImageNet-D를 구성하는 데이터는 모두 Stable Diffusion 모델을 사용하였고, 사용자가 정의한 텍스트 입력을 기반으로 이미지를 생성하였습니다. ImageNet-D를 만드는 데에 Stable Diffusion이 사용되긴 했으나, 텍스트를 사용하여 이미지를 컨트롤할 수 있다면 다른 생성 모델을 활용할 수 있습니다.

상단 수식 (1) 과 같이 이미지를 생성하는 데에 필요한 것은 C, N이라는 텍스트 입니다. C는 object Category를 의미하고, N은 Nuisance를 의미합니다. (N은 background, texture, Material 에 해당, 각각의 요소를 바꿔가며 이미지 생성) 결국 정리하면, 디퓨전 모델에 Prompt 라는 텍스트를 입력했을 때 나온 이미지를 imagenet-D로 사용한 것으로 정리할 수 있습니다.

테이블 1은 저자가 사용한 프롬프트에 대한 예시입니다. 예를 들어, C가 Backpack일 때, 다양한 배경(예: 밀밭에 놓인 배낭), 소재(예: 니트 재질의 배낭), 질감(예: 가죽으로 만들어진 배낭)을 가진 배낭 이미지를 생성하였습니다. 그렇게 생성된 데이터의 GT는 C인 Category로 설정하였습니다.

이 방식으로 대규모 이미지 데이터셋을 생성한 다음, CLIP(ViT-L/14) 모델을 평가한 결과, 테이블 2에서 확인할 수 있듯, 93% 이상이라는 높은 정확도를 달성하였습니다. 이를 통해 디퓨전을 통해 생성된 이미지들이 말도 안되게 이상한(?) 결과를 보이지 않고 설득력 있게 설계되었음을 확인할 수 있습니다. 그런데 ImageNet-D는 결국 어려운 데이터셋을 설계하는 것이 목적이었습니다. 이에 따라, 다음 섹션에서부터는 Robustness를 평가할 수 있는 까다로운 Hard Testset을 찾는 방식을 설명드리겠습니다.

Hard image mining with shared perception failures.

우선 저자는 Shared Failure 에 대해 “여러 모델에서 잘못 예측된 결과를 발생하는 이미지“라고 정의하였습니다. 모든 모델에서 틀린 값을 발생시키는 이미지가 있어야 이상적이겠지만, 미래에 개발될 모델에는 접근할 수 없기 때문에 이미 알려진 모델들 일부들의 Shared Failure 를 사용하고자 하였습니다. 쉽게 말해 여러 모델에서 틀리는 데이터를 곧 Hard Testset이라고 가정할 수 있다는 것이죠. 또한 이렇게 알려진 모델의 shared failure로 인해 알 수 없는 모델의 정확도가 낮아지는 경우를 Transferable failure이라고 정의하였습니다. 다시 말해, 여러 모델(surrogate model)이 틀리는 데이터일수록 다른 모델도 틀릴 가능성이 높다는 얘기죠.

상단 그림 5는 1~8개의 모델로부터 구한 Shared failure로 구성된 테스트셋에 대한 실험입니다. CLIP, LLaVa, MiniGPT-4 모델의 정확도를 평가한 결과, shared failure를 구할 때 사용한 모델(surrogate model)이 많을 수록 새로운 모델에서도 틀릴 경향이 커지는 것을 확인할 수 있습니다. 따라서 이를 통해 저자는 여러 개의 모델이 틀리는 데이터셋을 Hard Testset으로 정의하고, imageNet-D를 구성하였다고 합니다.

Quality control by human-in-the-loop

그렇다면 이제 슬슬 질문이 생길 것 같습니다. 이를테면 “모든 모델이 틀린다는 거면 시각적으로 말도 안되는 이미지를 생성해서 그런거 아니냐?” 분명 생성 모델에 프롬프트 입력을 했을 때, 뚱딴지 같은 결과를 내뱉어서 다시 질문을 하던 경험이 있으실 겁니다. 저자도 역시 생성 모델이 프롬프트의 카테고리와 일치하지 않는 잘못된 이미지를 생성할 수 있기 때문에, 라벨링 과정에 사람을 직접 투입시켰다고 합니다. (이미지가 단일 클래스만 있는지, 고품질인지 등을 보장하고자 대학원생들이 1차 라벨링을 맡았다고 합니다)

그 다음 Amazon Mechanical Turk라는 크라우드 작업자를 고용하는 서비스를 사용하여 라벨링의 품질을 평가하는 과정을 거쳤습니다. 작업자에게 물체를 인식할 수 있거나, GT로 사용될 수 있을 이미지를 선택하는 등 신뢰성 있는 데이터셋 구축을 위해 신뢰성 있는 2차 검사를 거쳤습니다. 총 679명의 사람이 고용되어 91.09% 합의로 데이터셋을 구축하였습니다.

이렇게 구축한 ImageNet-D의 예시를 상단 그림 3에서 확인할 수 있습니다. 각 열은 배경, 질감, 재질에 대한 변형으로 만들어진 데이터셋들을 확인할 수 있으며, GT는 왼쪽 초록색으로 칠해진 텍스트입니다. CLIP이 예측한 결과가 각 이미지 바로 위에 검정색으로 표시되어 있는데, CLIP이 GT와는 다른 예측값을 발생함을 확인할 수 있습니다.

또한 ImageNet-D 구축에 활용된 파이프라인은 그림 4에서 확인할 수 있습니다. 생각보다 엄청 심플하죠?

Dataset statistics

ImageNet-D는 113개의 category와 547개의 nuisance의 조합으로 데이터셋을 생성하였습니다. 그 결과 Background(3,764개), Texture(498), Material(573)로 구성된 4,835개의 하드 이미지를 생성하였습니다. 파이프라인이 심플하기 때문에 간단하게 새로운 카테고리를 추가할 수 있다는 강점이 있습니다.

Experiments

Experimental setups

Test set construction setup

Stable Diffusion을 사용하여 ImageNet-D를 생성
이 때, Hugging Face의 stable-diffusion-2-1의 weight를 사용
하드 이미지 도출을 위해 CLIP(ViT-L/14, ViT-L/14-336px, ResNet50), 비전모델 (ResNet50) 총 4개의 모델 사용

Robustness evaluation

그림 8은 학습이 완료된 25개 모델에 대하여 두 가지 데이터셋(imagenet, imagenet-d)으로 평가한 정확도 추세를 나타낸 것입니다. 가로축은 ImageNet, 새로축은 ImageNet-D 입니다. 그 결과 모든 모델에서의 ImageNet-D의 정확도가 현저히 낮았습니다(점선으로 구성된 y=x 베이스라인 밑에 결과들이 분포함)

또한 테이블 3을 통해 다양한 데이터셋에 대한 14개의 모델의 정확도를 확인할 수 있습니다. 그 결과, ImageNet-D가 모든 모델에서 가장 낮은 정확도를 달성하였습니다. 여기서 주목해야할 건, ObjectNet은 하나에 이미지 당 배경, 회전각도, 뷰포인트 등 여러 속성이 변경된 데이터인 반면 ImageNet-D는 하나의 이미지 당 하나의 속성만 변경됩니다. 그럼에도 불구하고 ImageNet-D는 LLaVa(29.67% 하락))와 MiniGPT-4(16.81% 하락)를 포함한 모든 모델에서 정확도가 16% 이상 떨어졌습니다. ImageNet-D는 또한 최신 모델인 LLaVa의 정확도를 크게 떨어뜨렸습니다. 게다가 비전 모델의 경우 정확도 하락 폭이 50-60%에 가깝습니다.

VQA 기반의 정성적 결과를 그림 9에서 확인할 수 있습니다. 이미지를 제공하며, MiniGPT-4와 LLaVa-1.5 에게 이미지에 main object 는 무엇이니? 다음 두개 중에 골라봐: (GT), (Failure category) 라는 양식으로 여러 질문을 던진 결과입니다. 우선 저자가 질문 양식으로 양자택일을 하라고 한 이유는, 쉽게 정확도를 계산하기 위해서 라고 하였습니다. 왜냐하면 VQA 모델의 텍스트 출력은 특정 양식에 국한되지 않기 때문에, 전혀 다른 클래스라고 예측할 수 있기 때문이라고 하는데요, 그래서 다양한 답변을 기반으로 정확도를 평가하기 어렵다고 하였습니다. 추가로 모델이 그렇게 예측한 이유까지 물어보았는데, 그림 9의 경우 정성적 결과로 가볍게 봐주시면 좋을 것 같습니다.

Robustness improvement

Model Architecture & Pretraining with more data

우선, 모델 아키텍처를 다양하게 바꿔보며 결과를 확인하였습니다. 그림 11에서, ViT에서 Swin Transformer/ConvNeXt로 변경 했을 때 ImageNet-D(background)와 ImageNet의 정확도가 모두 향상되지만, Texture, Material 에는 감소하는 결과를 보였습니다.

또한 더 많은 데이터로 사전학습된 모델인 ImageNet1K에서 직접 학습된 ConvNeXt와 ImageNet-22K에서 사전학습된 ConvNeXt를 비교한 결과 ImageNet-D 모든 셋에서 ConvNext(pre-trained)가 더 높은 Robustness 를 보인 것도 확인하였습니다.

Further discussions

Can ImageNet-D match natural test sets in failure transferability?

앞서 ImageNet-D의 하드 테스트 샘플을 구성하기 위해, 여러 모델에서 틀린 데이터로 필터링 하였다고 설명 드렸는데요. 원본 ImageNet에 대해서도 동일한 실험을 수행해봤습니다.

그 결과 테이블 5와 같이 ImageNet-D와 ImageNet (Failure)이 유사한 정확도를 달성하였습니다. 이를 통해 합성 이미지가 자연적으로 수집된 이미지와 유사한 Transferable failure를 가질 수 있음을 확인하였습니다. 다만 이미지넷과 달리 이미지넷-D는 데이터수집 비용이 저렴하고 효율적으로 확장할 수 있다는 장점을 가진다고 하였습니다.

Conclusion

지금까지 굉장히 간단한 방식으로 견고성을 평가하기 위한 새로운 벤치마크인 ImagetNet-D에 대해 살펴보았습니다. 특히, ImageNet-D를 사용하니, CLIP(46.06% 감소), LLaVA(29.67% 감소), MiniGPT 등 다양한 LLM 모델의 정확도를 크게 떨어뜨릴 수 잇었습니다. 개인적으로 저는 본 논문이 생성 모델을 데이터셋으로 활용할 수 있는지에 대한 지평을 연 논문이라 생각이 듭니다. 이제 정말로 classification이 아닌 여러 downstream task에도 이런 파이프라인을 사용하여 다양하고 어려운 테스트 셋을 생성할 수 있다는 결과를 보여준 것 아닐까요?

안녕하세요 주영님, 좋은 리뷰 감사합니다.

저같은 경우는 요즘 캡스톤 프로젝트에 쓰일 기술을 고민하다가 stable diffusion 모델에 관심이 생겨 조금씩 찾아보고 있었습니다. 모델 라이브러리를 단순히 불러와 사용해보면서 prompt를 조금만 다르게 입력해도 달라지는 output image를 보았었는데, 본 논문에서는 오히려 이 예민한 prompt input 방식을 robustness를 목적으로 이용해서 ImageNet-D 데이터셋을 제시했다는 사실이 흥미로웠습니다. 또한 모델의 robustness를 평가하기 위해 하드 테스트 샘플을 이용해 오히려 정확도가 떨어지게 만드는 것도 흥미로웠습니다.

다만 Introduction 중, 그림 1 부분의 위 문장에서 “비전 모델이 어려워하면서 실제와 가까운 테스트 데이터셋을 텍스트로 제어하고 생성할 수 있다는 특징”이라는 말에서 궁금증이 생겼습니다.

다른 diffusion 방식의 경우 input으로 image와 prompt를 모두 받아 output image를 생성해내는 모델도 있는 것으로 최근 알게 되었는데,
이를 활용하면 실제 Shared failure에 해당하던 다른 데이터셋의 image를 사용해서 그러한 failure적인 경향성과 물체나 배경에 대한 실제성(현실성..?, 너무 터무니없는 사진이 아니도록..) 을 모두 input에 태우면서도, text의 다양한 속성변화까지 모두 활용하여 테스트 이미지를 생성할 수 있지 않을까 라는 생각이 들었습니다. 그렇게 되면 시각적으로 말도 안되는 이미지를 생성해서 사람이 직접 라벨링하게 되었던 cost를 조금 더 줄일 수 있으면서도, 비전 모델이 어려워 하는 부분은 더 잘 제어할 수 있는 Transferable failure이 되지 않았을까라는 생각입니다..!

물론 논문에서 텍스트를 사용해서 이미지를 컨트롤할 수 있다면 다른 생성 모델을 활용할 수 있다고 언급한 부분은 인지했습니다.
그렇다면 결론은 이렇게 stable diffusion 외에 다른 diffusion 모델로도 생성한 이미지 또한 비슷한 robustness 성능을 보일 수 있다는 것으로 이해해도 될까요? 아니면 혹시 데이터셋의 생성 파이프라인을 간결하고 접근성이 쉽게 만들기 위해 단순 text input diffusion 모델을 사용한 것으로 생각해봐도 될까요? 아직 논문과 실험의 흐름에 대한 견해가 많이 부족하여 이런저런 궁금증이 생겨 질문드렸습니다..!

감사합니다.

5 thoughts on “[CVPR 2024] ImageNet-D: Benchmarking Neural Network Robustness on Diffusion Synthetic Object”

이 재찬 says:

03/31/2024 at 22:36

안녕하세요 주영님, 좋은 리뷰 감사합니다.

저같은 경우는 요즘 캡스톤 프로젝트에 쓰일 기술을 고민하다가 stable diffusion 모델에 관심이 생겨 조금씩 찾아보고 있었습니다. 모델 라이브러리를 단순히 불러와 사용해보면서 prompt를 조금만 다르게 입력해도 달라지는 output image를 보았었는데, 본 논문에서는 오히려 이 예민한 prompt input 방식을 robustness를 목적으로 이용해서 ImageNet-D 데이터셋을 제시했다는 사실이 흥미로웠습니다. 또한 모델의 robustness를 평가하기 위해 하드 테스트 샘플을 이용해 오히려 정확도가 떨어지게 만드는 것도 흥미로웠습니다.

다만 Introduction 중, 그림 1 부분의 위 문장에서 “비전 모델이 어려워하면서 실제와 가까운 테스트 데이터셋을 텍스트로 제어하고 생성할 수 있다는 특징”이라는 말에서 궁금증이 생겼습니다.

다른 diffusion 방식의 경우 input으로 image와 prompt를 모두 받아 output image를 생성해내는 모델도 있는 것으로 최근 알게 되었는데,
이를 활용하면 실제 Shared failure에 해당하던 다른 데이터셋의 image를 사용해서 그러한 failure적인 경향성과 물체나 배경에 대한 실제성(현실성..?, 너무 터무니없는 사진이 아니도록..) 을 모두 input에 태우면서도, text의 다양한 속성변화까지 모두 활용하여 테스트 이미지를 생성할 수 있지 않을까 라는 생각이 들었습니다. 그렇게 되면 시각적으로 말도 안되는 이미지를 생성해서 사람이 직접 라벨링하게 되었던 cost를 조금 더 줄일 수 있으면서도, 비전 모델이 어려워 하는 부분은 더 잘 제어할 수 있는 Transferable failure이 되지 않았을까라는 생각입니다..!

물론 논문에서 텍스트를 사용해서 이미지를 컨트롤할 수 있다면 다른 생성 모델을 활용할 수 있다고 언급한 부분은 인지했습니다.
그렇다면 결론은 이렇게 stable diffusion 외에 다른 diffusion 모델로도 생성한 이미지 또한 비슷한 robustness 성능을 보일 수 있다는 것으로 이해해도 될까요? 아니면 혹시 데이터셋의 생성 파이프라인을 간결하고 접근성이 쉽게 만들기 위해 단순 text input diffusion 모델을 사용한 것으로 생각해봐도 될까요? 아직 논문과 실험의 흐름에 대한 견해가 많이 부족하여 이런저런 궁금증이 생겨 질문드렸습니다..!

감사합니다.

1. 홍 주영 says:
  
  04/01/2024 at 12:32
  
  안녕하세요, 이재찬 연구원님. 리뷰 읽어주셔서 감사합니다.
  질문에 답변을 드리자면
  
  Q1. image와 prompt를 모두 input으로 output image를 생성하는 모델을 사용하면, 실제성과 가까운 데이터셋을 생성할테니 검수하는 데에 필요한 라벨링 비용이 줄고, Transferable failure를 잘 제어할 수 있지 않을까요?
  -> A1. 좋은 접근법인 것 같지만, 그럼에도 불구하고 저는 검수 과정이 빠질 수는 없다고 생각합니다.
  기존보다 실제성에 가까운 이미지를 만들 수는 있을지언정,
  그 샘플들을 모두 확인해야하는 과정은 반드시 거쳐야 하기에 라벨링 비용이 효과적으로 줄어들지는 않을 것이라 생각됩니다.
  그리고 제 생각이지만, 텍스트로부터 이미지를 생성함으로써 조금 더 다양한 이미지들이 생성되지 않을까 싶습니다.
  input으로 image를 넣으면, 그 image를 기반으로 이미지를 생성하기 때문에 object 의 형태는 크게 달라지지 않지 않을까요?
  (물론 답변드린 내용은 모두 제 생각이며, 유의미한 백데이터를 가지고 말씀드리는 것은 아닙니다!)
  
  Q2. stable diffusion 외에 다른 diffusion 모델로도 생성한 이미지 또한 비슷한 robustness 성능을 보일 수 있다는 것으로 이해해도 될까요?
  아니면 혹시 데이터셋의 생성 파이프라인을 간결하고 접근성이 쉽게 만들기 위해 단순 text input diffusion 모델을 사용한 것으로 생각해봐도 될까요?
  -> A2. 전자의 경우, 다른 Diffusion 모델로 데이터를 생성하여 평가해본 것은 아니기에 Robustness를 보이는 데이터를 생성할 것이라 단언하긴 어려울 것 같습니다. 따라서 후자에 가깝지 않을까 생각되네요
  
김 태주 says:

03/31/2024 at 22:36

좋은 논문 리뷰 감사합니다.
몇가지 질문 남기고 갈게요!

1. ImageNet-c, ImageNet-9, ObjectNet들은 각 모델이 어떤 강인성을 보이고자 하는지에 대해서도 정리를 해주셨는데요. 해당 데이터 셋은 Nuisance(background, texture, Materia)에 대해서 강인성을 보이고자 하는 것으로 이해했습니다. 이러한 Nuisance에 강인성을 보이는 것이 어떤 부분에서 강점을 가지는 것인지 궁금합니다.
2. Robustness evaluation에서 다양한 아류의 분류기에 대해서 실험을 진행하였습니다. 각 아류에 대한 성능 하락도 경향을 따르는 것으로 보이는데, 저자는 이에 대한 고찰은 따로 없었나요?

+ Model Architecture & Pretraining with more data에서 “또한 더 많은 데이터로 사전학습된 모델인 ImageNet1K에서 직접 학습된 ConvNeXt와 ImageNet-22K에서 사전학습된 ConvNeXt를 비교한 결과 ImageNet-D 모든 셋에서 ConvNext(pre-trained)가 더 높은 Robustness 를 보인 것도 확인하였습니다.” 라고 하셨는데, ConvNext(pre-trained)가 뭘까요? 그리고 해당 실험에서 시사하고자 하는 바가 무엇인지 궁금합니다.

1. 홍 주영 says:
  
  04/01/2024 at 12:50
  
  안녕하세요, 김태주 연구원님. 리뷰 읽어주셔서 감사합니다.
  
  Q1. 이러한 Nuisance에 강인성을 보이는 것이 어떤 부분에서 강점을 가지는지?
  -> 논문에 나와있는 정성적 결과를 함께 봐주시면 좋을 것 같은데요,
  기존 Mini-GPT 혹은 LLaVa 같은 모델의 경우 클래스를 예측할 때 배경이나 질감 혹은 재료라는 정보에 의존하여 모델을 예측하는 것을 확인할 수 있었습니다.
  모델이 사람만큼 물체를 잘 인식할 수 있다면, 이러한 요소들이 변화하더라도 물체를 잘 예측해내야하기 때문에 그 대표적인 요소로 Nuisance를 선정한 것 같습니다
  
  Q2. 다양한 아류의 분류기에 대해서 실험을 진행하였습니다. 각 아류에 대한 성능 하락도 경향을 따르는 것으로 보이는데, 저자는 이에 대한 고찰은 따로 없었나요?
  -> 넵 성능이 큰 폭으로 하락하였다 외에 큰 언급은 없습니다.
  
  Q3. ConvNext(pre-trained)가 뭘까요? 그리고 해당 실험에서 시사하고자 하는 바가 무엇인지 궁금합니다.
  – ConvNext (Pretrained): ImageNet-22K로 사전학습 후 ImageNet-1K으로 학습
  – ConvNext: ImageNet-1K으로 학습
  모델의 Robustness를 확보하기 위해, 보통 학습 데이터를 늘리는 방식을 사용하곤 합니다.
  본 실험에서는 ConvNext (Pretrained)이 ImageNet-D에서 더 높은 성능을 보였음을 확인하였는데요.
  이를 통해 ImageNet-D에서도 데이터셋을 늘려서 성능 향상이 되는지, 즉 데이터셋이 잘 구축되었는지를 확인한 것이 아닐까 싶습니다.
  
이 상인 says:

04/07/2024 at 23:06

안녕하세요 주영님. 좋은 리뷰 감사합니다.
세미나를 들으며 또한 리뷰를 읽으며 ImageNet-D 데이터 셋은 결국 “모델의 Robustness”를 평가하기 위한 데이터로 제안된 것으로 이해를 하였습니다.
그렇다면 저자는 앞으로 많은 연구들이 제안하는 모델들의 Robustness를 평가하기 위해 해당 데이터 셋을 평가에 활용하기를 기대하는 것인가요? 또는, 해당 데이터 셋을 할용하여 학습하면 Robustness가 늘어날 수 있음도 강조하는 것인가요?
전체적인 성능 평가가 “본인의 데이터 셋이 다른 방법에서 안좋은 성능을 보이니, 더 어려운 데이터 셋임”을 보이는 것 같은데, 과연 Robustness측면에서 성능이 낮음과 직결되어 생각할 수 있을지도 궁금합니다. 단순히 해당 데이터 셋이 생성된 방식이 일부러 어렵게 만들었기 때문에, 마치 사람도 흠..하는 데이터인데 이 데이터에 대한 성능이 낮은 것과 Robustness와의 직접적인 연관성이 있다고 봐도 무방한지 궁금합니다!
리뷰 잘 읽었습니다. 감사합니다.