이 논문은 인간의 불확실성을 담은 데이터의 효용성에 대해 다루었다.
보면서 Knowledge Distillation(모델증류) 기법이 떠올랐는데, 논문에서는 모델 증류기법은 soft label을 위해 network를 사용하기 때문에 확실한 기준이 될 수 없다고 비교하였다. 어쩌면 단순하게 인간의 불확실정을 담은 라벨이 이미지에 대한 평가(어떤 이미지가 A의 특성을 더 담아내는지, 어떤 이미지는 A답지 못한지)를 담고있어 더 좋은 특징을 학습할 수 있는 장점 덕분에 결과의 개선이 있던 것 아닐까? 라는 의문과, 그림 1의 3행3열을 보면 처음에 하늘을 나는 강아지같다는 생각을 했는데 사실 보면 모델의 성능이 개선이 된게 아니라, 단순히 사람이 생각하는 사람의 물체판단 기준을 학습한것이 아닐까? 라는 의문이 들었다. (사람보다 더 확실한 판단을 할 수 있는 장점이 사라지는것아닐까)
그렇다면 이러한 개선이 단순히 soft label 을 통한 더 많은 정보의 제공 일까 아니면 사람의 불확신성이 정말 도움을 준 것일까 표 1의 실험 결과가 이를 대변한다. 특히 그림 3의 방식으로 soft max를 준 mix up 방식과 비교하였을때 물론 성능의 개선은 있었지만(soft label로 인한 개선) 제안하는 사람의 불확신성을 담은 라벨이 더 큰 성능 개선이 있다. (이때 신기한(?)점은 인간 불확실성의 대부분이 데이터 집합에 있는 이미지의 약 30%에 집중되어 있다는 것이다. 어떻게 보면 mix up보다 라벨에서 주는 정보량이 적었을것이다. 또 어떻게 보면 정말로 단순히 더 좋은 이미지에 가중치를 주어 학습하는 방식과 비슷한것아닐까 라는 의문도 든다.)
글 잘 읽었습니다. 위의 내용 중 ‘이때 신기한(?)점은 인간 불확실성의 대부분이 데이터 집합에 있는 이미지의 약 30%에 집중되어 있다는 것이다.’ 라고 말씀 하셨는데 이 내용에 대해 조금만 더 풀어 설명 부탁드립니다. 이해가 안되네요
논문에는 Interestingly, we found that the bulk of human uncertainty is concentrated in approximately 30% of the images in our dataset 이렇게 표현되었는데, 하나의 이미지에 대해 라벨의 불확실성이 드러나는 이미지가 30% 뿐이였다는 것으로 이해했습니다.
인간의 불확실성이 담긴 라벨은 어떻게 구해지나요?
Amazon Mechanical Turk를 통하여 2,571명의 사람이 각 이미지 당 10개의 라벨 중 최대한 빨리 라벨링 하도록 하였으며, 참가자들의 순위중 하위 75%를 지워 신뢰도를 높였습니다.