합성곱 네트워크의 깊이가 큰 스케일의 영상 인식 정확도에 미치는 영향을 연구한 논문이다. 현재도 많이 쓰이고있는 VGG NetWork가 이 논문에서 나왔다.
VGG-Net이 나오기 이전의 대표 conv network는 ALEX Net이였는데, 이보다 성능이 좋아진 이유는 Conv net이 깊어진것과 커널 사이즈의 변화 때문이다.
ALEX Net은 11×11 커널을 이용하였고, VGG-Net은 3×3 커널을 이용했다. 커널의 크기가 작아짐이 성능에 영향을 미쳤다.
Stride =1 Padding = 0을 기준으로 11×11 커널을 1번 통과한 것과 3×3을 5번 통과한 후의 이미지 크기는 같다. 하지만 이 둘에는 차이가 존재한다.
- 비선형성이 증가한다.
- 학습 파라미터 수가 감소한다.
ReLU함수는 비선형함수인데, 레이어를 여러번 통과하게 되면 그만큼 ReLU함수의 연산도 늘어난다. 이는 모델의 비선형성을 증가시키고 모델의 특징 식별성을 증가시킨다.
위의 예인 11×11커널 1개의 학습 파라미터의 수는 121개이고,
3×3 커널 5개의 수는 45개이다.
Conv layer의 deth에 따라 VGG-11(A) ~ VGG-19(E)로 나뉜다.
마지막 FC layer가 1000차원인 이유는 1000개의 class로 분류하기 때문이다.
3줄요약
- VGG-Net이 나온 논문이다.
- Convolution Layer을 깊게 쌓을 수록 성능이 좋아진다.
- 커널의 사이즈가 작으면 성능이 좋아진다.
1×1 커널에 대한 성능 비교는 없나요?
그리고 11×11 커널의 파라미터 수는 121개, 3×3 커널 5개의 파라미터 수는 45개라고 설명해주셨는데 이는 1차원 인풋 기준으로 단순하게 파라미터가 상대적으로 적은 것을 설명하시려고 한 것으로 이해하면 되는지 궁금합니다.
비선형성이 증가한다는 것은 차원을 높여 데이터셋의 튀는 값에도 모델이 fitting 될 수 있다,
모델의 파라미터가 증가한다는 것은 모델이 데이터셋을 단순 암기하는 정도를 줄인다고 이해했는데,
혹시 데이터가 잘 정돈된 상황에서 데이터의 특성에 따라 결과가 달라지지 않을까 라는 생각도 듭니다