[ICLR 2015] Very Deep Convolutional Networks For Large-Scale Image Recgnition

합성곱 네트워크의 깊이가 큰 스케일의 영상 인식 정확도에 미치는 영향을 연구한 논문이다. 현재도 많이 쓰이고있는 VGG NetWork가 이 논문에서 나왔다.

VGG-Net이 나오기 이전의 대표 conv network는 ALEX Net이였는데, 이보다 성능이 좋아진 이유는 Conv net이 깊어진것과 커널 사이즈의 변화 때문이다.

ALEX Net은 11×11 커널을 이용하였고, VGG-Net은 3×3 커널을 이용했다. 커널의 크기가 작아짐이 성능에 영향을 미쳤다.

Stride =1 Padding = 0을 기준으로 11×11 커널을 1번 통과한 것과 3×3을 5번 통과한 후의 이미지 크기는 같다. 하지만 이 둘에는 차이가 존재한다.

  1. 비선형성이 증가한다.
  2. 학습 파라미터 수가 감소한다.

ReLU함수는 비선형함수인데, 레이어를 여러번 통과하게 되면 그만큼 ReLU함수의 연산도 늘어난다. 이는 모델의 비선형성을 증가시키고 모델의 특징 식별성을 증가시킨다.
위의 예인 11×11커널 1개의 학습 파라미터의 수는 121개이고,
3×3 커널 5개의 수는 45개이다.


Conv layer의 deth에 따라 VGG-11(A) ~ VGG-19(E)로 나뉜다.

VGG-16의 구조

마지막 FC layer가 1000차원인 이유는 1000개의 class로 분류하기 때문이다.

3줄요약

  1. VGG-Net이 나온 논문이다.
  2. Convolution Layer을 깊게 쌓을 수록 성능이 좋아진다.
  3. 커널의 사이즈가 작으면 성능이 좋아진다.

Author: rcvlab

RCV연구실 홈페이지 관리자 입니다.

2 thoughts on “[ICLR 2015] Very Deep Convolutional Networks For Large-Scale Image Recgnition

  1. 1×1 커널에 대한 성능 비교는 없나요?
    그리고 11×11 커널의 파라미터 수는 121개, 3×3 커널 5개의 파라미터 수는 45개라고 설명해주셨는데 이는 1차원 인풋 기준으로 단순하게 파라미터가 상대적으로 적은 것을 설명하시려고 한 것으로 이해하면 되는지 궁금합니다.

  2. 비선형성이 증가한다는 것은 차원을 높여 데이터셋의 튀는 값에도 모델이 fitting 될 수 있다,
    모델의 파라미터가 증가한다는 것은 모델이 데이터셋을 단순 암기하는 정도를 줄인다고 이해했는데,
    혹시 데이터가 잘 정돈된 상황에서 데이터의 특성에 따라 결과가 달라지지 않을까 라는 생각도 듭니다

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다