09_DL(Deep_Learning)

22_이미지 분류 신경망

chuuvelop 2025. 5. 2. 22:22
728x90
이미지 분류 신경망

 

AlexNet

 

  • 영상 데이터베이스를 기반으로 한 화상 인식 대회 "ILSVRC 2012"에서 우승한 CNN 구조
  • AlexNet은 합성곱층 다섯 개와 완전연결층 세 개로 구성되어 있으며, 맨 마지막 완전 연결층은 카테고리 1000개를 분류하기 위해 소프트맥스 활성화 함수를 사용
  • LeNet5와 크게 다르지 않지만 GPU 두 개를 기반으로 한 병렬 구조인 점이 가장 큰 차이점
  • AlexNet의 차별점
    • ReLU의 사용
      • 이전까지는 tanh 함수를 사용
      • tanh에 비해 6배 빠른 속도
    • overlapping pooling
      • 풀링 커널이 움직이는 보폭인 stride를 커널 사이즈보다 작게 하는 방법
    • Local Response Normalization(LRN)
      • ReLU를 사용하여 양수값을 그대로 전달하면 너무 큰 값이 전달되어 주변의 다른 값에 비해 지나치게 강한 자극이 됨
      • 따라서 일부 큰 값이 주변의 작은 값을 억누르는 효과를 방지
      • 현재는 이 기법이 더 발전하여 Batch Normalization이 됨
  • 모델 과적합을 막기 위한 방법
    • dropout 사용
    • Data augmentation 사용
      • 데이터의 양을 늘리는 것
      • 하나의 이미지를 가지고 여러 장의 비슷한 이미지를 만들어냄

 

 

VGGNet

 

  • 카렌 시모니안(Karen Simonyan)과 앤드류 지서만(Andrew Zisserman)이 2015 ICLR에 게재한 Very deep convolutional networks for largescale image recognition 논문에서 처음 발표
  • VGGNet은 합성곱층의 파라미터 수를 줄이고 훈련 시간을 개선하려고 탄생
    • 즉, 네트워크를 깊게 만드는 것이 성능에 어떤 영향을 미치는지 확인하고자 연구
    • 깊이의 영향만 확인하기 위해서 합성곱층의 필터/커널의 크기를 3X3으로 고정
    • 역사적으로 VGGNet 이후로 네트워크의 깊이가 확 깊어짐
  • 네트워크 계층의 총 개수에 따라 여러 유형의 VGGNet(VGG16, VGG19) 등이 있음

 

 

  • VGGNet은 새로운 구조보다는 네트워크의 깊이가 끼치는 영향에 집중했기 때문에 단순히 3X3 합성곱층을 겹치는 구조를 만듦
  • 위 이미지에서 3X3 필터로 두 번 합성곱을 하는 것과 5X5 필터로 한 번 합성곱을 하는 것이 결과적으로 동일한 사이즈의 특성맵을 산출
    • 3X3 필터가 2개면 총 18개의 가중치를 갖는데 5X5필터는 25개의 가중치를 가지기 때문에 3X3필터를 사용하는 것이 훈련 속도가 빨라짐
    • 동시에 층의 갯수가 늘어나면서 활성화함수를 한 번 더 사용하게 되어 특성의 비선형성이 증가되어 유용한 특성을 찾기 유리해짐
    • 하지만 일정 깊이 이상에서는 성능 개선 효과가 미미함
728x90