09_DL(Deep_Learning)

22_이미지 분류 신경망

chuuvelop 2025. 5. 2. 22:22

728x90

이미지 분류 신경망

AlexNet

영상 데이터베이스를 기반으로 한 화상 인식 대회 "ILSVRC 2012"에서 우승한 CNN 구조
AlexNet은 합성곱층 다섯 개와 완전연결층 세 개로 구성되어 있으며, 맨 마지막 완전 연결층은 카테고리 1000개를 분류하기 위해 소프트맥스 활성화 함수를 사용
LeNet5와 크게 다르지 않지만 GPU 두 개를 기반으로 한 병렬 구조인 점이 가장 큰 차이점
AlexNet의 차별점
- ReLU의 사용
  - 이전까지는 tanh 함수를 사용
  - tanh에 비해 6배 빠른 속도
- overlapping pooling
  - 풀링 커널이 움직이는 보폭인 stride를 커널 사이즈보다 작게 하는 방법
- Local Response Normalization(LRN)
  - ReLU를 사용하여 양수값을 그대로 전달하면 너무 큰 값이 전달되어 주변의 다른 값에 비해 지나치게 강한 자극이 됨
  - 따라서 일부 큰 값이 주변의 작은 값을 억누르는 효과를 방지
  - 현재는 이 기법이 더 발전하여 Batch Normalization이 됨
모델 과적합을 막기 위한 방법
- dropout 사용
- Data augmentation 사용
  - 데이터의 양을 늘리는 것
  - 하나의 이미지를 가지고 여러 장의 비슷한 이미지를 만들어냄

카렌 시모니안(Karen Simonyan)과 앤드류 지서만(Andrew Zisserman)이 2015 ICLR에 게재한 Very deep convolutional networks for largescale image recognition 논문에서 처음 발표
VGGNet은 합성곱층의 파라미터 수를 줄이고 훈련 시간을 개선하려고 탄생
- 즉, 네트워크를 깊게 만드는 것이 성능에 어떤 영향을 미치는지 확인하고자 연구
- 깊이의 영향만 확인하기 위해서 합성곱층의 필터/커널의 크기를 3X3으로 고정
- 역사적으로 VGGNet 이후로 네트워크의 깊이가 확 깊어짐
네트워크 계층의 총 개수에 따라 여러 유형의 VGGNet(VGG16, VGG19) 등이 있음

VGGNet은 새로운 구조보다는 네트워크의 깊이가 끼치는 영향에 집중했기 때문에 단순히 3X3 합성곱층을 겹치는 구조를 만듦
위 이미지에서 3X3 필터로 두 번 합성곱을 하는 것과 5X5 필터로 한 번 합성곱을 하는 것이 결과적으로 동일한 사이즈의 특성맵을 산출
- 3X3 필터가 2개면 총 18개의 가중치를 갖는데 5X5필터는 25개의 가중치를 가지기 때문에 3X3필터를 사용하는 것이 훈련 속도가 빨라짐
- 동시에 층의 갯수가 늘어나면서 활성화함수를 한 번 더 사용하게 되어 특성의 비선형성이 증가되어 유용한 특성을 찾기 유리해짐
- 하지만 일정 깊이 이상에서는 성능 개선 효과가 미미함

728x90

24_전이학습(transfer learning)_keras (0)	2025.05.07
23_전이학습(transfer learning)_pytorch (0)	2025.05.07
21_Fashion_MNIST(파이토치) (2)	2025.05.02
20_파이토치_기초예제(car_evaluation) (3)	2025.05.02
19_파이토치_기초문법 (0)	2025.05.02

250x250

chuuvelop 님의 블로그

chuuvelop 님의 블로그 입니다.

데이터프레임컬럼명변경, 데이터프레임특정헤더명변경, 파이썬튜플, 파이썬continue, 마우스커서올릴때변하게, 마우스커서올릴때색변하게, hoverhtml, git삭제, git리모트브랜치삭제, 파이썬리스트, 파이썬컬렉션, 파이썬세트, git브랜치삭제, 파이썬리스트내포, git로컬브랜치삭제, pandas, 파이썬제어문, 데이터프레임헤더수정, 파이썬조건식, 파이썬enumerate,