[기초] 이미지 classification 기본 모델: VGG, GoogLeNet, ResNet — Constructing Future

이 글은 필자가 "밑바닥부터 시작하는 딥러닝 1"을 보고 헷갈리는 부분이나 다시 보면 좋을만한 부분들을 위주로 정리한 글입니다.

헷갈렸던 부분

CNN: (Conv - Relu) - Pooling 거침
- Pooling layer는 크기만 줄어들뿐
- 깊게 만들기 위해서는 Conv layer가 필수적이다.
1x1 Conv vs. 3x3 Conv
- (1x1 Conv): 주로 채널 개수를 줄이기 위해 사용
- (3x3 Conv, stride =1)

1. VGG

합성곱 계층과 풀링 계층으로 구성되는 기본적인 CNN
Receptive field를 통한 (5x5) Conv보다 2개의 (3x3) Conv가 더 효율적임을 이야기
(Max pooling) - N개의 3x3 Convolution 을 거친후 FC
- Max pooling으로 이미지 크기가 줄어든다.
- 3x3의 작은 필터를 사용한 합성곱 계층을 연속으로 거친다.

2. GoogLeNet

1x1 Conv layer로 채널 개수 제한
Inception 모듈: 앞 계층의 다른 필터 결과들을 모두 합치는 구조
- (1x1 Conv 결과) + (3x3 Conv 결과) + (5x5 Conv 결과) + (3x3 Max pooling) 결과를 결합

3. ResNet

Skip connection: 입력 데이터를 합성곱 계층을 건너뛰어 출력에 바로 더하는 구조
- x + F(x)

저작자표시 비영리 동일조건

'AI, Deep Learning Basics > Computer Vision' 카테고리의 다른 글

Build OpenCV with CUDA in virtual environment (0)	2023.09.18
Instance segmentation COCO Evaluation metric (0)	2022.04.04
[Generative Model] Variational AutoEncoder 3. Variational Inference (0)	2022.01.08
[Generative Model] Variational AutoEncoder 2. Application: Conditional VAE, Convolutional CVAE 코드 구현 (0)	2022.01.01
[Generative Model] Variational AutoEncoder 1. Basic: AE, DAE, VAE (0)	2021.12.06

헷갈렸던 부분
1. VGG
2. GoogLeNet
3. ResNet

티스토리툴바