🧠 CNN의 발전사
딥러닝 역사를 바꾼 획기적인 CNN 아키텍처들
1998
LeNet-5
Yann LeCun et al.
최초의 성공적인 CNN 아키텍처. 손글씨 숫자 인식(MNIST)에서 혁신적인 성능을 보여주며 CNN의 가능성을 입증했습니다.
주요 특징
- 7개 레이어로 구성된 간단한 구조
- Sigmoid/Tanh 활성화 함수 사용
- Average Pooling 사용
- 우편번호 자동 인식에 실제 사용됨
2012
AlexNet
Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton
딥러닝 혁명의 시작! ImageNet 대회에서 압도적인 성능으로 우승하며 딥러닝 붐을 일으킨 역사적인 모델입니다.
주요 특징
- ReLU 활성화 함수 최초 사용 (학습 속도 6배 향상)
- Dropout 도입으로 과적합 방지
- 데이터 증강(Data Augmentation) 기법 사용
- GPU를 활용한 병렬 학습
- Local Response Normalization (LRN)
🌟 역사적 영향
ImageNet 2012에서 2위와 10% 이상 차이로 우승하며 딥러닝 시대를 열었습니다!
2014
VGGNet
Karen Simonyan, Andrew Zisserman (Oxford)
"깊이가 중요하다"는 것을 증명한 모델. 단순하지만 깊은 구조로 뛰어난 성능을 달성했습니다.
주요 특징
- 모든 Conv 레이어에 3×3 작은 필터만 사용
- 16층(VGG16) 또는 19층(VGG19)의 깊은 구조
- 일관되고 단순한 아키텍처
- 전이 학습에 널리 사용됨
- 2×2 Max Pooling으로 크기 축소
💡 핵심 아이디어
작은 필터를 여러 번 사용하는 것이 큰 필터 한 번보다 효과적!
2014
GoogLeNet (Inception v1)
Christian Szegedy et al. (Google)
효율성의 혁명! Inception 모듈을 도입하여 적은 파라미터로도 뛰어난 성능을 달성했습니다.
주요 특징
- Inception 모듈: 여러 크기의 필터를 병렬로 사용
- 1×1 Conv로 차원 축소 (계산량 감소)
- Global Average Pooling으로 FC 레이어 대체
- 22층의 깊은 구조지만 파라미터는 적음
- 보조 분류기로 Gradient Vanishing 문제 해결
⚡ 효율성
AlexNet보다 12배 적은 파라미터로 더 좋은 성능!
2015
ResNet
Kaiming He et al. (Microsoft Research)
게임 체인저! Skip Connection(잔차 학습)으로 초깊은 네트워크 학습을 가능하게 만든 혁명적 모델입니다.
주요 특징
- Residual Block: Skip Connection으로 입력을 출력에 더함
- 152층까지 깊게 쌓을 수 있음 (심지어 1000층도 가능!)
- Gradient Vanishing 문제 완벽 해결
- Batch Normalization 적극 활용
- Identity Mapping으로 정보 손실 최소화
🏆 혁명적 발견
인간 수준(5.1%)을 뛰어넘는 최초의 모델! 현대 CNN의 표준이 되었습니다.
2017
DenseNet
Gao Huang et al.
연결의 극대화! 모든 레이어를 서로 연결하여 특징 재사용을 극대화한 효율적인 아키텍처입니다.
주요 특징
- Dense Connection: 모든 레이어가 이전 모든 레이어와 연결
- 특징 재사용으로 파라미터 효율성 극대화
- Gradient Flow 개선
- Concatenation으로 특징 보존
- 적은 파라미터로 높은 성능
2017
MobileNet
Andrew Howard et al. (Google)
모바일의 시대! 경량화와 효율성에 초점을 맞춰 스마트폰에서도 실행 가능한 모델을 만들었습니다.
주요 특징
- Depthwise Separable Convolution 사용
- 표준 Conv보다 8~9배 적은 연산량
- 모바일 기기와 임베디드 시스템에 최적화
- Width Multiplier로 모델 크기 조절 가능
- 실시간 객체 탐지 및 분류 가능
📱 모바일 AI의 시작
스마트폰에서 실시간으로 동작하는 딥러닝을 가능하게!
2019
EfficientNet
Mingxing Tan, Quoc V. Le (Google)
최적화의 정석! Compound Scaling으로 깊이, 너비, 해상도를 균형있게 조절하여 최고의 효율성을 달성했습니다.
주요 특징
- Compound Scaling: 깊이, 너비, 해상도를 동시에 스케일링
- Neural Architecture Search (NAS)로 기본 구조 탐색
- GPT-3보다 10배 작지만 비슷한 성능
- 효율성과 정확도의 완벽한 균형
- 전이 학습의 새로운 표준
⚖️ 균형의 미학
적은 파라미터와 연산량으로 SOTA(최고 성능) 달성!
2020
Vision Transformer (ViT)
Alexey Dosovitskiy et al. (Google)
패러다임의 전환! CNN 없이 순수 Transformer만으로 이미지를 처리하여 새로운 시대를 열었습니다.
주요 특징
- 이미지를 패치로 나누어 시퀀스처럼 처리
- Self-Attention으로 전역적 관계 학습
- CNN의 Inductive Bias 없이 순수 학습
- 대용량 데이터에서 CNN보다 뛰어난 성능
- 확장성이 매우 좋음 (큰 모델일수록 성능 향상)
🔮 미래의 방향
CV와 NLP의 경계가 사라지며 통합 아키텍처 시대 개막!
📊 발전 추세 요약
🏗️ 구조의 진화
단순 → 깊이 증가 → 효율성 개선 → Transformer로 전환
⚡ 핵심 혁신
ReLU → Skip Connection → Attention → Self-Attention