ML,DL,LangChain/01_MathForAi

CNN 발전사

  • -

 

🧠 CNN의 발전사

딥러닝 역사를 바꾼 획기적인 CNN 아키텍처들

 
1998
LeNet-5
Yann LeCun et al.
최초의 성공적인 CNN 아키텍처. 손글씨 숫자 인식(MNIST)에서 혁신적인 성능을 보여주며 CNN의 가능성을 입증했습니다.
주요 특징
  • 7개 레이어로 구성된 간단한 구조
  • Sigmoid/Tanh 활성화 함수 사용
  • Average Pooling 사용
  • 우편번호 자동 인식에 실제 사용됨
~60K
파라미터
7
레이어
 
2012
AlexNet
Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton
딥러닝 혁명의 시작! ImageNet 대회에서 압도적인 성능으로 우승하며 딥러닝 붐을 일으킨 역사적인 모델입니다.
주요 특징
  • ReLU 활성화 함수 최초 사용 (학습 속도 6배 향상)
  • Dropout 도입으로 과적합 방지
  • 데이터 증강(Data Augmentation) 기법 사용
  • GPU를 활용한 병렬 학습
  • Local Response Normalization (LRN)
60M
파라미터
8
레이어
15.3%
Top-5 Error
🌟 역사적 영향
ImageNet 2012에서 2위와 10% 이상 차이로 우승하며 딥러닝 시대를 열었습니다!
 
2014
VGGNet
Karen Simonyan, Andrew Zisserman (Oxford)
"깊이가 중요하다"는 것을 증명한 모델. 단순하지만 깊은 구조로 뛰어난 성능을 달성했습니다.
주요 특징
  • 모든 Conv 레이어에 3×3 작은 필터만 사용
  • 16층(VGG16) 또는 19층(VGG19)의 깊은 구조
  • 일관되고 단순한 아키텍처
  • 전이 학습에 널리 사용됨
  • 2×2 Max Pooling으로 크기 축소
138M
파라미터
16-19
레이어
7.3%
Top-5 Error
💡 핵심 아이디어
작은 필터를 여러 번 사용하는 것이 큰 필터 한 번보다 효과적!
 
2014
GoogLeNet (Inception v1)
Christian Szegedy et al. (Google)
효율성의 혁명! Inception 모듈을 도입하여 적은 파라미터로도 뛰어난 성능을 달성했습니다.
주요 특징
  • Inception 모듈: 여러 크기의 필터를 병렬로 사용
  • 1×1 Conv로 차원 축소 (계산량 감소)
  • Global Average Pooling으로 FC 레이어 대체
  • 22층의 깊은 구조지만 파라미터는 적음
  • 보조 분류기로 Gradient Vanishing 문제 해결
7M
파라미터
22
레이어
6.7%
Top-5 Error
⚡ 효율성
AlexNet보다 12배 적은 파라미터로 더 좋은 성능!
 
2015
ResNet
Kaiming He et al. (Microsoft Research)
게임 체인저! Skip Connection(잔차 학습)으로 초깊은 네트워크 학습을 가능하게 만든 혁명적 모델입니다.
주요 특징
  • Residual Block: Skip Connection으로 입력을 출력에 더함
  • 152층까지 깊게 쌓을 수 있음 (심지어 1000층도 가능!)
  • Gradient Vanishing 문제 완벽 해결
  • Batch Normalization 적극 활용
  • Identity Mapping으로 정보 손실 최소화
25.5M
파라미터 (ResNet-50)
50-152
레이어
3.57%
Top-5 Error
🏆 혁명적 발견
인간 수준(5.1%)을 뛰어넘는 최초의 모델! 현대 CNN의 표준이 되었습니다.
 
2017
DenseNet
Gao Huang et al.
연결의 극대화! 모든 레이어를 서로 연결하여 특징 재사용을 극대화한 효율적인 아키텍처입니다.
주요 특징
  • Dense Connection: 모든 레이어가 이전 모든 레이어와 연결
  • 특징 재사용으로 파라미터 효율성 극대화
  • Gradient Flow 개선
  • Concatenation으로 특징 보존
  • 적은 파라미터로 높은 성능
7M
파라미터 (DenseNet-121)
121-201
레이어
 
2017
MobileNet
Andrew Howard et al. (Google)
모바일의 시대! 경량화와 효율성에 초점을 맞춰 스마트폰에서도 실행 가능한 모델을 만들었습니다.
주요 특징
  • Depthwise Separable Convolution 사용
  • 표준 Conv보다 8~9배 적은 연산량
  • 모바일 기기와 임베디드 시스템에 최적화
  • Width Multiplier로 모델 크기 조절 가능
  • 실시간 객체 탐지 및 분류 가능
4.2M
파라미터
28
레이어
📱 모바일 AI의 시작
스마트폰에서 실시간으로 동작하는 딥러닝을 가능하게!
 
2019
EfficientNet
Mingxing Tan, Quoc V. Le (Google)
최적화의 정석! Compound Scaling으로 깊이, 너비, 해상도를 균형있게 조절하여 최고의 효율성을 달성했습니다.
주요 특징
  • Compound Scaling: 깊이, 너비, 해상도를 동시에 스케일링
  • Neural Architecture Search (NAS)로 기본 구조 탐색
  • GPT-3보다 10배 작지만 비슷한 성능
  • 효율성과 정확도의 완벽한 균형
  • 전이 학습의 새로운 표준
5.3M
파라미터 (B0)
84.3%
Top-1 정확도
⚖️ 균형의 미학
적은 파라미터와 연산량으로 SOTA(최고 성능) 달성!
 
2020
Vision Transformer (ViT)
Alexey Dosovitskiy et al. (Google)
패러다임의 전환! CNN 없이 순수 Transformer만으로 이미지를 처리하여 새로운 시대를 열었습니다.
주요 특징
  • 이미지를 패치로 나누어 시퀀스처럼 처리
  • Self-Attention으로 전역적 관계 학습
  • CNN의 Inductive Bias 없이 순수 학습
  • 대용량 데이터에서 CNN보다 뛰어난 성능
  • 확장성이 매우 좋음 (큰 모델일수록 성능 향상)
86M
파라미터 (Base)
88.5%
Top-1 정확도
🔮 미래의 방향
CV와 NLP의 경계가 사라지며 통합 아키텍처 시대 개막!

📊 발전 추세 요약

🏗️ 구조의 진화

단순 → 깊이 증가 → 효율성 개선 → Transformer로 전환

⚡ 핵심 혁신

ReLU → Skip Connection → Attention → Self-Attention

'ML,DL,LangChain > 01_MathForAi' 카테고리의 다른 글

PEFT와 LoRA  (0) 2025.10.19
LLM Agent 동작 시나리오  (0) 2025.10.18
Tokenizer 학습 과정  (0) 2025.10.15
MLP  (0) 2025.10.15
순전파와 역전파  (0) 2025.10.14
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.