지도학습 vs 비지도 학습
| 구분 |
지도학습 (Supervised Learning) |
비지도학습 (Unsupervised Learning) |
| 핵심 특징 |
**레이블(정답)**이 있는 데이터 사용 |
레이블 없이 데이터의 패턴/구조 발견 |
| 학습 목표 |
입력(X)으로부터 정답(Y)을 예측 |
데이터를 그룹화하거나 축소 |
| 주요 예시 |
분류(Classification), 회귀(Regression) |
군집화(Clustering), 차원 축소(PCA 등) |
| 실사용 예 |
스팸 메일 분류, 집값 예측, 이미지 분류 |
고객 세분화, 이상치 탐지, 데이터 시각화 |
과소적합 vs 과대적합
| 구분 |
과소적합 (Underfitting) |
이상적인 상태 (Balanced) |
과대적합 (Overfitting) |
| 상태 설명 |
모델이 너무 단순함 |
학습과 일반화의 조화 |
학습 데이터에만 과도하게 맞춤 |
| 학습 데이터 성능 |
낮음 |
높음 |
매우 높음 |
| 테스트 데이터 성능 |
낮음 |
높음 |
낮음 |
| 비유 |
기본 원리도 모르는 상태 |
응용력을 갖춘 상태 |
문제집만 달달 외운 상태 |
| 해결 방법 |
모델 복잡도↑, 특성 추가 |
- |
정규화, 데이터 증강, 조기 종료 |
Train / Validation / Test 데이터의 분할
| 구분 |
학습 데이터 (Train) |
검증 데이터 (Validation) |
테스트 데이터 (Test) |
| 주요 목적 |
모델 학습 (패턴 습득) |
모델 튜닝 (하이퍼파라미터 조정) |
최종 성능 평가 (일반화 성능) |
| 역할 |
모델이 정답을 공부하는 문제집 |
모의고사를 통한 오답 노트 작성 |
진짜 실력을 검증하는 수능 시험 |
| 학습 참여 |
O (학습에 직접 사용) |
△ (모델 선택/조절용) |
X (학습에 절대 사용 불가) |
| 일반적 비율 |
60% ~ 80% |
10% ~ 20% |
10% ~ 20% |