ML,DL,LangChain/02_EDA와 MLP

EDA(Exploratory Data Analysis: 탐색적 데이터 분석)를 위한 기본 개념

  • -

지도학습 vs 비지도 학습

구분 지도학습 (Supervised Learning) 비지도학습 (Unsupervised Learning)
핵심 특징 **레이블(정답)**이 있는 데이터 사용 레이블 없이 데이터의 패턴/구조 발견
학습 목표 입력(X)으로부터 정답(Y)을 예측 데이터를 그룹화하거나 축소
주요 예시 분류(Classification), 회귀(Regression) 군집화(Clustering), 차원 축소(PCA 등)
실사용 예 스팸 메일 분류, 집값 예측, 이미지 분류 고객 세분화, 이상치 탐지, 데이터 시각화

 

 

과소적합 vs 과대적합

구분 과소적합 (Underfitting) 이상적인 상태 (Balanced) 과대적합 (Overfitting)
상태 설명 모델이 너무 단순함 학습과 일반화의 조화 학습 데이터에만 과도하게 맞춤
학습 데이터 성능 낮음 높음 매우 높음
테스트 데이터 성능 낮음 높음 낮음
비유 기본 원리도 모르는 상태 응용력을 갖춘 상태 문제집만 달달 외운 상태
해결 방법 모델 복잡도↑, 특성 추가 - 정규화, 데이터 증강, 조기 종료

 

Train / Validation / Test 데이터의 분할

구분 학습 데이터 (Train) 검증 데이터 (Validation) 테스트 데이터 (Test)
주요 목적 모델 학습 (패턴 습득) 모델 튜닝 (하이퍼파라미터 조정) 최종 성능 평가 (일반화 성능)
역할 모델이 정답을 공부하는 문제집 모의고사를 통한 오답 노트 작성 진짜 실력을 검증하는 수능 시험
학습 참여 O (학습에 직접 사용) △ (모델 선택/조절용) X (학습에 절대 사용 불가)
일반적 비율 60% ~ 80% 10% ~ 20% 10% ~ 20%

 

'ML,DL,LangChain > 02_EDA와 MLP' 카테고리의 다른 글

모델 학습 전체 파이프 라인  (0) 2026.03.10
교차 검증  (1) 2026.03.09
ROC Curve  (0) 2026.03.09
혼동행렬분석  (0) 2026.03.09
IQR  (0) 2026.03.09
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.