ML,DL,LangChain/02_EDA와 MLP

교차 검증

K-Fold · PCA · KMeans

🔀 K-Fold Cross Validation

교차 검증이란?

모델을 평가할 때 데이터를 한 번만 나눠서 검증하면 운에 따라 결과가 달라질 수 있어요.
K-Fold는 데이터를 K개의 덩어리(폴드)로 나눈 뒤, K번 반복하며 매번 다른 덩어리를 검증에 사용해요.
그러면 모든 데이터가 한 번씩 검증에 쓰이게 되어 훨씬 신뢰할 수 있는 성능을 얻을 수 있어요!

💡 비유: 시험을 한 번만 보면 운이 작용하지만, 같은 범위를 K번 다른 문제로 시험보고 평균 내면 실력을 더 정확히 알 수 있는 것과 같아요!

🔀 폴드 분할 시각화

K (폴드 수) 5

훈련 데이터 검증 데이터

위처럼 K번 반복하면 나온 K개의 점수를 평균낸 게 최종 성능이에요.
점수들의 표준편차가 작을수록 안정적인 모델이에요!

📖 K는 보통 얼마로 하나요?

K = 5 ⭐ 가장 흔함

속도와 신뢰성의 균형이 좋아요. 처음엔 이걸 쓰세요!

K = 10

더 정확하지만 시간이 2배 걸려요. 데이터가 충분할 때!

K가 너무 크면?

학습 데이터가 너무 적어져서 오히려 불안정해질 수 있어요.

K = N (LOOCV)

데이터가 아주 적을 때 씁니다. 매우 느려요!

📐 Principal Component Analysis

PCA란?

데이터에 특성(feature)이 100개, 1000개씩 있으면 다루기 너무 힘들어요.
PCA는 중요한 정보는 최대한 살리면서 차원(특성 수)을 줄여주는 기법이에요.
데이터가 "어느 방향으로 가장 많이 퍼져 있는지"를 찾아서 그 방향을 새 축으로 삼아요.

💡 비유: 3D 물체를 사진 찍을 때 가장 잘 보이는 각도에서 찍는 것과 같아요. 정보를 최대한 보존하면서 2D로 압축하는 거예요!

📐 주성분(PC)이 뭔가요?

데이터의 중심을 찾아요

모든 점의 평균 위치(무게중심)를 구해요.

PC1 — 가장 넓게 퍼진 방향

데이터가 가장 많이 흩어진 방향이 제1주성분(PC1)이에요. 정보를 제일 많이 담고 있어요.

PC2 — PC1과 직각인 방향

PC1과 직각(90°)으로 만나면서 두 번째로 많이 퍼진 방향이에요.

🎯 언제 쓰나요?

📉 특성이 너무 많을 때

수백 개의 특성을 10~20개로 줄여 모델 학습 속도를 높여요.

👁 데이터를 눈으로 보고 싶을 때

고차원 데이터를 2D·3D로 줄여서 시각화할 수 있어요.

🧹 노이즈를 줄이고 싶을 때

중요하지 않은 분산(노이즈)을 버리고 핵심 정보만 남겨요.

⚠️ 주의! 표준화 먼저

PCA 전에 반드시 스케일링(StandardScaler)을 해야 해요. 단위가 다른 특성이 있으면 왜곡돼요!

몇 개의 PC를 선택할지는 누적 분산 설명량이 80~95%가 되는 지점을 보고 결정해요.
예) PC1=70%, PC2=20% → 2개만 써도 전체 정보의 90%를 보존!

🎛 인터랙티브 — PC 개수를 바꿔보세요

사용할 PC 수 2 개

원본 2D 데이터

PC 2개로 표현

분산 설명량 (얼마나 정보를 보존했나요?)

🎯 K-Means Clustering

KMeans란?

정답(레이블) 없이 데이터를 K개의 그룹(클러스터)으로 자동으로 묶어주는 비지도 학습이에요.
비슷한 것끼리 같은 그룹이 되도록 반복적으로 그룹 중심을 조정해요.

💡 비유: 아무 정보 없이 손님들을 취향별로 그룹 짓는다고 상상해봐요. 비슷한 취향끼리 자연스럽게 모이도록 반복해서 조정하는 거예요!

⚙️ 어떻게 동작하나요?

중심점 초기화

K개의 중심점(centroid)을 랜덤하게 배치해요.

데이터 배정

각 데이터를 가장 가까운 중심점의 그룹으로 배정해요.

중심점 업데이트

각 그룹의 평균 위치로 중심점을 이동해요.

수렴까지 반복

중심점이 더 이상 움직이지 않으면 완료!

K (그룹 수) 3

저작자표시 비영리 변경금지 (새창열림)

'ML,DL,LangChain > 02_EDA와 MLP' 카테고리의 다른 글

PyTorch 개론 (0)	2026.03.10
모델 학습 전체 파이프 라인 (0)	2026.03.10
ROC Curve (0)	2026.03.09
혼동행렬분석 (0)	2026.03.09
IQR (0)	2026.03.09

Contents

새소식

교차 검증

K-Fold · PCA · KMeans

'ML,DL,LangChain > 02_EDA와 MLP' 카테고리의 다른 글

당신이 좋아할만한 콘텐츠

티스토리툴바