Course Progress
Part of 10 Chapters
Chapter 10
비모수 통계와 PCA: 상식을 넘어서는 데이터 분석
#비모수 통계#순위 합 검정#PCA (주성분 분석)#차원 축소
비모수 통계와 PCA: 데이터의 본질에 다가가기
우리는 지금까지 데이터가 예쁜 종 모양(정규분포)을 따른다고 가정하고 분석해왔습니다. 하지만 현실에는 정규성을 전혀 따르지 않거나, 변수가 너무 많아 무엇이 중요한지 알기 어려운 데이터가 가득합니다.
1. 비모수 통계: 가정을 버리면 자유로워진다
데이터의 양이 너무 적거나 분포가 극단적으로 치우쳐 있을 때, 우리는 데이터의 ‘값’ 대신 ‘순위’를 사용합니다.
모수 통계 vs 비모수 통계 비교
| 구분 | 모수 통계 (Parametric) | 비모수 통계 (Non-parametric) |
|---|---|---|
| 가정 | 정규분포를 따름 | 분포에 대한 가정이 없음 |
| 데이터 형태 | 연속형 수치 데이터 | 서열, 순위, 명목 데이터 |
| 대표 분석 | t-test, ANOVA | Wilcoxon, Kruskal-Wallis |
| 장단점 | 정확도가 높으나 가정이 깨지면 무의미함 | 정확도는 소폭 낮으나 어디든 적용 가능 |
2. 주성분 분석 (PCA): 정보의 압축과 요약
변수가 100개인 데이터를 분석하기란 불가능에 가깝습니다. **PCA(Principal Component Analysis)**는 데이터의 정보를 최대한 유지하면서, 변수의 개수를 2~3개로 대폭 줄여주는 마법 같은 기술입니다.
1
데이터 표준화각 변수의 단위가 다르므로 평균 0, 분산 1로 맞춥니다.
2
공분산 행렬 계산변수들끼리 어떻게 함께 변하는지 지도를 그립니다.
3
고유값 및 고유벡터 도출데이터가 가장 많이 흩어져 있는 '주성분 방향'을 찾습니다.
4
차원 축소가장 중요한 1, 2주성분만 남기고 나머지는 버립니다.
3. PCA의 효과: 설명된 분산의 양
아래는 PCA를 통해 10개의 변수를 5개로 줄였을 때, 각 주성분이 전체 데이터를 얼마나 설명해주는지를 보여줍니다.
주성분별 설명된 분산 비율 (Scree Plot)
제1, 제2 주성분만으로 전체 정보의 약 75%를 설명할 수 있음을 보여줍니다.
💡 교수님의 팁
PCA는 단순히 ‘데이터를 줄이는 것’이 아니라 ‘데이터의 뼈대를 찾는 것’입니다. 수많은 소음(Noise) 사이에서 진짜 의미 있는 신호(Signal)가 어느 방향으로 뻗어있는지 찾아내는 통찰력을 제공합니다.