Course Progress
Part of 10 Chapters
Chapter 5
분산 분석(ANOVA): 여러 그룹의 차이를 비교하다
#ANOVA#F-통계량#집단 간 분산#집단 내 분산
분산 분석(ANOVA): 이름 속에 숨겨진 평균 비교
우리는 앞서 두 그룹의 평균을 비교할 때 t-검정을 사용했습니다. 그렇다면 세 그룹 이상의 평균을 비교하고 싶을 땐 어떻게 해야 할까요? t-검정을 여러 번 하면 오류가 커집니다. 이때 필요한 것이 바로 **분산 분석(Analysis of Variance, ANOVA)**입니다.
1. ANOVA의 핵심 원리: ‘분산’으로 ‘평균’을 판단하다
이름은 ‘분산 분석’이지만, 목적은 ‘평균의 차이’를 보는 것입니다. 데이터의 전체 변동을 두 가지로 나눕니다.
- 집단 간 분산 (Between-group Variance): 그룹들이 서로 얼마나 떨어져 있는가? (우리가 알고 싶은 차이)
- 집단 내 분산 (Within-group Variance): 같은 그룹 안에서 데이터들이 얼마나 흩어져 있는가? (우연한 오차)
F-통계량 = 집단 간 분산 / 집단 내 분산
이 F값이 충분히 크면 “그룹 간에 의미 있는 평균 차이가 있다”고 결론 내립니다.
2. ANOVA 테이블 예시
실제 분석 결과는 다음과 같은 테이블 형태로 요약됩니다.
일선 배치에 따른 생산성 차이 분석 (ANOVA 표)
| 변동 요인 | 제곱합 (SS) | 자유도 (df) | F-통계량 | P-value |
|---|---|---|---|---|
| 집단 간 (치료법) | 1,250 | 2 | 12.5 | 0.001 |
| 집단 내 (오차) | 8,400 | 84 | - | - |
| 총 계 | 9,650 | 86 | - | - |
3. ANOVA 이후엔 무엇을 하나요? (사후 검정)
ANOVA에서 “차이가 있다”는 결론이 나왔다고 해서 “어느 그룹과 어느 그룹이 다른지”까지는 알 수 없습니다. 이를 확인하기 위해 **사후 검정(Post-hoc Test)**이라는 추가적인 절차를 거치게 됩니다.
💡 교수님의 팁
ANOVA는 ‘실험 계획법’의 기초입니다. 마케팅에서 세 가지 광고 시안의 효과를 비교하거나, 공장에서 여러 부품의 내구성을 테스트할 때 가장 먼저 사용하는 지도와 같습니다.