Course Progress
Part of 10 Chapters
Chapter 6
다중 회귀 분석: 복잡한 세상의 변수들
#다중 회귀#독립 변수#다중 공선성(VIF)#조정된 R-제곱
다중 회귀 분석: 한 가지 이유만으로는 부족하다
현실 세계의 사건들은 단 하나의 원인으로 설명되지 않습니다. 예를 들어, 아파트 가격은 평수(단순 회귀)뿐만 아니라 연식, 역객거리, 학군 등 다양한 요인에 의해 결정됩니다. 통계학은 이를 **다중 회귀 분석(Multiple Regression Analysis)**으로 풀어냅니다.
1. 다중 회귀식의 구조
각 값은 다른 변수들이 고정되어 있을 때, 해당 변수가 한 단위 변할 때 종속 변수()에 미치는 고유한 영향력을 나타냅니다.
2. 변수 간의 싸움: 다중 공선성 (Multicollinearity)
다중 회귀 분석에서 가장 주의해야 할 함정이 바로 ‘다중 공선성’입니다. 독립 변수끼리 서로 너무 강한 상관관계가 있을 때 발생합니다.
회계 데이터와 다중 공선성 사례
| 변수 A | 변수 B | 상태 | 문제점 |
|---|---|---|---|
| 광고비 | 브랜드 인지도 | 높은 상관관계 | 어떤 변수가 매출에 기여했는지 구분 불가 |
| 키 | 몸무게 | 높은 상관관계 | 한 변수가 다른 변수의 정보를 이미 포함함 |
| 기온 | 습도 | 중간 상관관계 | 일반적인 상황, 통제 가능 |
Important
다중 공선성이 있으면 개별 회귀 계수의 통계적 유의성이 낮아지고 결과가 불안정해집니다. 이를 확인하기 위해 지수를 사용하며, 보통 10 이상이면 문제가 있다고 판단합니다.
3. 모델의 품질 평가: 조정된 (Adjusted )
단순 회귀에서는 결정계수()를 썼지만, 다중 회귀에서는 변수가 늘어날수록 가 자동으로 높아지는 문제가 있습니다. 이를 보완하여 불필요한 변수 추가에 페널티를 준 것이 바로 **조정된 **입니다.
💡 교수님의 팁
좋은 회귀 모델은 ‘변수가 많은 모델’이 아니라 ‘가장 적은 수의 핵심 변수로 현상을 가장 잘 설명하는 모델’입니다. 이를 흔히 오컴의 면도날(Occam’s Razor) 원칙이라고 부르며, 통계학자들은 AIC나 BIC 같은 지표를 통해 이 효율성을 측정합니다.