본문 바로가기
Chapter 6

다중 회귀 분석: 복잡한 세상의 변수들

#다중 회귀#독립 변수#다중 공선성(VIF)#조정된 R-제곱

다중 회귀 분석: 한 가지 이유만으로는 부족하다

현실 세계의 사건들은 단 하나의 원인으로 설명되지 않습니다. 예를 들어, 아파트 가격은 평수(단순 회귀)뿐만 아니라 연식, 역객거리, 학군 등 다양한 요인에 의해 결정됩니다. 통계학은 이를 **다중 회귀 분석(Multiple Regression Analysis)**으로 풀어냅니다.

1. 다중 회귀식의 구조

y=β0+β1x1+β2x2+...+βkxk+ϵy = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_k x_k + \epsilon

β\beta 값은 다른 변수들이 고정되어 있을 때, 해당 변수가 한 단위 변할 때 종속 변수(yy)에 미치는 고유한 영향력을 나타냅니다.

2. 변수 간의 싸움: 다중 공선성 (Multicollinearity)

다중 회귀 분석에서 가장 주의해야 할 함정이 바로 ‘다중 공선성’입니다. 독립 변수끼리 서로 너무 강한 상관관계가 있을 때 발생합니다.

회계 데이터와 다중 공선성 사례

변수 A변수 B상태문제점
광고비브랜드 인지도높은 상관관계어떤 변수가 매출에 기여했는지 구분 불가
몸무게높은 상관관계한 변수가 다른 변수의 정보를 이미 포함함
기온습도중간 상관관계일반적인 상황, 통제 가능

Important
다중 공선성이 있으면 개별 회귀 계수의 통계적 유의성이 낮아지고 결과가 불안정해집니다. 이를 확인하기 위해 지수를 사용하며, 보통 10 이상이면 문제가 있다고 판단합니다.

3. 모델의 품질 평가: 조정된 R2R^2 (Adjusted R2R^2)

단순 회귀에서는 결정계수(R2R^2)를 썼지만, 다중 회귀에서는 변수가 늘어날수록 R2R^2가 자동으로 높아지는 문제가 있습니다. 이를 보완하여 불필요한 변수 추가에 페널티를 준 것이 바로 **조정된 R2R^2**입니다.


💡 교수님의 팁

좋은 회귀 모델은 ‘변수가 많은 모델’이 아니라 ‘가장 적은 수의 핵심 변수로 현상을 가장 잘 설명하는 모델’입니다. 이를 흔히 오컴의 면도날(Occam’s Razor) 원칙이라고 부르며, 통계학자들은 AIC나 BIC 같은 지표를 통해 이 효율성을 측정합니다.

🔗 다음 단계