본문 바로가기
Chapter 4

상관관계와 회귀분석: 관계의 과학

#상관계수(r)#인과관계#회귀직선#결정계수(R²)

상관관계와 회귀분석: 데이터의 연결고리

데이터는 혼자 존재하지 않습니다. 키와 몸무게, 교육 수준과 소득, 기온과 아이스크림 판매량처럼 서로 영향을 주고받는 경우가 많습니다. 통계학은 이 ‘관계’를 수치화합니다.

1. 상관관계 (Correlation)

두 변수가 함께 변하는 정도를 나타냅니다. **상관계수(rr)**는 -1에서 +1 사이의 값을 가집니다.

  • r>0r > 0 (양의 상관관계): 같이 증가하거나 같이 감소함.
  • r<0r < 0 (음의 상관관계): 하나가 증가할 때 다른 하나가 감소함.
  • r=0r = 0 (무상관): 서로 아무런 관련이 없음.

Important
아이스크림 판매량과 익사 사고 건수는 강한 양의 상관관계가 있지만, 아이스크림이 익사 사고를 일으키는 것은 아닙니다. ‘여름(기온)‘이라는 제3의 변수가 두 현상에 영향을 준 것뿐입니다.

2. 단순 선형 회귀분석 (Simple Linear Regression)

상관관계가 단순히 “관련이 있다”는 것을 보여준다면, 회귀분석은 “얼마나 관련이 있고, 이를 통해 미래를 어떻게 예측할 수 있는가”를 보여줍니다.

y=ax+by = ax + b

데이터들 사이를 가장 잘 설명하는 하나의 직선(회귀직선)을 찾는 과정입니다.

공부 시간과 시험 점수의 관계 (데이터 예시)

공부 시간 (x)실제 점수 (y)예측 점수 (ŷ)오차 (y-ŷ)
2시간55점58점-3점
5시간75점73점+2점
8시간92점88점+4점
10시간95점98점-3점

3. 회귀모델의 정확도: R2R^2 (결정계수)

우리가 만든 회귀직선이 실제 데이터를 얼마나 잘 설명하는지를 나타내는 지표입니다. 1에 가까울수록 모델의 예측력이 높다는 뜻입니다.


💡 교수님의 팁

회귀분석은 금융공학의 베타(β\beta) 계산이나 보험수리의 위험률 예측 등 거의 모든 정량적 분석의 뿌리가 됩니다. 복잡한 머신러닝 알고리즘도 근본적으로는 이 회귀분석의 정교한 확장판이라고 볼 수 있습니다.

🔗 다음 단계