Course Progress
Part of 10 Chapters
Chapter 4
상관관계와 회귀분석: 관계의 과학
#상관계수(r)#인과관계#회귀직선#결정계수(R²)
상관관계와 회귀분석: 데이터의 연결고리
데이터는 혼자 존재하지 않습니다. 키와 몸무게, 교육 수준과 소득, 기온과 아이스크림 판매량처럼 서로 영향을 주고받는 경우가 많습니다. 통계학은 이 ‘관계’를 수치화합니다.
1. 상관관계 (Correlation)
두 변수가 함께 변하는 정도를 나타냅니다. **상관계수()**는 -1에서 +1 사이의 값을 가집니다.
- (양의 상관관계): 같이 증가하거나 같이 감소함.
- (음의 상관관계): 하나가 증가할 때 다른 하나가 감소함.
- (무상관): 서로 아무런 관련이 없음.
Important
아이스크림 판매량과 익사 사고 건수는 강한 양의 상관관계가 있지만, 아이스크림이 익사 사고를 일으키는 것은 아닙니다. ‘여름(기온)‘이라는 제3의 변수가 두 현상에 영향을 준 것뿐입니다.
2. 단순 선형 회귀분석 (Simple Linear Regression)
상관관계가 단순히 “관련이 있다”는 것을 보여준다면, 회귀분석은 “얼마나 관련이 있고, 이를 통해 미래를 어떻게 예측할 수 있는가”를 보여줍니다.
데이터들 사이를 가장 잘 설명하는 하나의 직선(회귀직선)을 찾는 과정입니다.
공부 시간과 시험 점수의 관계 (데이터 예시)
| 공부 시간 (x) | 실제 점수 (y) | 예측 점수 (ŷ) | 오차 (y-ŷ) |
|---|---|---|---|
| 2시간 | 55점 | 58점 | -3점 |
| 5시간 | 75점 | 73점 | +2점 |
| 8시간 | 92점 | 88점 | +4점 |
| 10시간 | 95점 | 98점 | -3점 |
3. 회귀모델의 정확도: (결정계수)
우리가 만든 회귀직선이 실제 데이터를 얼마나 잘 설명하는지를 나타내는 지표입니다. 1에 가까울수록 모델의 예측력이 높다는 뜻입니다.
💡 교수님의 팁
회귀분석은 금융공학의 베타() 계산이나 보험수리의 위험률 예측 등 거의 모든 정량적 분석의 뿌리가 됩니다. 복잡한 머신러닝 알고리즘도 근본적으로는 이 회귀분석의 정교한 확장판이라고 볼 수 있습니다.