본문 바로가기
Chapter 2

확률 분포: 데이터가 그리는 곡선의 비밀

#평균#표준편차#정규분포#확률밀도

확률 분포와 데이터의 가독성

우리가 세상을 관찰하며 얻는 수많은 데이터는 무작위로 널려 있는 것 같지만, 사실 일정한 패턴을 가지고 있습니다. 통계학은 이 패턴을 ‘분포(Distribution)‘라는 도구로 설명합니다.

1. 정규분포 (Normal Distribution)

정규분포는 우리 주변에서 가장 흔히 볼 수 있는 분포입니다. 키, 몸무게, 시험 점수 등 많은 자연 현상이 평균을 중심으로 대칭을 이루는 종 모양(Bell Curve)의 분포를 따릅니다.

  • 평균 (Mean): 분포의 중심점입니다. 자료의 전반적인 위치를 결정합니다.
  • 표준편차 (Standard Deviation): 데이터가 평균으로부터 얼마나 멀리 퍼져 있는지를 나타내는 척도입니다.

2. 데이터 시각화: 점수 분포 예시

아래 차트는 특정 시험의 점수 분포를 나타낸 바 차트입니다. 가운데(평균)에 가장 많은 데이터가 몰려 있고, 양 끝으로 갈수록 빈도가 낮아지는 모습을 확인할 수 있습니다.

성적 분포 예시 (정규분포 형태)

평균 70점을 중심으로 데이터가 종 모양으로 분포하는 모습입니다.

3. 표준편차의 마법: 68-95-99.7 법칙

정규분포에는 아주 흥미로운 법칙이 있습니다.

  • 평균으로부터 ±1 표준편차 안에 전체 데이터의 약 **68%**가 포함됩니다.
  • ±2 표준편차 안에는 약 **95%**가 포함됩니다.
  • ±3 표준편차 안에는 거의 모든 데이터(99.7%)가 포함됩니다.

우리가 흔히 말하는 ‘기적’이나 ‘이상치(Outlier)‘는 바로 이 ±3 표준편차 밖의 영역을 말합니다.


💡 교수님의 팁

통계학에서 ‘분포를 안다’는 것은 미래의 가능성을 확률로 통제할 수 있다는 뜻입니다. 금융 시장의 변동성이나 보험의 사고 발생도 모두 이 분포의 꼬리(Tail)가 얼마나 두꺼운지를 분석하는 것에서 시작됩니다.

🔗 다음 단계