本文へジャンプ
Chapter 4

相関関係と回帰分析:つながりの科学

#相関係数 (r)#因果関係#回帰直線#決定係数 (R²)

相関関係と回帰分析:データのつながりを探る

データは孤立して存在するものではありません。身長と体重、教育水準と所得、気温とアイスクリームの売上のように、互いに影響し合っているケースが多くあります。統計学は、この「関係」を数値化します。

1. 相関関係 (Correlation)

2つの変数が共に変化する程度を表します。**相関係数(rr)**は、-1から+1の間の値をとります。

  • r>0r > 0(正の相関): 一方が増加すると、もう一方も増加する関係。
  • r<0r < 0(負の相関): 一方が増加すると、もう一方が減少する関係。
  • r=0r = 0(無相関): 互いに何の関係もない状態。

Important
アイスクリームの売上と水難事故の件数には強い正の相関がありますが、アイスクリームを食べることが水難事故を引き起こすわけではありません。「夏(気温)」という第3の変数が両方の現象に影響を与えているだけです。

2. 単純線形回帰分析 (Simple Linear Regression)

相関関係が単に「関連がある」ことを示すのに対し、回帰分析は「どの程度関連があり、それを通じて未来をどう予測できるか」を示します。

y=ax+by = ax + b

データの間を最もよく説明できる一本の直線(回帰直線)を見つけるプロセスです。

勉強時間と試験の点数の関係(データ例)

勉強時間 (x)実際の点数 (y)予測点数 (ŷ)誤差 (y-ŷ)
2時間55点58点-3点
5時間75점73점+2점
8시간92점88점+4점
10시간95점98점-3점

3. 回帰モデルの正確性:R2R^2(決定係数)

私たちが作成した回帰直線が、実際のデータをどの程度うまく説明できているかを示す指標です。1に近いほど、モデルの予測力が高いことを意味します。


💡 教授からのヒント

回帰分析は、金融工学のベータ(β\beta)算出や保険数理のリスク率予測など、ほぼすべての定量分析の根幹となります。複雑な機械学習アルゴリズムも、根本的にはこの回帰分析を精緻に拡張したものと言えます。

🔗 次のステップ