Course Progress
Part of 10 Chapters
Chapter 10
非母数統計と PCA:常識を超えるデータ分析
#非母数統計#順位和検定#PCA (主成分分析)#次元削減
非母数統計と PCA:データの本質に迫る
これまでは、データが綺麗なベル型(正規分布)に従うと仮定して分析してきました。しかし現実には、正規性に全く従わなかったり、変数が多すぎて何が重要なのか判断が難しかったりするデータが溢れています。
1. 非母数統計:仮定を捨てれば自由になれる
データの量が少なすぎたり、分布が極端に偏っていたりする場合、私たちはデータの「値」の代わりに「順位」を使用します。
母数統計 vs 非母数統計 の比較
| 区分 | 母数統計 (Parametric) | 非母数統計 (Non-parametric) |
|---|---|---|
| 仮定 | 正規分布に従う | 分布に関する仮定がない |
| データ形式 | 連続型の数値データ | 序数、順位、名目データ |
| 代表的な分析 | t-検定, ANOVA | ウィルコクソン (Wilcoxon), クラスカル・ウォリス (Kruskal-Wallis) |
| メリットとデメリット | 精度は高いが、仮定が崩れると無意味になる | 精度はわずかに劣るが、どこにでも適用可能 |
2. 主成分分析 (PCA):情報の圧縮と要約
変数が100個あるデータを分析するのは、不可能に近いです。PCA (Principal Component Analysis) は、データの情報を最大限維持しながら、変数の数を2〜3個に大幅に減らしてくれる魔法のような技術です。
1
データの標準化各変数の単位が異なるため、平均0、分散1に揃えます。
2
共分散行列の計算変数同士がどのように共に変化するかの地図を描きます。
3
固有値および固有ベクトルの導出データが最も分散している「主成分の方向」を見つけます。
4
次元削減最も重要な第1、第2主成分だけを残し、残りは捨てます。
3. PCA の効果:説明された分散の量
以下は、PCA を通じて10個の変数を5個に減らしたとき、各主成分が全体データをどの程度説明しているかを示しています。
主成分別の説明された分散比率 (Scree Plot)
第1、第2主成分だけで全情報の約75%を説明できることを示しています。
💡 教授からのヒント
PCA は単に「データを減らすこと」ではなく「データの骨組みを見つけること」です。数多くのノイズの中から、本当に意味のあるシグナルがどの方向に伸びているかを見つけ出す洞찰力を提供します。