非母数統計と PCA：データの本質に迫る

これまでは、データが綺麗なベル型（正規分布）に従うと仮定して分析してきました。しかし現実には、正規性に全く従わなかったり、変数が多すぎて何が重要なのか判断が難しかったりするデータが溢れています。

1. 非母数統計：仮定を捨てれば自由になれる

データの量が少なすぎたり、分布が極端に偏っていたりする場合、私たちはデータの「値」の代わりに「順位」を使用します。

区分	母数統計 (Parametric)	非母数統計 (Non-parametric)
仮定	正規分布に従う	分布に関する仮定がない
データ形式	連続型の数値データ	序数、順位、名目データ
代表的な分析	t-検定, ANOVA	ウィルコクソン (Wilcoxon), クラスカル・ウォリス (Kruskal-Wallis)
メリットとデメリット	精度は高いが、仮定が崩れると無意味になる	精度はわずかに劣るが、どこにでも適用可能

変数が100個あるデータを分析するのは、不可能に近いです。PCA (Principal Component Analysis) は、データの情報を最大限維持しながら、変数の数を2〜3個に大幅に減らしてくれる魔法のような技術です。

データの標準化

各変数の単位が異なるため、平均0、分散1に揃えます。

共分散行列の計算

変数同士がどのように共に変化するかの地図を描きます。

固有値および固有ベクトルの導出

データが最も分散している「主成分の方向」を見つけます。

次元削減

最も重要な第1、第2主成分だけを残し、残りは捨てます。

以下は、PCA を通じて10個の変数を5個に減らしたとき、各主成分が全体データをどの程度説明しているかを示しています。

第1、第2主成分だけで全情報の約75%を説明できることを示しています。

PCA は単に「データを減らすこと」ではなく「データの骨組みを見つけること」です。数多くのノイズの中から、本当に意味のあるシグナルがどの方向に伸びているかを見つけ出す洞찰力を提供します。