決定係数|統計モデルの適合度を評価する指標

決定係数 coefficient of determination

決定係数(coefficient of determination)とは、統計学やデータ分析において、回帰分析モデルの適合度を評価する指標である。一般に「R²(アールスクエア)」とも呼ばれる。決定係数は、回帰モデルがどの程度データの変動を説明できているかを示し、その値は0から1の範囲を取る。1に近いほどモデルの説明力が高く、0に近いほど説明力が低いことを意味する。決定係数は、モデルの精度を評価する際に非常に重要な指標である。

決定係数の計算方法

決定係数は、以下の式で計算される。まず、観測値と予測値の間の誤差(残差)の二乗和(Residual Sum of Squares: RSS)を求め、次に、観測値の平均値からの全体的な変動の二乗和(Total Sum of Squares: TSS)を求める。決定係数は、1からRSSをTSSで割った値を引くことで算出される。具体的には、R² = 1 – (RSS/TSS)という形で表される。

決定係数の意味

決定係数は、回帰モデルがデータの変動をどれだけ説明できているかを示す指標であり、モデルの精度を評価する際に使われる。R²が1に近い場合、回帰モデルがデータのほぼすべての変動を説明できていることを意味し、モデルのフィットが良好であるとされる。一方、R²が0に近い場合、モデルがデータの変動をほとんど説明できていないことを意味し、モデルのフィットが不十分であるとされる。

決定係数の解釈

決定係数の解釈には注意が必要である。高いR²は一般に良いモデルを示すが、必ずしもモデルが適切であるとは限らない。例えば、データに過剰にフィットした過剰適合(overfitting)の場合、R²は高くなるが、新しいデータに対しては予測精度が低下する可能性がある。また、R²が低くても、モデルが正確にデータの構造を捉えている場合もあり、他の統計指標や分析結果と併用して評価することが重要である。

決定係数の限界

決定係数には限界がある。まず、R²は単純にモデルの説明力を示すだけであり、モデルの適切性や予測精度を完全に評価するものではない。また、複数の変数を含むモデルにおいて、説明変数の数が増えるとR²は必然的に高くなるため、変数の追加がモデルの改善を示しているとは限らない。このような場合には、調整済み決定係数(Adjusted R²)を使用することで、変数の数に応じたモデルの適合度をより正確に評価することができる。

調整済み決定係数

調整済み決定係数(Adjusted R²)は、説明変数の数を考慮した決定係数の修正値であり、より適切なモデル評価を可能にする。調整済みR²は、説明変数が増えることでR²が不当に高くなることを防ぎ、モデルの真の説明力を評価するために使用される。具体的には、R²にペナルティを加える形で計算され、説明変数が増えてもデータの変動を十分に説明できない場合には、Adjusted R²は低下する。

決定係数の応用

決定係数は、回帰分析以外にも様々な統計モデルに応用される。例えば、線形回帰モデルや非線形回帰モデル、時系列分析、機械学習モデルの評価など、多岐にわたる領域で使用されている。特に、ビジネス分析や社会科学研究において、モデルの説明力を評価するための基本的な指標として広く活用されている。適切なモデル選択と解釈を行うために、他の指標と併用しながら決定係数を活用することが重要である。