判別分析|多次元データの境界学習と最適分類

判別分析

判別分析は、観測データがどのカテゴリ(クラス)に属するかを推定するための統計的手法である。教師あり学習に分類され、特徴量から学習された判別関数により新規サンプルを自動的に振り分ける。代表例は Fisher による線形判別(LDA)で、クラス間分離を最大化しつつクラス内分散を最小化する方向を求める。品質管理、製造現場の外観検査、医療診断、与信審査などで広く用いられる。

背景と目的

目的は誤分類を最小化し、既知クラスの境界を安定に推定することである。入力空間に超平面(または曲面)を構成し、サンプルが閾値より大きい(小さい)側でクラスを判定する。ベイズ決定理に基づくと、事前確率や誤判定コストを取り入れて総合的なリスクを最小化する枠組みに位置づけられる。

手法の種類

もっとも基本的なのは線形判別分析(LDA)で、各クラスが等しい共分散行列を持つ正規分布に従う前提で線形境界を得る。等分散仮定が成り立たない場合は二次判別分析(QDA)を用い、クラスごとに異なる共分散を推定し二次曲面の境界を形成する。少数データや高次元では正則化や縮小推定(shrinkage)が有効である。

LDAの幾何学・行列表現

2クラスの LDA では、判別ベクトル w はクラス内散布行列 Sw の逆行列と平均ベクトル差 m1−m0 の積 w=Sw−1(m1−m0) で与えられる。判別関数 g(x)=wTx+b が閾値となり、g(x) の符号でクラスを決める。多クラスでは固有値問題に帰着し、低次元へ写像することで視覚化にも用いられる。

前提条件とデータ前処理

  • ガウス性と共分散構造の仮定(LDA は等分散、QDA はクラス別分散)
  • 外れ値の有無(ロバスト化やトリミングが有効)
  • スケーリングの統一(標準化は判別方向の安定化に寄与)
  • 欠損処理(多重代入法や単純代入、完全ケース分析の選択)

前提違反への対処

分散の不均一や重い裾の分布では、QDA、ロバスト共分散推定、Box–Cox 変換、あるいは核関数を用いた非線形写像(カーネル判別)を検討する。クラス不均衡では事前確率や重み付けを調整し、実運用コストに合わせた閾値最適化を行う。

実務的な手順

  1. データの理解:目的変数と特徴量、クラス比率、欠損・外れ値を把握する。
  2. 前処理:スケーリング、欠損補完、特徴量選択(相関や多重共線性の点検)。
  3. 学習:クラス平均と(共通またはクラス別)共分散を推定し判別関数を得る。
  4. 検証:ホールドアウトまたは k-fold クロスバリデーションで性能を見積る。
  5. 導入:閾値・コスト設定を詰め、監視指標とリトレーニング条件を定める。

高次元・少標本(p≫n)への配慮

特徴量が多くサンプルが少ない状況では共分散推定が不安定になる。リッジ型の正則化 LDA、疎構造を仮定する手法、主成分による次元削減を併用した判別(PCA+LDA)で安定化を図る。

評価指標と可視化

二値分類なら正解率だけでなく、適合率(precision)・再現率(recall)・F1、ROC 曲線と AUC を併用する。しきい値を動かし業務コストに整合した運用点を選ぶ。多クラスではマクロ/マイクロ平均を明示し、混同行列で誤りの傾向を確認する。

交差検証とリーク防止

前処理(標準化や特徴選択)は fold 内で学習データに限定して実行し、検証データへの情報漏洩を防ぐ。時系列では時系列 CV やウォークフォワードを用いる。

他手法との関係

ロジスティック回帰は事後確率を直接モデル化し、線形分離という点で LDA と近いが前提が異なる。k-NN は非パラメトリックで局所構造に敏感、SVM はマージン最大化により外れ値に強い傾向がある。教師なしの主成分分析(PCA)は分散最大化を目的とし、ラベル情報を利用する判別分析とは目的関数が異なる。

マハラノビス距離と等確率境界

クラスが等分散の正規分布に従い事前確率も等しいなら、判定は平均間のマハラノビス距離に基づく線形境界となる。事前確率が異なる場合は、しきい値に対数事前比とコスト比が加わる。

特徴量設計と説明可能性

LDA は線形結合による判別軸を与えるため、係数の符号・大きさを手がかりに寄与度を説明しやすい。製造現場では物理的意味のある指標(寸法、粗さ、輝度など)を組み合わせることで、再現性と運用性の高いモデルを構築できる。

モデル監視とドリフト

時間とともに分布が変化するデータドリフトに注意する。移動窓で平均・共分散を監視し、性能低下や境界の偏りが見られたら再学習や再キャリブレーションを行う。

多クラス拡張と階層化

多クラスは固有分解ベースの LDA により(クラス数−1)次元へ写像してから最近傍規則で割当てる手法が一般的である。実務では一対他や階層的な判別器の組み合わせで工程・製品構成に合わせた柔軟な判定系を設計する。

実装上の要点

  • 数値安定化:共分散行列の条件数悪化にはダイアゴナル荷重や縮小推定を用いる。
  • 特異値対策:完全共線性があれば不要特徴の削減または SVD による擬似逆を適用する。
  • 再現可能性:乱数種、前処理手順、評価分割を記録し、監査可能性を確保する。

応用例

製造業では良否判定、故障の早期検出、仕分けに活用される。医療では検査値からの疾患分類、金融では不正検知や与信判定、画像・信号処理では特徴ベクトルに基づく物体・音声の識別に適用される。データ条件と運用要件を踏まえ、LDA、QDA、正則化版、非線形拡張のいずれを選択するかが要諦である。