教師なし学習|ラベルなしでクラスタと特徴を抽出

教師なし学習

教師なし学習は、ラベルのないデータから潜在構造やパターンを抽出する機械学習の枠組みである。製造業では工程データの異常検知、品質ばらつきのセグメンテーション、画像欠陥の特徴抽出、設備ログの類型化などに用いる。データ分布や相関、潜在因子を明らかにし、探索的データ解析や後段のモデル化、現場の意思決定を支える基盤技術である。

定義と目的

教師なし学習の目的は、外部の正解ラベルに依存せずにデータの内在的な構造を把握することにある。代表的にはクラスタリング(群分け)、次元圧縮(可視化・ノイズ低減)、密度推定(外れ値検出)、特徴量学習(表現学習)を行う。未知クラスの発見や工程の状態把握、設計空間の理解など、探索と仮説生成に適する。

代表的な手法

  • k-means:重心を反復更新する高速クラスタリング。球状クラスタに適する。
  • Gaussian mixture(GMM):EMでパラメータ推定する確率モデル。楕円分布に柔軟。
  • 階層的クラスタリング:距離行列から樹形図を構成し、粒度を連続的に調整できる。
  • DBSCAN/HDBSCAN:密度に基づき任意形状の群を検出し、ノイズ点を自動で分離する。
  • PCA:分散最大の直交成分に射影する次元圧縮。可視化や前処理に有効。
  • ICA/NMF:独立性や非負制約により可解釈な因子を抽出する。
  • t-SNE/UMAP:近傍関係を保存する低次元埋め込み。クラスタ構造の可視化に適す。
  • Autoencoder:自己再構成で潜在表現を学習し、異常検知や圧縮に用いる。
  • アソシエーションルール:頻出パターンから同時発生の関係を抽出する。

アルゴリズムの数理

多くの手法は最適化問題として定式化され、目的関数(例:誤差、対数尤度、再構成誤差)を最小化または最大化する。距離尺度(ユークリッド距離、コサイン類似度)、確率仮定(ガウス混合)、正則化(L2/L1)、近傍グラフや固有分解などの線形代数が鍵となる。初期値・ハイパーパラメータやスケーリングの影響が解に現れやすい点にも注意する。

評価指標と可視化

外部ラベルがなくても内部指標で品質を測れる。クラスタリングではSilhouette係数、Davies–Bouldin指数、Calinski–Harabasz指数を用いる。次元圧縮では再構成誤差や近傍保持率、異常検知では偽陽性率の監視が有効である。PCA/UMAPの散布図、距離行列のヒートマップ、負荷量や中心点の可視化は解釈に寄与する。

実務での使いどころ

工程センサの時系列から運転状態をクラスタ化し、品質不良と相関する状態を同定する。加工条件や材料ロットのセグメント別に寸法ばらつきの特徴を捉え、要因探索を加速する。画像検査では自己符号化器や密度推定で正常分布を学び、微小欠陥を外れ値として検知する。需要・保全ログの類型化も在庫や保全計画に有効である。

実装とワークフロー

  1. 目的の明確化:発見したい構造や意思決定の利用場面を定義する。
  2. 前処理:欠損補完、標準化/正規化、外れ値処理、カテゴリのエンコーディング。
  3. 次元圧縮:PCAやUMAPで可視化とノイズ低減を行う。
  4. モデリング:kの選定、eps/min_samples、perplexity、n_neighborsなどを探索する。
  5. 評価・命名:内部指標と現場知見でクラスターを解釈し名称を付ける。
  6. 運用:データドリフト監視、閾値更新、モデル再学習の体制を整える。

教師あり学習との関係

教師なし学習で得たクラスタや潜在表現は、教師あり学習の前処理や特徴量として有用である。ラベルが乏しい状況では疑似ラベリングや半教師あり学習で補完し、自己教師ありの表現学習で汎化性能を高める。前段の探索と後段の予測を循環させる設計が実用的である。

注意点と落とし穴

スケール感度により距離が支配的になり、誤った構造を示すことがある。次元の呪いで近傍が希薄化し、密度系手法が不安定になる。初期値依存や局所解、パラメータ過剰適合に留意する。可視化に過度な意味づけをしないこと、クラスタ数や閾値をビジネス目的に即して妥当化することが重要である。

関連技術

自己教師あり学習(対照学習)や表現学習はラベルなしで汎用特徴を獲得する。スペクトラルクラスタリングやグラフ手法、LDAなどのトピックモデル、VAE/GANなどの生成モデルは構造学習の拡張である。これらを工程知識と併用し、再現性あるデータ基盤と評価設計を整えることが成功の鍵である。