教師あり学習
教師あり学習は、入力と正解ラベルの対を用いて関数近似を行う機械学習の基本枠組みである。分類と回帰に大別され、与えられたデータ分布に対して損失関数を最小化するモデルを学習する。製造業では外観検査、不良原因推定、需要予測、予知保全などで広く用いられ、再現性のある評価規準を設けやすい点が実務適性を高めている。モデルの性能はデータ品質、汎化能力、運用時の監視体制により大きく左右される。
目的と適用分野
教師あり学習の目的は、未知入力に対し誤差の小さい推定を安定に行うことである。分類では良否判定や異常品検出、回帰では寸法偏差や残寿命の予測が代表例である。画像、時系列、表形式など多様なデータ型に適用でき、計測・検査・プロセス制御の各工程で価値を発揮する。現場では説明可能性と再現性が重視され、手順化・標準化との親和性が高い。
データセットとラベル
特徴量行列Xとラベルyを整備し、学習・検証・テストに適切に分割する。分割は時系列やロットの独立性を保つことが重要で、情報漏洩を避ける。ラベルは計測基準や合否判定ルールに沿って一貫して付与し、アノテーションのばらつきは基準票やダブルチェックで低減する。データ数はモデル複雑度に見合う量を確保し、代表性のあるサンプリングで現場分布を反映させる。
損失関数と最適化
回帰ではMSE、MAE、Huber損失、分類ではクロスエントロピーがよく使われる。最適化は勾配降下法を基礎に、SGD、Momentum、Adamなどを用いる。学習率は収束と汎化の要であり、スケジューラやウォームアップで調整する。凸でない問題では初期値や正則化が安定化に効く。バッチサイズは統計的ノイズと計算効率の折衷で決める。
汎化とバイアス・バリアンス
汎化は未知データでの誤差低減能力を指す。高バイアスは学習不足、過大なバリアンスは過学習の兆候である。L2/L1正則化、早期打切り、ドロップアウト、データ拡張が有効である。検証データでの性能曲線を監視し、学習曲線からデータ量・モデル容量・正則化の調整方向を判断する。
モデル群の要点
- 線形回帰・リッジ・ラッソ:解釈性が高くベースラインに適する。
- ロジスティック回帰:確率出力が扱いやすく、しきい値設計と相性が良い。
- SVM:マージン最大化で高次元に強い。カーネルで非線形も扱える。
- 決定木・Random Forest・Gradient Boosting:非線形・相互作用を自動で捉える。
- k-NN:局所構造に基づく単純強力な手法だがスケール前処理が必須。
- Neural Network/CNN/RNN/Transformer:大規模データで強力。正則化と監視が鍵。
評価指標
分類ではAccuracyだけでなくPrecision、Recall、F1、ROC-AUC、PR-AUCを併記する。不均衡時は特にPR-AUCが有用である。回帰ではRMSE、MAE、R2、MAPEなどを用い、現場許容公差との関係で解釈する。混同行列は誤判定の内訳を示し、しきい値最適化の基礎情報となる。
データ前処理と特徴量設計
スケーリング(Standardize/Normalize)、カテゴリのOne-Hot、欠損処理、外れ値ロバスト化は基本である。時系列ではラグ・移動統計量・スペクトル特徴が効く。画像では明度・コントラスト・幾何変換等のデータ拡張が汎化を助ける。工程データでは物理量に基づく派生特徴の導入が説明力と安定性を両立する。
不均衡データと対策
不良率が低い現場ではクラス不均衡が常態である。対策として、クラス重み付け、閾値調整、過/下サンプリング、SMOTE、焦点化損失(Focal Loss)がある。評価はPR曲線やコスト加重指標で行い、検査工数や流出リスクとの経済性で最適点を選ぶ。
ハイパーパラメータ探索
探索はGrid/Random/Bayesian Optimizationを用いる。探索空間は事前知識で絞り、交差検証で頑健に比較する。早期打切りや学習率スケジュールの自動調整を組み合わせ、過学習の兆候が出たらモデル容量や正則化強度を改める。
クロスバリデーションの設計
k-foldは汎用、Stratified k-foldは不均衡に有効である。ロットや個体IDがある場合はGroup k-foldで漏洩を防ぐ。時系列ではTimeSeriesSplitを用い、将来情報の混入を防止する。分割戦略は最終運用条件を模倣することが原則である。
運用・監視(MLOps)
本番導入ではデータ/モデル/特徴量のバージョニング、推論遅延と可用性の管理、ドリフト(データ・概念)の検知が不可欠である。しきい値や再学習周期は監視指標に基づき見直す。監査のために学習条件と前処理を再現可能に保管し、説明可能性レポートを整備する。
よくある落とし穴
データ漏洩(同一製品の情報が学習と評価に跨る)、ラベルの不整合、過度な前処理による現場再現性の喪失は典型的失敗である。ベースライン未設定や評価指標のミスマッチも危険である。まず単純モデルで基準線を作り、増分検証で改善を積み上げるのが安全である。なお、教師あり学習の適用可否はデータの因果妥当性と運用制約から判断する。