何を変えると何が起きるか
| テーマ | 変えるもの | 増やすと起きやすいこと |
|---|---|---|
| 単回帰 | y_noise | y 側のばらつきが増え、相関・R² が下がる |
| 単回帰 | x_noise | x の測定誤差が増え、OLS の傾きが真値からずれやすい |
| 多重共線性 | collinearity | 条件数・VIF・係数のばらつきが大きくなる |
| PLS | pls_components | 少なすぎると不足、多すぎると OLS に近づく |
| JIT | k / bandwidth | 大きいほど全体モデルに近づき局所性が落ちる |
| グレーボックス | physics_bias | 物理モデル単独の系統誤差が増える |
| 転移 | domain_gap | 素朴な転移が害になりやすい(負の転移) |
| 生データ | range_shift / trend | モデル前に分割・前処理が必要になる |
単回帰:ノイズ・測定誤差・外れ値
OLS は x を正確とみなし、y の縦方向の誤差を最小化します。標準化した単回帰の傾きは相関係数になります。
多重共線性・PLS:係数はどれだけ信用できるか
入力変数同士が似た動きをすると、予測精度がそこそこでも係数解釈は壊れます。collinearity と pls_components を動かしてください。
JIT 型モデル:近いデータだけをどれくらい使うか
固定モデルと 1-NN、kNN、局所線形、局所重み付き PLS を比較します。k や bandwidth が局所性を決めます。
グレーボックス:物理モデルに統計補正を足す
物理モデルのみ・統計モデルのみ・Parallel・Serial・Combined を比較します。残差の可観測性とパラメータドリフトが鍵です。
転移学習:過去の似たデータをどれだけ使うか
ターゲットデータが少ない状況で、ターゲットのみ・素朴な転移・ドメイン拡張型を比較します。domain_gap が大きいと負の転移が起きます。
生データ診断:モデル前に見るべきもの
外れ値・レンジ変更・トレンド・周期・欠損・下限張り付き・複数モードを入れて診断結果を確認します。flag=True が出たら原因を先に調べます。