パラメータを動かして何が起きるかを確認する
何を変えると何が起きるか
テーマ変えるもの増やすと起きやすいこと
単回帰y_noisey 側のばらつきが増え、相関・R² が下がる
単回帰x_noisex の測定誤差が増え、OLS の傾きが真値からずれやすい
多重共線性collinearity条件数・VIF・係数のばらつきが大きくなる
PLSpls_components少なすぎると不足、多すぎると OLS に近づく
JITk / bandwidth大きいほど全体モデルに近づき局所性が落ちる
グレーボックスphysics_bias物理モデル単独の系統誤差が増える
転移domain_gap素朴な転移が害になりやすい(負の転移)
生データrange_shift / trendモデル前に分割・前処理が必要になる
単回帰:ノイズ・測定誤差・外れ値
OLS は x を正確とみなし、y の縦方向の誤差を最小化します。標準化した単回帰の傾きは相関係数になります。
多重共線性・PLS:係数はどれだけ信用できるか
入力変数同士が似た動きをすると、予測精度がそこそこでも係数解釈は壊れます。collinearity と pls_components を動かしてください。
JIT 型モデル:近いデータだけをどれくらい使うか
固定モデルと 1-NN、kNN、局所線形、局所重み付き PLS を比較します。k や bandwidth が局所性を決めます。
グレーボックス:物理モデルに統計補正を足す
物理モデルのみ・統計モデルのみ・Parallel・Serial・Combined を比較します。残差の可観測性とパラメータドリフトが鍵です。
転移学習:過去の似たデータをどれだけ使うか
ターゲットデータが少ない状況で、ターゲットのみ・素朴な転移・ドメイン拡張型を比較します。domain_gap が大きいと負の転移が起きます。
生データ診断:モデル前に見るべきもの
外れ値・レンジ変更・トレンド・周期・欠損・下限張り付き・複数モードを入れて診断結果を確認します。flag=True が出たら原因を先に調べます。