Process Effect Lab

何を変えると何が起きるか

テーマ	変えるもの	増やすと起きやすいこと
単回帰	y_noise	y 側のばらつきが増え、相関・R² が下がる
単回帰	x_noise	x の測定誤差が増え、OLS の傾きが真値からずれやすい
多重共線性	collinearity	条件数・VIF・係数のばらつきが大きくなる
PLS	pls_components	少なすぎると不足、多すぎると OLS に近づく
JIT	k / bandwidth	大きいほど全体モデルに近づき局所性が落ちる
グレーボックス	physics_bias	物理モデル単独の系統誤差が増える
転移	domain_gap	素朴な転移が害になりやすい（負の転移）
生データ	range_shift / trend	モデル前に分割・前処理が必要になる

単回帰：ノイズ・測定誤差・外れ値

OLS は x を正確とみなし、y の縦方向の誤差を最小化します。標準化した単回帰の傾きは相関係数になります。

n（サンプル数）80

true_slope1.0

y_noise0.6

x_noise0.0

outlier_strength0.0

seed0

多重共線性・PLS：係数はどれだけ信用できるか

入力変数同士が似た動きをすると、予測精度がそこそこでも係数解釈は壊れます。collinearity と pls_components を動かしてください。

n_train80

n_features8

collinearity0.95

y_noise0.25

pls_components2

ridge_alpha1.0

JIT 型モデル：近いデータだけをどれくらい使うか

固定モデルと 1-NN、kNN、局所線形、局所重み付き PLS を比較します。k や bandwidth が局所性を決めます。

x1_current0.5

x2_current0.0

wear_current0.85

k35

bandwidth0.8

pls_components2

nonlinearity1.3

drift_strength1.0

noise0.12

グレーボックス：物理モデルに統計補正を足す

物理モデルのみ・統計モデルのみ・Parallel・Serial・Combined を比較します。残差の可観測性とパラメータドリフトが鍵です。

physics_bias0.3

parameter_drift0.7

residual_strength0.8

residual_observability0.8

noise0.1

ridge_alpha1.0

転移学習：過去の似たデータをどれだけ使うか

ターゲットデータが少ない状況で、ターゲットのみ・素朴な転移・ドメイン拡張型を比較します。domain_gap が大きいと負の転移が起きます。

n_source300

n_target10

domain_gap0.35

transfer_weight0.6

n_common8

n_source_unique3

n_target_unique3

生データ診断：モデル前に見るべきもの

外れ値・レンジ変更・トレンド・周期・欠損・下限張り付き・複数モードを入れて診断結果を確認します。flag=True が出たら原因を先に調べます。

n300

outlier_strength4.0

range_shift1.0

trend_strength0.5

cycle_strength0.8

missing_rate0.05

lower_clip0.0

two_modes0.0