Concept

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/61b33184-aabf-4e70-a2e2-235172d692d3/Untitled.png

bias+variance이 작아지도록 학습을 하기 때문에 Training Error는 계속 감소할 수 있지만 Test Set으로 평가를 할 경우 어떤 지점 이후에서 Test Set에 대한 Loss의 variance가 다시 커지기 때문에

편향을 증가시키는 추정기를 단순화하여 추정기의 분산을 줄

Bias–variance decomposition of squared error

$$ {\displaystyle \operatorname {E} {\Big [}{\big (}y-{\hat {f}}(x){\big )}^{2}{\Big ]}={\Big (}\operatorname {Bias} {\big [}{\hat {f}}(x){\big ]}{\Big )}^{2}+\operatorname {Var} {\big [}{\hat {f}}(x){\big ]}+\sigma ^{2}} $$

$$ {\displaystyle \operatorname {Bias} {\big [}{\hat {f}}(x){\big ]}=\operatorname {E} {\big [}{\hat {f}}(x){\big ]}-\operatorname {E} {\big [}f(x){\big ]}} $$

$$ {\displaystyle \operatorname {Var} {\big [}{\hat {f}}(x){\big ]}=\operatorname {E} [{\hat {f}}(x)^{2}]-\operatorname {E} [{\hat {f}}(x)]^{2}} $$

Variance

추정 값의 평균과 추정 값들간의 차이에 대한 것

Variance는 추정 값들의 흩어진 정도를 의미

Variance는 Loss의 일부분이지만, True 값과는 관계없이 추정 값들의 흩어진 정도만을 의미

High Variance → Overfitting

Bias

추정값의 평균과 참 값들간의 차이에 대한 것

Bias는 참 값과 추정 값의 거리를 의미

High Bias → Underfitting

Irreducible Error

Noise를 의미

Derivation

$$ \begin{aligned} \operatorname{Var}(X) &=\mathrm{E}\left[(X-\mathrm{E}[X])^{2}\right] \\ &=\mathrm{E}\left[X^{2}-2 X \mathrm{E}[X]+\mathrm{E}[X]^{2}\right] \\ &=\mathrm{E}\left[X^{2}\right]-2 \mathrm{E}[X] \mathrm{E}[X]+\mathrm{E}[X]^{2} \\ &=\mathrm{E}\left[X^{2}\right]-\mathrm{E}[X]^{2} \end{aligned} $$

$$ {\displaystyle \operatorname {E} [X^{2}]=\operatorname {Var} [X]+{\Big (}\operatorname {E} [X]{\Big )}^{2}.} $$

$$ \text{Since }f \text{ is deterministic } \operatorname {E}[f]=f, \\ \text{Thus, given } y=f+\varepsilon \text{ and } \operatorname {E} [\varepsilon ]=0, \\ \text{implies }{\displaystyle \operatorname {E} [y]=\operatorname {E} [f+\varepsilon ]=\operatorname {E} [f]=f.} $$

$$ \text{Also, since }\operatorname {Var} [\varepsilon ]=\sigma ^{2}, \\ \operatorname {Var} [y]=\operatorname {E} [(y-\operatorname {E} [y])^{2}]=\operatorname {E} [(y-f)^{2}] \newline = \operatorname {E} [(f+\varepsilon -f)^{2}] = \operatorname {E} [\varepsilon ^{2}]=\operatorname {Var} [\varepsilon ]+{\Big (}\operatorname {E} [\varepsilon ]{\Big )}^{2}=\sigma ^{2} $$

$$ \text{Thus, since } \varepsilon \text{ and }{\hat {f}} \text{ are independent, we can write} \\{\begin{aligned} \operatorname {E} {\big [}(y-{\hat {f}})^{2}{\big ]} &=\operatorname {E} {\big [}(f+\varepsilon -{\hat {f}})^{2}{\big ]}\\[5pt]&=\operatorname {E} {\big [}(f+\varepsilon -{\hat {f}}+\operatorname {E} [{\hat {f}}]-\operatorname {E} [{\hat {f}}])^{2}{\big ]}\\[5pt]&=\operatorname {E} {\big [}(f-\operatorname {E} [{\hat {f}}])^{2}{\big ]}+\operatorname {E} [\varepsilon ^{2}]+\operatorname {E} {\big [}(\operatorname {E} [{\hat {f}}]-{\hat {f}})^{2}{\big ]}+2\operatorname {E} {\big [}(f-\operatorname {E} [{\hat {f}}])\varepsilon {\big ]}+2\operatorname {E} {\big [}\varepsilon (\operatorname {E} [{\hat {f}}]-{\hat {f}}){\big ]}+2\operatorname {E} {\big [}(\operatorname {E} [{\hat {f}}]-{\hat {f}})(f-\operatorname {E} [{\hat {f}}]){\big ]}\\[5pt]&=(f-\operatorname {E} [{\hat {f}}])^{2}+\operatorname {E} [\varepsilon ^{2}]+\operatorname {E} {\big [}(\operatorname {E} [{\hat {f}}]-{\hat {f}})^{2}{\big ]}+2(f-\operatorname {E} [{\hat {f}}])\operatorname {E} [\varepsilon ]+2\operatorname {E} [\varepsilon ]\operatorname {E} {\big [}\operatorname {E} [{\hat {f}}]-{\hat {f}}{\big ]}+2\operatorname {E} {\big [}\operatorname {E} [{\hat {f}}]-{\hat {f}}{\big ]}(f-\operatorname {E} [{\hat {f}}])\\[5pt]&=(f-\operatorname {E} [{\hat {f}}])^{2}+\operatorname {E} [\varepsilon ^{2}]+\operatorname {E} {\big [}(\operatorname {E} [{\hat {f}}]-{\hat {f}})^{2}{\big ]}\\[5pt]&=(f-\operatorname {E} [{\hat {f}}])^{2}+\operatorname {Var} [y]+\operatorname {Var} {\big [}{\hat {f}}{\big ]}\\[5pt]&=\operatorname {Bias} [{\hat {f}}]^{2}+\operatorname {Var} [y]+\operatorname {Var} {\big [}{\hat {f}}{\big ]}\\[5pt]&=\operatorname {Bias} [{\hat {f}}]^{2}+\sigma ^{2}+\operatorname {Var} {\big [}{\hat {f}}{\big ]}\end{aligned}} $$