[general] 2-1. 편향-분산 절충관계 증명BiasVarianceTradeoffProofBiasVarianceTradeoffProof

2021. 7. 11. 17:57Machine Learning/General

이전 글([Machine Learning] - 2. 모델 학습Howcanwetrainamodel?Howcanwetrainamodel?)에서 모델이 학습하는 과정을 어떻게 수식으로 나타낼 수 있는지에 대해 알아보았습니다. 또한 그 수식을 예측모델의 편향과 분산으로 나눌 수 있음을 보았습니다.

이번 글에서는 그 수식을 증명하여 수식의 의미를 조금 더 생각해보겠습니다.


우리가 예측하고자 하는 종속변수 YY와 그의 예측 값 ˆY^Y간의 차이를 줄이면서 모델을 학습하게 된다고 하였고, 그것을 수식으로 나타내면 다음과 같습니다.

E[(YˆY)2]=E[f(X)+ϵˆf(X))2]    (1)                     =E[(f(X)ˆf(X))2]+E[ϵ2]+2E[(f(X)ˆf(X))ϵ]    (2.1)                     =E[(f(X)ˆf(X))2]+E[ϵ2]+2E[(f(X)ˆf(X))]E[ϵ]    (2.2)                     =E[(f(X)ˆf(X))2]+E[ϵ2]    (3)

(1)식에서 (2.1)번 식은 두 확률변수의 기댓값 공식을 통해 도출할 수 있습니다. 그리고 가정에서 랜덤 오차 항과 우리가 추정하는 모델ˆf은 독립이라고 하였으므로, (2.1)식에서 (2.2)식을 도출할 수 있습니다. 그리고 가정에서 랜덤 오차 항의 평균을 0이라고 하였으므로 (3)식을 도출할 수 있습니다.

E[(f(X)ˆf(X))2]=E[((f(X)E[ˆf(X)])(ˆf(X)E[ˆf(X)]))2]    (4)                     =E[(E[ˆf(X)]f(X))2]+E[(ˆf(X)E[ˆf(X)])2]    (5.1)                       2E[(f(X)E[ˆf(X)])(ˆf(X)E[ˆf(X)])]    (5.2)                     =(E[ˆf(X)]f(X))2+E[(ˆf(X)E[ˆf(X)])2]    (6.1)                       2(f(X)E[ˆf(X)])E[(ˆf(X)E[ˆf(X)])]    (6.2)                     =Bias[ˆf(X)]2+Var(ˆf(X))    (7.1)                       2(f(X)E[ˆf(X)])E[(ˆf(X)E[ˆf(X)])]    (7.2)                     =Bias[ˆf(X)]2+Var(ˆf(X))    (8)

(3)식의 왼쪽항을 가져와서 왼쪽항과 오른쪽항에 E[ˆf(X)]을 더하면 (4)가 됩니다. (4)을 기댓값을 구하면 (5.1), (5.2)로 분해할 수 있습니다. (5.1)의 왼쪽항은 이미 상수이므로 기댓값을 취해도 그대로 빠져나오게 되어 (5.1)식이 (6.1)식이 됩니다. 마찬가지로 (5.2)식에서도(f(X)E[ˆf(X)])은 상수이므로 (5.2)식이 (6.2)가 되게 됩니다. (6.1)식을 편향 텀과 분산 텀으로 나타내면 (7.1)식과 같고, 상수를 기댓값 취했을 때, 그대로 밖으로 나온다는 것을 이용하면 (6.2)식은 (7.2)식이 되고, (E[ˆf(X)]E[ˆf(X)])=0이므로 (7.2)식은 (8)식이 됩니다. (3)식과 (8)식을 정리한 결과는 다음과 같습니다.

E[(YˆY)2]=Bias[ˆf(X)]2+Var(ˆf(X))+E[ϵ2]


Bias[ˆf(X)]=(E[ˆf(X)]f(X))인데, 우리가 예측한 모델ˆf(X)이 정답f(X)과 얼마나 차이가 있는지를 나타냅니다. 즉 정답과 가깝게 모델을 예측하면 Bias텀을 줄일 수 있을 것입니다. Var(ˆf(X))=E[(ˆf(X)E[ˆf(X)])2]인데 이 값은 우리가 예측한 모델의 값과 예측한 모델의 평균 간의 차이가 얼마인가를 나타냅니다. 즉 우리가 예측한 모델이 얼마만큼 넓게 분포하는 가를 나타낸다고 할 수 있습니다.

따라서 E[(YˆY)2]식은 우리가 알고 있던 편향과 분산의 의미를 예측모델의 관점에서 생각한 식이라고 할 수 있을 것 같습니다.