2021. 7. 11. 17:57ㆍMachine Learning/General
이전 글([Machine Learning] - 2. 모델 학습Howcanwetrainamodel?Howcanwetrainamodel?)에서 모델이 학습하는 과정을 어떻게 수식으로 나타낼 수 있는지에 대해 알아보았습니다. 또한 그 수식을 예측모델의 편향과 분산으로 나눌 수 있음을 보았습니다.
이번 글에서는 그 수식을 증명하여 수식의 의미를 조금 더 생각해보겠습니다.
우리가 예측하고자 하는 종속변수 YY와 그의 예측 값 ˆY^Y간의 차이를 줄이면서 모델을 학습하게 된다고 하였고, 그것을 수식으로 나타내면 다음과 같습니다.
E[(Y−ˆY)2]=E[f(X)+ϵ−ˆf(X))2] ⋯(1) =E[(f(X)−ˆf(X))2]+E[ϵ2]+2E[(f(X)−ˆf(X))ϵ] ⋯(2.1) =E[(f(X)−ˆf(X))2]+E[ϵ2]+2E[(f(X)−ˆf(X))]E[ϵ] ⋯(2.2) =E[(f(X)−ˆf(X))2]+E[ϵ2] ⋯(3)
(1)식에서 (2.1)번 식은 두 확률변수의 기댓값 공식을 통해 도출할 수 있습니다. 그리고 가정에서 랜덤 오차 항과 우리가 추정하는 모델ˆf은 독립이라고 하였으므로, (2.1)식에서 (2.2)식을 도출할 수 있습니다. 그리고 가정에서 랜덤 오차 항의 평균을 0이라고 하였으므로 (3)식을 도출할 수 있습니다.
E[(f(X)−ˆf(X))2]=E[((f(X)−E[ˆf(X)])−(ˆf(X)−E[ˆf(X)]))2] ⋯(4) =E[(E[ˆf(X)]−f(X))2]+E[(ˆf(X)−E[ˆf(X)])2] ⋯(5.1) −2E[(f(X)−E[ˆf(X)])(ˆf(X)−E[ˆf(X)])] ⋯(5.2) =(E[ˆf(X)]−f(X))2+E[(ˆf(X)−E[ˆf(X)])2] ⋯(6.1) −2(f(X)−E[ˆf(X)])E[(ˆf(X)−E[ˆf(X)])] ⋯(6.2) =Bias[ˆf(X)]2+Var(ˆf(X)) ⋯(7.1) −2(f(X)−E[ˆf(X)])E[(ˆf(X)−E[ˆf(X)])] ⋯(7.2) =Bias[ˆf(X)]2+Var(ˆf(X)) ⋯(8)
(3)식의 왼쪽항을 가져와서 왼쪽항과 오른쪽항에 E[ˆf(X)]을 더하면 (4)가 됩니다. (4)을 기댓값을 구하면 (5.1), (5.2)로 분해할 수 있습니다. (5.1)의 왼쪽항은 이미 상수이므로 기댓값을 취해도 그대로 빠져나오게 되어 (5.1)식이 (6.1)식이 됩니다. 마찬가지로 (5.2)식에서도(f(X)−E[ˆf(X)])은 상수이므로 (5.2)식이 (6.2)가 되게 됩니다. (6.1)식을 편향 텀과 분산 텀으로 나타내면 (7.1)식과 같고, 상수를 기댓값 취했을 때, 그대로 밖으로 나온다는 것을 이용하면 (6.2)식은 (7.2)식이 되고, (E[ˆf(X)]−E[ˆf(X)])=0이므로 (7.2)식은 (8)식이 됩니다. (3)식과 (8)식을 정리한 결과는 다음과 같습니다.
E[(Y−ˆY)2]=Bias[ˆf(X)]2+Var(ˆf(X))+E[ϵ2]
Bias[ˆf(X)]=(E[ˆf(X)]−f(X))인데, 우리가 예측한 모델ˆf(X)이 정답f(X)과 얼마나 차이가 있는지를 나타냅니다. 즉 정답과 가깝게 모델을 예측하면 Bias텀을 줄일 수 있을 것입니다. Var(ˆf(X))=E[(ˆf(X)−E[ˆf(X)])2]인데 이 값은 우리가 예측한 모델의 값과 예측한 모델의 평균 간의 차이가 얼마인가를 나타냅니다. 즉 우리가 예측한 모델이 얼마만큼 넓게 분포하는 가를 나타낸다고 할 수 있습니다.
따라서 E[(Y−ˆY)2]식은 우리가 알고 있던 편향과 분산의 의미를 예측모델의 관점에서 생각한 식이라고 할 수 있을 것 같습니다.
'Machine Learning > General' 카테고리의 다른 글
[general] EM 알고리즘ExpectationandMaximizationAlgorithm 0 | 2021.07.28 |
---|---|
[general] 3. 과대적합, 과소적합Over−fitting,Under−fitting 1 | 2021.07.11 |
[general] 2. 모델 학습Howcanwetrainamodel? 0 | 2021.07.11 |
[general] 1. 지도학습, 비지도학습, 자기지도 학습, 강화학습Supervised,Un−Supervised,Self−Supervised,ReinforcementLearning 0 | 2021.07.11 |
[general] 0. 머신러닝MachineLearning 0 | 2021.07.11 |