[general] 2-1. 편향-분산 절충관계 증명(Bias-Variance Trade-off Proof)

[general] 2-1. 편향-분산 절충관계 증명 $Bias-Variance Trade-off Proof$

2021. 7. 11. 17:57ㆍMachine Learning/General

이전 글([Machine Learning] - 2. 모델 학습 $How can we train a model?$ )에서 모델이 학습하는 과정을 어떻게 수식으로 나타낼 수 있는지에 대해 알아보았습니다. 또한 그 수식을 예측모델의 편향과 분산으로 나눌 수 있음을 보았습니다.

이번 글에서는 그 수식을 증명하여 수식의 의미를 조금 더 생각해보겠습니다.

우리가 예측하고자 하는 종속변수 $Y$ 와 그의 예측 값 $\hat {Y}$ 간의 차이를 줄이면서 모델을 학습하게 된다고 하였고, 그것을 수식으로 나타내면 다음과 같습니다.

$E[(Y-\hat {Y})^2]=\mathbb {E}[f(X)+\epsilon-\hat {f}(X))^2]~~~~\cdots(1) \\ ~~~~~~~~~~~~~~~~~~~~~=\mathbb {E}[(f(X)-\hat {f}(X))^2]+\mathbb {E}[\epsilon^2]+2\mathbb {E}[(f(X)-\hat {f}(X))\epsilon]~~~~\cdots(2.1) \\ ~~~~~~~~~~~~~~~~~~~~~=\mathbb {E}[(f(X)-\hat {f}(X))^2]+\mathbb {E}[\epsilon^2]+2\mathbb {E}[(f(X)-\hat {f}(X))]\mathbb {E}[\epsilon]~~~~\cdots(2.2) \\ ~~~~~~~~~~~~~~~~~~~~~=\mathbb {E}[(f(X)-\hat {f}(X))^2]+\mathbb {E}[\epsilon^2]~~~~\cdots(3)$

$(1)$ 식에서 $(2.1)$ 번 식은 두 확률변수의 기댓값 공식을 통해 도출할 수 있습니다. 그리고 가정에서 랜덤 오차 항과 우리가 추정하는 모델 $\hat {f}$ 은 독립이라고 하였으므로, $(2.1)$ 식에서 $(2.2)$ 식을 도출할 수 있습니다. 그리고 가정에서 랜덤 오차 항의 평균을 0이라고 하였으므로 $(3)$ 식을 도출할 수 있습니다.

$\mathbb {E}[(f(X)-\hat {f}(X))^2]=\mathbb {E}[((f(X)-\mathbb {E}[\hat {f}(X)])-(\hat {f}(X)-\mathbb {E}[\hat {f}(X)]))^2]~~~~\cdots(4) \\ ~~~~~~~~~~~~~~~~~~~~~=\mathbb {E}[(\mathbb {E}[\hat {f}(X)]-f(X))^2]+\mathbb {E}[(\hat {f}(X)-\mathbb {E}[\hat {f}(X)])^2]~~~~\cdots(5.1) \\ ~~~~~~~~~~~~~~~~~~~~~~~-2\mathbb {E}[(f(X)-\mathbb {E}[\hat {f}(X)])(\hat {f}(X)-\mathbb {E}[\hat {f}(X)])]~~~~\cdots(5.2) \\ ~~~~~~~~~~~~~~~~~~~~~=(\mathbb {E}[\hat {f}(X)]-f(X))^2+\mathbb {E}[(\hat {f}(X)-\mathbb {E}[\hat {f}(X)])^2]~~~~\cdots(6.1) \\ ~~~~~~~~~~~~~~~~~~~~~~~-2(f(X)-\mathbb {E}[\hat {f}(X)])\mathbb {E}[(\hat {f}(X)-\mathbb {E}[\hat {f}(X)])]~~~~\cdots(6.2) \\ ~~~~~~~~~~~~~~~~~~~~~=Bias [\hat {f}(X)]^2+Var(\hat {f}(X))~~~~\cdots(7.1) \\ ~~~~~~~~~~~~~~~~~~~~~~~-2(f(X)-\mathbb {E}[\hat {f}(X)])\mathbb {E}[(\hat {f}(X)-\mathbb {E}[\hat {f}(X)])]~~~~\cdots(7.2) \\ ~~~~~~~~~~~~~~~~~~~~~=Bias [\hat {f}(X)]^2+Var(\hat {f}(X))~~~~\cdots(8)$

$(3)$ 식의 왼쪽항을 가져와서 왼쪽항과 오른쪽항에 $\mathbb {E}[\hat {f}(X)]$ 을 더하면 $(4)$ 가 됩니다. $(4)$ 을 기댓값을 구하면 $(5.1)$ , $(5.2)$ 로 분해할 수 있습니다. $(5.1)$ 의 왼쪽항은 이미 상수이므로 기댓값을 취해도 그대로 빠져나오게 되어 $(5.1)$ 식이 $(6.1)$ 식이 됩니다. 마찬가지로 $(5.2)$ 식에서도 $(f(X)-\mathbb {E}[\hat {f}(X)])$ 은 상수이므로 $(5.2)$ 식이 $(6.2)$ 가 되게 됩니다. $(6.1)$ 식을 편향 텀과 분산 텀으로 나타내면 $(7.1)$ 식과 같고, 상수를 기댓값 취했을 때, 그대로 밖으로 나온다는 것을 이용하면 $(6.2)$ 식은 $(7.2)$ 식이 되고, $(\mathbb {E}[\hat {f}(X)]-\mathbb {E}[\hat {f}(X)])=0$ 이므로 $(7.2)$ 식은 $(8)$ 식이 됩니다. $(3)$ 식과 $(8)$ 식을 정리한 결과는 다음과 같습니다.

$\mathbb {E}[(Y-\hat {Y})^2]=Bias [\hat {f}(X)]^2+Var(\hat {f}(X))+\mathbb {E}[\epsilon^2]$

$Bias [\hat {f}(X)]=(\mathbb {E}[\hat {f}(X)]-f(X))$ 인데, 우리가 예측한 모델 $\hat {f}(X)$ 이 정답 $f(X)$ 과 얼마나 차이가 있는지를 나타냅니다. 즉 정답과 가깝게 모델을 예측하면 Bias텀을 줄일 수 있을 것입니다. $Var(\hat {f}(X))=\mathbb {E}[(\hat {f}(X)-\mathbb {E}[\hat {f}(X)])^2]$ 인데 이 값은 우리가 예측한 모델의 값과 예측한 모델의 평균 간의 차이가 얼마인가를 나타냅니다. 즉 우리가 예측한 모델이 얼마만큼 넓게 분포하는 가를 나타낸다고 할 수 있습니다.

따라서 $E[(Y-\hat {Y})^2]$ 식은 우리가 알고 있던 편향과 분산의 의미를 예측모델의 관점에서 생각한 식이라고 할 수 있을 것 같습니다.

저작자표시 비영리

'Machine Learning > General' 카테고리의 다른 글

[general] EM 알고리즘 $Expectation and Maximization Algorithm$ $0$	2021.07.28
[general] 3. 과대적합, 과소적합 $Over-fitting, Under-fitting$ $1$	2021.07.11
[general] 2. 모델 학습 $How can we train a model?$ $0$	2021.07.11
[general] 1. 지도학습, 비지도학습, 자기지도 학습, 강화학습 $Supervised, Un-Supervised, Self-Supervised, Reinforcement Learning$ $0$	2021.07.11
[general] 0. 머신러닝 $Machine Learning$ $0$	2021.07.11

Minlog 공부한 것들을 기록합니다.

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 $권한 있는 경우$	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Minlog

Minlog

태그

최근글

댓글

공지사항

아카이브

'Machine Learning > General' 카테고리의 다른 글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역