[Probability] 5. 기댓값과 분산ExpectationandVariance
2021. 7. 20. 15:27ㆍPreliminary/Probability
이번 글에서는 통계적으로 많은 의미를 가지는 통계량인 기댓값과 분산의 수학적 정의를 알아보겠습니다.
확률변수가 연속형 확률변수인 경우, 기댓값은 수학적으로 다음과 같이 나타냅니다.
E(X)=∫∞−∞xf(x)dx
확률변수 X의 pdf인 f(X)는 X의 값이 나올 확률을 의미하기 때문에, 기댓값은 확률변수의 값과 확률변수의 값이 나올 확률을 가중합 하여 계산할 수 있습니다.
한편, 확률변수가 연속형 확률변수인 경우, 분산은 수학적으로 다음과 같이 나타냅니다.
V(X)=∫∞−∞(x−μ)2f(x)dx
또한, 기댓값을 이용하여 분산을 계산하면 다음과 같습니다.
V(X)=E[(X−μ)2]=E[X2−2μX+μ2]=E[X2]−2μE[X]+μ2=E[X2]−μ2=E[X2]−E[X]2
확률변수 X의 값과 평균 μ의 차이를 제곱하여 확률변수의 값이 나올 확률을 가중합 하여 계산하기 때문에, 확률변수의 값이 퍼 진정도dispersity를 알 수 있습니다.
우리가 어떤 확률분포를 추정하고자 할 때, 평균과 분산을 통해 대략적인 그림을 그릴 수 있을 정도로 두 통계량이 가지고 있는 정보는 많다고 할 수 있습니다.
추가적으로 기댓값은 평균과 같은 의미로 쓰이지만, 기댓값은 수학적으로 더 많은 계산을 할 수 있는 일반적인 개념이라고 할 수 있습니다.