2021. 7. 20. 15:27ㆍPreliminary/Probability
이번 글에서는 통계적으로 많은 의미를 가지는 통계량인 기댓값과 분산의 수학적 정의를 알아보겠습니다.
확률변수가 연속형 확률변수인 경우, 기댓값은 수학적으로 다음과 같이 나타냅니다.
$\mathbb {E}(X)=\displaystyle \int^{\infty}_{-\infty} xf(x) dx$
확률변수 $X$의 pdf인 $f(X)$는 $X$의 값이 나올 확률을 의미하기 때문에, 기댓값은 확률변수의 값과 확률변수의 값이 나올 확률을 가중합 하여 계산할 수 있습니다.
한편, 확률변수가 연속형 확률변수인 경우, 분산은 수학적으로 다음과 같이 나타냅니다.
$V(X)=\displaystyle \int^{\infty}_{-\infty}(x-\mu)^2f(x) dx$
또한, 기댓값을 이용하여 분산을 계산하면 다음과 같습니다.
$V(X)=\mathbb {E}[(X-\mu)^2]=\mathbb {E}[X^2-2\mu X+\mu^2]=\mathbb {E}[X^2]-2\mu\mathbb {E}[X]+\mu^2=\mathbb {E}[X^2]-\mu^2=\mathbb {E}[X^2]-\mathbb {E}[X]^2$
확률변수 $X$의 값과 평균 $\mu$의 차이를 제곱하여 확률변수의 값이 나올 확률을 가중합 하여 계산하기 때문에, 확률변수의 값이 퍼 진정도(dispersity)를 알 수 있습니다.
우리가 어떤 확률분포를 추정하고자 할 때, 평균과 분산을 통해 대략적인 그림을 그릴 수 있을 정도로 두 통계량이 가지고 있는 정보는 많다고 할 수 있습니다.
추가적으로 기댓값은 평균과 같은 의미로 쓰이지만, 기댓값은 수학적으로 더 많은 계산을 할 수 있는 일반적인 개념이라고 할 수 있습니다.