2. 베이지안 추론의 예시

2021. 7. 13. 13:40Bayesian

728x90

베이지안 관점에서 쓰이는 확률에 대한 개념은 ([Probability] 4. 전확률 공식과 베이즈 정리(law of total probability and Bayes Thm))을 참고해주시면 감사하겠습니다.

이번 글에서는 베이지안 관점을 이용한 추론의 예시를 들어보겠습니다.


인간은 부모로부터 각각 한 개씩의 성염색체를 유전으로 받게 되는데, 남성은 하나의 X염색체와 하나의Y염색체, 여성은 두 개의 X염색체를 가집니다. 혈우병은 X염색체에 나타나는 열성유전자 입니다. 그러므로 남성이 혈우병 유전자를 가지고 있으면, 혈우병에 걸리게 되고, 여성이 혈우병 유전자를 가지고 있으면 보인자가 됩니다. 

이제 혈우병에 걸린 남자 형제가 있고, 여성의 아버지는 혈우병이 아닌 여성의 경우를 생각해봅시다. 그렇다면, 여성의 어머니는 보인자이고, 여성이 혈우병 유전자를 가지고 있을 확률(사전확률)은 $\frac{1}{2}$입니다. 즉, 이 여성이 혈우병 유전자를 가지고 있을 때 $\theta=1$, 가지고 있지 않을 때, $\theta=0$이라고 하면, $P(\theta=1)=P(\theta=0)=\frac{1}{2}$입니다.

이 사전확률을 조정하기 위해 사용되는 자료는 그녀 아들의 질병 여부 입니다. 그녀에게는 두 명의 아들이 있는데, 두 명 다 혈우병에 걸리지 않았다고 합니다. 그녀의 아들이 병에 걸렸는지 아닌지에 따라 각각 $y_i=1$ 또는 $y_i=0$의 값을 갖고, 두 아들이 혈우병에 걸리는 사건은 독립이라고 가정하면, 다음과 같이 우도함수를 구성할 수 있습니다. 여기서 $y=(y_1,~y_2)$입니다.

$P(y_1=0,~y_2=0|\theta=1)=P(y_1=0|\theta=1)*P(y_2=0|\theta=1)=(0.5)*(0.5)=0.25$

$P(y_1=0,~y_2=0|\theta=0)=P(y_1=0|\theta=0)*P(y_2=0|\theta=0)=(1)*(1)=1$

우리의 관심은 여성이 혈우병 유전자를 가지고 있는 경우이므로 이에 대한 사후확률은 다음과 같습니다.

$P(\theta=1|y)=\frac{P(y|\theta=1)P(\theta=1)}{P(y|\theta=1)P(\theta=1)+P(y|\theta=0)P(\theta=0)}\\ ~~~~~~~~~~~~~~~~~~~~~=\frac{(0.25)(0.5)}{(0.25)(0.5)+(1)(0.5)}=\frac{0.125}{0.625}=0.2$


만약 여성에게 병에 걸리지 않은 아들이 세 명이라면 새로운 사전분포로 이전의 사후분포를 사용하여 다음과 같은 결과를 얻을 수 있습니다. 

$P(\theta=1|y,~y_3)=\frac{P(y_3|\theta=1)P(\theta=1|y)}{P(y_3|\theta=1)P(\theta=1|y)+P(y_3|\theta=0)P(\theta=0|y)}=\frac{(0.5)(0.2)}{(0.5)(0.2)+(1)(0.8)}=\frac{1}{9}=0.1111$

즉, 혈우병에 걸리지 않은 아들이 늘어날수록 여자가 혈우병 보인자일 확률이 줄어든다고 볼 수 있습니다.

위의 예시에서 볼 수 있듯이, 새로운 데이터가 추가되면 그것을 이용하여 기존의 결과를 갱신할 수 있다는 것이 베이지안 관점의 장점이라고 할 수 있습니다.