4. 사후분포의 추정(Estimation of Posterior distribution)

2021. 7. 14. 10:56Bayesian

728x90

이전 글에서는 공액사전분포에 대해 알아보았습니다. 공액사전분포, 무정보적 사전분포, 제프리 사전분포 등을 사용하는 이유는 사후분포를 쉽게 다룰 수 있는(tractable) 분포로 나타내기 위함입니다. 이번 글에서는 사후분포가 계산이 불가능(Intractable)한 경우를 살펴보고, 이를 계산할 수 있는 방법들에 대해 알아보겠습니다.


관측값 $y=(y_1,\dots,y_n)$과 모수 $\theta$가 주어졌을 때, 사후분포는 다음과 같습니다.

$p(\theta|y)=\frac{p(y|\theta)\pi(\theta)}{p(y)}=\frac{p(y|\theta)\pi(\theta)}{\int{p(y|\theta)\pi(\theta)d\theta}}$

사후분포를 계산할 때, 발생할 수 있는 문제점은 두 가지 입니다.

첫 번째는 분자 텀이 특정 분포족에 속하지 않아 사후분포를 모델링 할 수 없는 경우 입니다. 이와 같은 경우를 방지하기 위해 이전 글에서 설명한 공액사전분포 등의 잘 알려진 분포를 씁니다. 하지만, 이와 같은 분포들은 실제 자료를 모델링하지 못하는 경우도 있기 때문에, 실제적인 문제에서 선호되는 방법은 아닙니다.

두 번째는 분모의 적분텀을 계산할 수 없는 경우 입니다. 적분을 모든 $\theta$에 대해 수행해야 하는데, $\theta$의 차원이 큰 네트워크나 신경망의 경우, 적분을 계산할 수 없고, 계산할 수 있더라도 굉장히 많은 시간이 소요됩니다.


이 문제를 해결하기 위해 제안된 방법은 2가지 입니다.

하나는 MCMC(Markov Chain Monte Carlo)방법이고, 하나는 VI(Variational Inference)방법입니다.

두 방법 모두 설명이 길어 다음글에서 나누어 설명을 하도록 하겠습니다.