5-2. MCMC(Estimation of Posterior - Markov Chain Monte Carlo) - 깁스샘플러(Gibbs Sampler)

2021. 7. 19. 11:45Bayesian

이번 글에서는 사후 분포를 계산할 수 없는 경우 이를 계산할 수 있는 방법인 MCMC(Markov Chain Monte Carlo) 방법 중 널리 쓰이는 깁스 샘플러(Gibbs sampler)에 대해 알아보겠습니다.

[관련 글] [Stochastic Process] 1. 확률 과정(Stochastic Process),[Stochastic Process] 2. 마르코프 체인(Markov Chain)


깁스 샘플러(Gibbs sampler)

깁스 샘플러는 다차원의 결합 확률분포가 복잡하여 직접 랜덤 표본을 생성하기 어려운 경우, 각 변수의 조건부 확률분포로부터 랜덤 표본을 반복적으로 생성하면 적절한 조건 하에서 이들의 극한 분포가 결합 확률 밀도 함수가 된다는 사실에 근거하여 난수를 샘플링하는 방법입니다.

관측치 $y=(y_1,\cdots, y_n)$와 모수 $\theta=(\theta_1,\cdots,\theta_p)$가 있다고 가정하겠습니다.

먼저 적절한 초깃값으로 $\theta^{(0)}=(\theta_1^{(0)},\cdots,\theta_p^{(0)})$을 생각하고 첫 번째 반복을 시행할 때, 다음과 같이 깁스 표본을 생성합니다.

$\theta_1^{(1)} \sim p [\theta_1|y,\theta_2^{(0)},\cdots,\theta_p^{(0)}]$

$\theta_2^{(1)} \sim p [\theta_2|y,\theta_1^{(1)},\theta_3^{(0)},\cdots,\theta_p^{(0)}]$

$\vdots$

이러한 과정을 $k$번 반복했을 때의 결과는 아래와 같이 주어집니다.

$\theta_1^{(k)} \sim p [\theta_1| \theta_2^{(k-1)},\cdots, \theta_p^{(k-1)}]$

$\vdots$

$\theta_p^{(k)} \sim p [\theta_1| \theta_1^{(k)},\cdots, \theta_{p-1}^{(k)}]$

이렇게 샘플링되는 깁스 표본들은 각각 이전 시간의 조건부 확률분포에만 영향을 받기 때문에 Markov Chain을 형성하게 되고, 깁스 표본 $\theta^G=(\theta_1^{(k)},\cdots,\theta_p^{(k)})$을 얻을 수 있습니다.

이러한 과정을 전체 $m$번 반복하면 깁스 표본 $(\theta_1^G,\cdots,\theta_m^G)$를 얻을 수 있고 이렇게 얻은 샘플들로 우리가 원하는 평균이나 분산 등의 통계량을 Monte carlo 방법을 통해 추정할 수 있습니다.