6. 변분 베이즈 방법(Variational Bayes Method)

2021. 8. 3. 17:01Bayesian

728x90

이번 시간에는 사후 분포를 다룰 수 없는(intractable) 경우 사용할 수 있는 변분 베이즈 방법에 대해 알아보겠습니다.

[관련 글] 4. 사후 분포의 추정(Estimation of Posterior distribution),5-1. MCMC(Estimation of Posterior - Markov Chain Monte Carlo) - 몬테카를로 방법(Monte Carlo method),범함수(Functional)


우리는 확률 기반의 모델에서의 사후 분포를 알고자 합니다. 이는 다음과 같이 나타낼 수 있습니다.

$p(\textbf {Z}|\textbf {X})$

여기서 $\textbf {X}$는 관찰된(observed data variables) 변수이고, $\textbf {Z}$는 잠재 변수(latent variables)입니다. 이 잠재 변수는 관찰되지 않은 모든 변수들을 아울러 이르는 표현입니다.

만약 잠재 변수의 차원이 너무 크거나, 기댓값을 계산할 수 없는(not analytically tractable) 사후 분포를 가지는 경우, 위의 분포를 추정하기 어려울 수 있습니다. 

사후 분포를 추정하기 어려운 경우, MCMC(Markov Chain Monte Carlo)방법을 쓸 수 있지만, 샘플링하는 방법은 기본적으로 비용이 많이 들기 때문에, 실제 문제에 적용하기에는 무리가 있을 수 있습니다. 따라서 샘플링하는 방법보다 간단하게 사후분포를 추정할 수 있는 VI(Variational Inference) 방법을 실제 문제에서 많이 쓰는 편입니다.


통계학에서 최적화를 다룰 때, 일반적으로 생각할 수 있는 것은 우도를 최대로 만드는 것($\textrm {e.g.}~variables, functional$)을 찾는 것입니다.

미적분학 관점에서는 우도를 최대로 만드는 변수를 찾을 수 있을 것이고, 변분법적인 관점에서는 우도를 최대로 만드는 범함수를 찾을 수 있을 것입니다.

미적분학 관점에서 접근하는 방법이 최대 우도 추정법이고, 변분법적인 관점에서 접근하는 방법이 VI라고 생각하면 될 것 같습니다. 

VI의 최적화 과정을 설명하기 위해, 다음과 같이 식을 전개 해보겠습니다. 먼저, 관찰된 변수(observed variables)와 잠재 변수(latent variables)의 결합 확률분포를 정의하겠습니다.

$p(\textbf {X},\textbf {Z})=p(\textbf {Z}|\textbf {X})p(\textbf {X})$

좌변과 우변에 로그를 취하고 기댓값을 적용해주면 다음과 같이 나타낼 수 있습니다. 

$\begin {align} \textrm {ln} p(\textbf {X})=&\displaystyle \int {q(\textbf {Z})~\textrm {ln} \left \{ \frac{p(\textbf{X},\textbf{Z})}{q(\textbf{Z})}\right \} d\textbf {Z}}-\displaystyle \int{q(\textbf{Z})~\textrm{ln} \left \{ \frac{p(\textbf{Z}|\textbf{X})}{q(\textbf{Z})}\right \} d\textbf{Z}} \\ =& \mathcal {L}(q)+\textrm {KL}(q||p) \end {align}$

그림으로 나타내면 다음과 같습니다.

변수 $\textbf {X}$는 이미 관찰되었기 때문에 좌변은 상수입니다. 따라서 우리가 관심있는 결합확률분포의 우도가 포함되어 있는 $\mathcal {L}(q)$텀을 최대로 만들면서 $\textrm {KL}(q||p)$텀을 최소화하는 $q(\textbf {Z})$(Variational)를 찾는 것이 목표입니다.

이와 같이 $\textrm {KL}(q||p)$텀을 최소화하는 $q(\textbf {Z})$을 찾는 방법을 Variational Bayes라고 합니다.

$\textrm {KL}(q||p)$텀은 무조건 양수입니다. 따라서 $\textrm{ln}p(\textbf{X}) \geq \mathcal{L}(q,~\theta)$가 성립하는데, 그런 의미에서 $\mathcal{L}(q)$를 $\textrm{ln}p(\textbf{X})$의 하한(lower-bound)라고 합니다.

다시 $\textrm {KL}(q||p)$을 생각해보겠습니다. 이 텀이 가장 작은 경우는 $q(\textbf {Z})=p(\textbf{Z}|\textbf{X})$인 경우입니다. 하지만, $p(\textbf{Z}|\textbf{X})$의 값은 계산할 수 없기 때문에, $p(\textbf {Z}|\textbf {X})$와 최대한 가까운 $q(\textbf {Z})$을 찾는 것을 목표로 합니다. 이것은 베이지안이 풀고자 하는 문제(사후분포의 탐색)와도 일치합니다.