[Bayesian Network] 2. 조건부 독립(Conditional Independence)

2021. 7. 27. 11:13Preliminary/Probability

728x90

이전 글 [Bayesian Network] 1. 확률 그래프 모델,[Bayesian Network] 1-1. 확률 그래프 모델의 확장에서는 어떻게 확률분포를 확률 그래프 모델로 나타내는지에 대해 알아보았습니다.

이번 글에서는 복잡한 결합 확률분포를 간단하게 나타내어 줄 수 있고, 여러 변수 간의 종속, 독립관계를 알기 위해 필요한 조건부 독립 이란 개념에 대해 알아보겠습니다.

이번 글에서는 조건부 분포에 대한 이야기가 많이 나오기 때문에 이전 글 [Probability] 3. 결합, 조건부, 주변 확률분포(Joint, Contional, Marginal Probability Distribution)  읽고 오시면 읽을 때 도움이 될 것입니다.


직관적으로 생각했을 때, 조건부 독립이란 용어는 '어떤 조건이 주어지면, 독립이 된다'라는 의미입니다. 반대로 말하면, '어떤 조건이 주어지면, 종속이 된다'라고도 말할 수 있습니다. 그렇다면, 어떤 조건이 주어지면 독립이 되고 종속이 되는 걸까요? 이 질문을 가지신 상태에서 글을 읽으면 좋을 것 같습니다.

우선 조건부 독립의 정의부터 알아보겠습니다.

$p(a|b,~c)=p(a|c)$

위와 같은 식은 '$b$와 $c$가 주어졌을 때, $a$는 $b$와 독립이다'라고 말합니다. 이것을 $a$, $b$ 변수의 결합 확률분포에 포함시키면 다음과 같습니다.

$\begin{align} p(a,~b|c) &=p(a|b,~c) p(b|c)  \\ &=p(a|c) p(b|c) \end{align}$

위와 같이 $c$가 주어졌을 때, 두 확률변수가 각각으로 분해되는 경우, 조건부 독립이라고 하고, 다음과 같은 기호로 나타냅니다.

$a \perp \!\!\! \perp b ~|~ c$


확률 그래프 모델을 세 가지 경우로 분류하고, 각각에 대한 조건부 독립에 대해 알아보겠습니다.

1. tail-to-tail

Figure 1.
Figure 2.

위와 같이 표현된 경우, $c$가 $a$,$b$ 노드에 대해 tail-to-tail 하다고 말합니다. 두 경우에 대해 $a$,$b$,$c$변수의 결합 확률분포를 알아보겠습니다.

$\begin{align} &p(a,~b,~c)=p(a|c) p(b|c) p(c) \\ &p(a,~b)=\displaystyle \sum_{c}{p(a,~b,~c)} \\ &p(a,~b)=\displaystyle \sum_{c}{p(a|c) p(b|c) p(c)}~~~~\dots (1) \\ & \end{align}$

$\begin{align} p(a,~b|c) &=\frac {p(a,~b,~c)}{p(c)} \\ &=\frac {p(a|c) p(b|c) p(c)}{p(c)} \\ &=p(a|c) p(b|c)~~~~\dots (2) \end{align} $

Figure 1. 을 나타낸 것이 $(1)$식이고, Figure 2. 를 나타낸 것이 $(2)$식이라고 하겠습니다.

$(1)$식의 경우, $c$가 관찰되지 않은 확률변수이기 때문에, $a$, $b$의 결합 분포를 구할 때 주변화(marginalizing)를 통해 구하게 됩니다. 그렇기 때문에 $a$, $b$는 조건부 독립이 아니고, $ a \not \! \perp \!\!\! \perp b~|~\emptyset$ 와 같이 나타냅니다.

한편 $(2)$식의 경우, $c$가 관찰되었기 때문에, $a$, $b$의 결합 확률분포가 각각의 분포로 분해될 수 있고, 조건부 독립이라고 할 수 있습니다. 

이와 같이 어떤 확률변수($c$)가 관찰되어, 두 변수$a$, $b$가 조건부 독립이 될 때, blocked이라고 표현합니다.


2. head-to-tail

Figure 3.
Figure 4.

이렇게 표현된 경우, $c$노드가 $a$, $b$에 대해 head-to-tail 하다고 말합니다. 두 경우에 대해 $a$,$b$,$c$변수의 결합 확률분포를 알아보겠습니다.

$\begin{align} &p(a,~b,~c)=p(a) p(c|a) p(b|c) \\ &p(a,~b)=\displaystyle \sum_{c}{p(a,~b,~c)} \\ &p(a,~b)=p(a)\displaystyle \sum_{c}{p(c|a) p(b|c)}=p(a) p(b|a)~~~~\dots (3) \end{align}$

 

$\begin{align} p(a,~b|c) &=\frac {p(a,~b,~c)}{p(c)} \\ &=\frac {p(a) p(c|a) p(b|c)}{p(c)} \\ &=p(a|c) p(b|c)~~~~\dots (4) \end{align}$

Figure 3. 을 나타낸 것이 $(3)$식이고, Figure 4. 를 나타낸 것이 $(4)$식이라고 하겠습니다.

tail-to-tail의 경우와 동일하게, 중간에 매개하고 있는 확률변수가 관찰되는 경우, blocked 인 것을 알 수 있습니다.


3. head-to-head

Figure 5.
Figure 6.

이렇게 표현된 경우, $c$노드가 $a$, $b$에 대해 head-to-head 하다고 말합니다. 두 경우에 대해 $a$,$b$,$c$변수의 결합 확률분포를 알아보겠습니다.

$\begin{align} &p(a,~b,~c)=p(a) p(b) p(c|a,~b) \\ &p(a,~b)=\displaystyle \sum_{c}{p(a,~b,~c)} \\ &p(a,~b)=\displaystyle \sum_{c}{p(a) p(b) p(c|a,~b)}=p(a) p(b)~~~~\dots (5) \end{align}$

 

$\begin{align} p(a,~b|c) &=\frac {p(a,~b,~c)}{p(c)} \\ &=\frac {p(a) p(b) p(c|a,~b)}{p(c)} \end{align}$

Figure5. 을 나타낸 것이 $(5)$식이고, Figure6. 를 나타낸 것이 $(6)$식이라고 하겠습니다.

tail-to-tail, head-to-tail 경우와 다르게, 변수 $c$가 관찰되는 경우, not-blocked이 되는 것을 알 수 있습니다.

추가적으로 $(5)$식을 $ a \perp \!\!\! \perp b~|~\emptyset$ 와 같이 나타내고, $(6)$식을 $ a \not \! \perp \!\!\! \perp b~|~c$와 같이 나타냅니다.

[Reference]

BISHOP, Christopher M. Pattern recognition. Machine learning, 2006, 128.9.