2021. 7. 27. 11:13ㆍPreliminary/Probability
이전 글 [Bayesian Network] 1. 확률 그래프 모델,[Bayesian Network] 1-1. 확률 그래프 모델의 확장에서는 어떻게 확률분포를 확률 그래프 모델로 나타내는지에 대해 알아보았습니다.
이번 글에서는 복잡한 결합 확률분포를 간단하게 나타내어 줄 수 있고, 여러 변수 간의 종속, 독립관계를 알기 위해 필요한 조건부 독립 이란 개념에 대해 알아보겠습니다.
이번 글에서는 조건부 분포에 대한 이야기가 많이 나오기 때문에 이전 글 [Probability] 3. 결합, 조건부, 주변 확률분포Joint,Contional,MarginalProbabilityDistribution 읽고 오시면 읽을 때 도움이 될 것입니다.
직관적으로 생각했을 때, 조건부 독립이란 용어는 '어떤 조건이 주어지면, 독립이 된다'라는 의미입니다. 반대로 말하면, '어떤 조건이 주어지면, 종속이 된다'라고도 말할 수 있습니다. 그렇다면, 어떤 조건이 주어지면 독립이 되고 종속이 되는 걸까요? 이 질문을 가지신 상태에서 글을 읽으면 좋을 것 같습니다.
우선 조건부 독립의 정의부터 알아보겠습니다.
p(a|b, c)=p(a|c)
위와 같은 식은 'b와 c가 주어졌을 때, a는 b와 독립이다'라고 말합니다. 이것을 a, b 변수의 결합 확률분포에 포함시키면 다음과 같습니다.
p(a, b|c)=p(a|b, c)p(b|c)=p(a|c)p(b|c)
위와 같이 c가 주어졌을 때, 두 확률변수가 각각으로 분해되는 경우, 조건부 독립이라고 하고, 다음과 같은 기호로 나타냅니다.
a⊥⊥b | c
확률 그래프 모델을 세 가지 경우로 분류하고, 각각에 대한 조건부 독립에 대해 알아보겠습니다.
1. tail-to-tail


위와 같이 표현된 경우, c가 a,b 노드에 대해 tail-to-tail 하다고 말합니다. 두 경우에 대해 a,b,c변수의 결합 확률분포를 알아보겠습니다.
p(a, b, c)=p(a|c)p(b|c)p(c)p(a, b)=∑cp(a, b, c)p(a, b)=∑cp(a|c)p(b|c)p(c) …(1)
p(a, b|c)=p(a, b, c)p(c)=p(a|c)p(b|c)p(c)p(c)=p(a|c)p(b|c) …(2)
Figure 1. 을 나타낸 것이 (1)식이고, Figure 2. 를 나타낸 것이 (2)식이라고 하겠습니다.
(1)식의 경우, c가 관찰되지 않은 확률변수이기 때문에, a, b의 결합 분포를 구할 때 주변화marginalizing를 통해 구하게 됩니다. 그렇기 때문에 a, b는 조건부 독립이 아니고, a⧸⊥⊥b | ∅ 와 같이 나타냅니다.
한편 (2)식의 경우, c가 관찰되었기 때문에, a, b의 결합 확률분포가 각각의 분포로 분해될 수 있고, 조건부 독립이라고 할 수 있습니다.
이와 같이 어떤 확률변수$c$가 관찰되어, 두 변수a, b가 조건부 독립이 될 때, blocked이라고 표현합니다.
2. head-to-tail


이렇게 표현된 경우, c노드가 a, b에 대해 head-to-tail 하다고 말합니다. 두 경우에 대해 a,b,c변수의 결합 확률분포를 알아보겠습니다.
p(a, b, c)=p(a)p(c|a)p(b|c)p(a, b)=∑cp(a, b, c)p(a, b)=p(a)∑cp(c|a)p(b|c)=p(a)p(b|a) …(3)
p(a, b|c)=p(a, b, c)p(c)=p(a)p(c|a)p(b|c)p(c)=p(a|c)p(b|c) …(4)
Figure 3. 을 나타낸 것이 (3)식이고, Figure 4. 를 나타낸 것이 (4)식이라고 하겠습니다.
tail-to-tail의 경우와 동일하게, 중간에 매개하고 있는 확률변수가 관찰되는 경우, blocked 인 것을 알 수 있습니다.
3. head-to-head


이렇게 표현된 경우, c노드가 a, b에 대해 head-to-head 하다고 말합니다. 두 경우에 대해 a,b,c변수의 결합 확률분포를 알아보겠습니다.
p(a, b, c)=p(a)p(b)p(c|a, b)p(a, b)=∑cp(a, b, c)p(a, b)=∑cp(a)p(b)p(c|a, b)=p(a)p(b) …(5)
p(a, b|c)=p(a, b, c)p(c)=p(a)p(b)p(c|a, b)p(c)
Figure5. 을 나타낸 것이 (5)식이고, Figure6. 를 나타낸 것이 (6)식이라고 하겠습니다.
tail-to-tail, head-to-tail 경우와 다르게, 변수 c가 관찰되는 경우, not-blocked이 되는 것을 알 수 있습니다.
추가적으로 (5)식을 a⊥⊥b | ∅ 와 같이 나타내고, (6)식을 a⧸⊥⊥b | c와 같이 나타냅니다.
[Reference]
BISHOP, Christopher M. Pattern recognition. Machine learning, 2006, 128.9.
'Preliminary > Probability' 카테고리의 다른 글
[Information Theory] 범함수Functional 0 | 2021.08.03 |
---|---|
[Bayesian Network] 2-1. D-separation 0 | 2021.07.27 |
[Bayesian Network] 1-1. 확률그래프 모델의 확장 0 | 2021.07.26 |
[Bayesian Network] 1. 확률 그래프 모델 0 | 2021.07.21 |
[Probability] 8. 정규분포와 중심극한정리NormaldistributionandCentrallimittheorem 0 | 2021.07.21 |