2021. 7. 28. 10:48ㆍMachine Learning/Models
이번 글에서는 기존 가우시안 혼합 모델에 이산형 잠재 변수discretelatentvariable를 추가한 형태에 대해 알아보겠습니다.
[관련 글] 가우시안 혼합 모델GaussianMixture
기본적으로 가우시안 혼합 모델은 다음과 같이 단일 가우시안 분포의 선형 결합superposition으로 나타낼 수 있습니다.
p(x)=K∑k=1πkN(x|μk, Σk)
기존의 가우시안 혼합 모델에 클래스를 나타내는 이산형 잠재 변수 zk를 도입하겠습니다. 이 변수는 하나의 값만 1이고 나머지의 값은 0으로 구성됩니다. 또한 변수 zk의 값이 1일 확률이 πk입니다. 즉, 다음과 같습니다.
p(zk=1)=πk, where K∑k=1πk=1
그러므로, 변수 x와 z의 결합 확률분포는 다음과 같이 나타낼 수 있습니다.
p(x, z)=p(z)p(x|z)
이렇게 구성된 변수 zk에 x와 동일하게 취급해주기 위해, 다음과 같이 변수를 구성합니다.
p(z)=K∏k=1πzkk
한편, z가 주어졌을 때 x의 분포를 다음과 같이 나타낼 수 있습니다.
p(x|zk=1)=N(x|μk, Σk)
p(x|z)=K∑k=1N(x|μk ,Σk)zk
변수 zk의 값이 1일 때만 분포가 존재하므로 이를 활용하여 정리하면 x의 주변 분포는 다음과 같이 나타낼 수 있습니다.
p(x)=∑zp(z)p(x|z)=K∑k=1πkN(x|μk, Σk)
그리고 베이즈 정리를 활용하여 변수 zk에 대한 사후 분포를 나타내면 다음과 같습니다.
γ(zk)≡p(zk=1|x)=p(zk=1)p(x|zk=1)K∑k=1p(zj=1)p(x|zj=1)=πkN(x|μk, Σk)K∑j=1πjN(x|μj, Σj)
위와 같이 정의된 γ(zk)를 reponsibility라고 합니다.

a 그림이 p(x, z)입니다. 샘플들이 각각 클래스에 해당하는 색깔로 나타나는 것을 알 수 있습니다. b 그림은 x의 주변 분포 p(x)입니다. z변수가 포함되어 있지 않기 때문에, 하나의 색으로 나타나는 것을 볼 수 있습니다. c 그림은 responsibility γ(zk)를 나타낸 것입니다. 데이터에 따라 어느 클래스 인지가 결정되기 때문에, 경계선에 있는 샘플 같은 경우, 색이 섞여서 나타나는 것을 볼 수 있습니다.
c 그림에서도 볼 수 있듯이, 단순한 선형 결합으로 혼합 모델을 나타내는 것보다 클래스를 나타내는 잠재 변수를 쓰는 것이 분포를 더 효과적으로 나타내는 것을 알 수 있습니다. 뿐만 아니라, 잠재 변수와의 결합 확률로 나타내면, EM 알고리즘ExpectationMaximizationalgorithm도 사용할 수 있기 때문에, 여러 이점이 있습니다.
'Machine Learning > Models' 카테고리의 다른 글
[models] 주성분 분석PrincipalComponentAnalysis 0 | 2021.08.16 |
---|---|
[models] 가우시안 혼합모델GaussianMixture 0 | 2021.07.27 |
[models] 회귀분석RegressionAnalysis과 최소자승법LeastSquareMethod 0 | 2021.07.12 |