ML/Statistics

Distribution(2) - 연속확률분포(Gamma, Beta, Dirichlet)

숨니야 2018. 11. 16. 22:11

이번 포스팅에서는 앞서 다룬 이산확률분포에 이어 연속확률분포에서 익숙하지 않은 분포 세 가지에 대해 다루겠습니다.



1. 감마분포(Gamma distribution)

확률변수 X가 α번째 사건이 일어날때 까지 걸리는 시간으로 정의했을 때, 이 확률변수 X의 분포를 감마분포(Gamma distribution)라고 합니다. 이산확률분포에서도 비슷하게 1번 이상의 사건까지 소요되는 요소에 다루는 분포가 있었습니다. 바로, 음이항분포(Negative binomial distribution)인데요, 음이항분포는 k번의 success가 출현할 때까지의 (베르누이)시행 횟수에 대해 다루며, 감마분포는 α번째 사건까지 소요되는 시간에 대해 다룹니다. 우리는 감마분포의 pdf를 아래와 같이 쓸 수 있습니다.

여기서 감마 함수(Gamma function)에 대해 정의가 필요한데, 감마함수는 아래와 같이 씁니다.

그리고 이는 부분적분으로 다음과 같이 표현할 수 있고,


이는 α가 양의 정수일 경우에는 다음 과 같이 쓸 수 있습니다. 


α는 shape parameter, β는 scale parameter라고 부르는데, 이 두 parameter가 감마분포에 어떤 영향을 주는지 보기 위해 두parameter의 변화에 따른 감마분포의 그래프를 살펴보겠습니다.



순서대로 보겠습니다. β에 따른 그래프의 형태를 보기 위해 α를 3으로 고정했습니다. β가 커질수록 그래프는 더 퍼지는 형태를 띠게 됩니다. 다음은 α에 따른 그래프의 형태를 보기 위해 β를 4로 고정했습니다. α가 커질수록 bell shape에 가까운 모양이 됩니다.


 1.1 감마분포와 지수분포(Exponential distribution)

α=1일 때, λ=1/β인 지수분포를 따르게됩니다. 지수분포(Exponential distribution)는 하나의 사건이 발생할 때까지의 시간을 확률변수 X로 했을 때의 분포입니다. 이산확률분포의 기하분포가 1번의 success가 발생할 때까지의 시행횟수에 대한 분포이므로 이와 비슷한 컨셉으로 생각하시면 될 것 같네요. 즉, 감마분포는 지수분포를 일반화한 것이라고 생각할 수 있습니다.

 1.2 감마분포와 카이제곱분포(Chi-square distribution)

α=r/2이고, β=2일 때, parameter가 r인 카이제곱 분포(Chi-squre distribution)를 따르게 됩니다. 카이제곱분포는 1) 모분산을 구할 때, 2) 적합도 검정(goodness of fit) 3) 독립성/동질성 검정 등 범주형 자료분석에서 쓰이는 분포입니다.

 


2. 베타분포(Beta distribution)

베타분포(Beta distribution)는 베이지안 추론(Bayesian estimation)에서 자주 등장하는 분포입니다. 다음에 다루겠지만, 베이지안 추론은 다른 확률분포의 parameter를 추정할 때 보통 사용하는데, 해당 분포의 모수가 가질 수 있는 모든 경우의 수를 확률분포로 나타낸 것입니다. 이 때, 나타내는 분포의 형태가 베타분포의 형태를 따릅니다. sample space [0,1]에서 정의되기 때문에 보통 확률을 추정할 때 사용하는데, 대표적으로 이항분포의 성공률, p를 추정할 때 사용합니다. 베타분포의 pdf는 아래와 같습니다.



3. 디리클레분포(Dirichlet distribution)

디리클레분포(Dirichlet distribution) 역시 베이지안 추론에서 자주 쓰이는 분포입니다. 이항분포의 확장이 다항분포이듯, 디리클레분포는 베타분포의 확장이라고 할 수 있습니다. 베타분포가 [0, 1]에서의 단항확률변수에 대해 모델링 한 것이라면, 디리클레분포는 합이 1인 k차원의 다항확률변수에 대해 모델링한 것으로 생각해볼 수 있습니다. k(≥2)개의 변수 x1,..., xk와 양의 상수 α1, ..., αk에 대해 디리클레분포의 pdf는 아래와 같습니다.


Reference

[1] https://datascienceschool.net/view-notebook/e6c0d4ff9f4c403c8587c7d394bc930a/


[2] http://www.ktword.co.kr/abbr_view.php?m_temp1=4413


[3] http://issactoast.com/95


[4] http://freshrimpsushi.tistory.com/133


[5] https://datascienceschool.net/view-notebook/70a372b9c14a4e8d9d49737f0b5a3c97/


[6] https://medium.com/@kim_hjun/beta-%EB%B6%84%ED%8F%AC-728d7453dc33


[7] https://datascienceschool.net/view-notebook/e0508d3b7dd6427eba2d35e1f629d3de/