ML/Statistics

확률변수와 확률모형

숨니야 2018. 10. 24. 17:20

통계학에서 주가 되는 확률에 대해 다루고자 합니다. 통계학을 배우면서 느낀 점은, 확률로부터 파생되는 여러 이론들로 실생활에 다가가는 학문이라는 것입니다. 주변에 일어나고 있는 여러 사건(event)들을 수학적으로 모델링하고, 이를 분석하고 설명하는 것이 통계학의 본질이라는 점에서 머신러닝도 이에 맥을 함께한다고 생각합니다.


확률

앞서 통계학은 확률로부터 파생되는 여러 이론들로 실생활에 다가가는 학문이라고 언급했습니다. 우리는 주위에서 발생하고 있는 여러 사건들이 일어나기 전에는 알 수가 없습니다. 이렇게 사건들은 근본적으로 불확실성을 내포하고 있는데, 이러한 불확실성을 표현할 수 있는 수단이 바로 확률입니다. 아래는 우리가 마주할 법한 불확실성에 대해 확률적으로 접근한 것인데요. 사실 우리가 예측하고자 하는 변수의 성격에 따라서 다른 모델을 사용하는데, 이는 추후에 다루기로 하겠습니다. 


  • 내일 하루종일 야외행사를 계획했는데 비가 올까?
  • 원자재를 구입하려하는데 이번 주에 손님들이 얼마나 올까?


이후에 확률에 대해 다루기 위해서 사용할 몇 가지 개념을 정리하고자 합니다. 가장 classic한 예제인 주사위 던지기로 이해해보겠습니다. 주사위를 던지기 전까지는 우리는 어떤 눈이 나올지 모릅니다. 이때, 주사위를 던지는 행위를 experiment, experiment의 결과를 outcome이라고 합니다. 여기서는 주사위의 눈이 outcome이 되겠습니다. 그리고 experiment로 인해 발생하는 모든 outcome들의 집합을 sample space라고 합니다. 그리고 이 sample space에서 우리가 다루고자하는, 관심갖고 다룰 outcome들만 취한 것을 event라고 합니다. 즉, event는 sample space의 부분집합이라고 할 수 있겠네요.


  • Experiment : 주사위를 던진다.
  • Outcome : 주사위의 눈 (ex. 3, 4, 6)
  • Sample space : 가능한 주사위의 모든 눈 집합 (ex. Ω = {1, 2, 3, 4, 5, 6})
  • Event : 우리가 관심있는 Sample space의 부분집합 (ex. 주사위 눈이 3이 나온다, 짝수/홀수가 나온다)


1. 확률변수


1.1  확률변수란?

확률변수는 확률로 표현하기 위한 event를 정의하는 것입니다. 어떤 것을 확률로 표현할 것인지에 대해 다양하게 정의가 가능하므로 변수라는 용어를 사용합니다. 그리고 확률이 정의된 Sample space 내에서, 이러한 확률변수를 0과 1사이의 확률로 mapping하는 함수를 확률 함수(확률 분포 함수)라고 합니다. 확률변수는 보통 다른 수학에서 다루는 미지수라고 생각하면 되고, 같은 notation인 X로 표현합니다. 개인적으로는 확률변수와 확률함수를 아래와 같이 이해하고 있습니다.

우리가 관심있는 event, X를 확률변수. 그리고 이 X를 확률로 mapping하는 P(X)를 확률 함수. 오른쪽의 확률은 event에 해당하는 sample space의 부분집합 표본개수를 sample space의 표본개수로 나눈 것입니다. 함수라는 것은 수학적으로 일대일 대응관계로 정의되므로 확률변수에 대응하는 확률도 하나여야합니다.


주사위 던지기에서 예를 들어보자. sample space, Ω = {1, 2, 3, 4, 5, 6}


  • 확률변수 X = 짝수인 눈으로 정의했습니다.                  X = {2, 4, 6} ⊂ Ω.   P(X) = 3/6 = 0.5
  • 확률변수 X = 2이하의 자연수로 정의했습니다.              X = {1, 2} ⊂ Ω.     P(X) = 2/6 = 0.3333....
  • 확률변수 X = 7이상 10미만의 자연수로 정의했습니다.    X = {7, 8, 9}  ...?

마지막 예가 조금 이상합니다. 우리는 event가 sample space의 부분집합이라고 정의했습니다. 따라서, 이 정의대로라면 마지막 예제에서 정의한 확률변수 X의 outcome들은 sample space에 존재하지 않는 값들입니다.  그래서 X = Φ 라고 표현해야 맞습니다. Φ은 모든 집합의 부분집합이니까.


1.2  이산확률변수와 연속확률변수

Sample space에서 확률변수가 취할 수 있는 값에 따라 두 가지로 나눌 수 있습니다. 첫번째는 취할 수 있는 값이 정수인 경우입니다. 앞서 다룬 주사위의 눈은 가능한 outcome들이 모두 양의 정수입니다. 이를 이산확률변수라고 부릅니다. 또 다른 경우는 실수인 경우로, 이를 연속확률변수라고 합니다. 이산형/연속형을 나누는 기준은 그래프 상에 표현했을 때의 경우에서 생각해보면 편합니다. 정의역 X가 정수라면 그래프에서 표현할 시에 특정 정수 X에서만 Y가 찍히게 되고, 이와 다르게 X가 실수 전체일 경우에는 무수히 많은 점들이 모여 선을 이루게 되는데, 말 그대로 각각 이산형과 연속형입니다.


그리고 각각의 변수 성격에 따라 확률함수를 다르게 부르는데, 이산형은 확률 질량 함수 연속형은 확률 밀도 함수라고 부릅니다. 확률함수는 해당 확률변수가 가진 확률분포를 나타냅니다. 확률분포는 말 그대로 확률변수가 나타내는 분포를 말하구요.



1.3  데이터 분석에서의 자료형

수리통계보다 발전된 데이터 분석에서는 단순한 수치만 다루지 않습니다. 예를 들면, 혈액형이나 학점 체계 등 분석할 데이터의 종류는 수치형 이외에도 다양합니다. 따라서, 자료의 형태를 다음과 같이 나눌 수도 있습니다. 


 Quantitative
(양적)

 이산형(discrete) / 연속형(continuous) - 수치형 자료(numerical)

 Qualitative
(질적)

 명목형(nominal) / 순서형(ordinal) - 범주형 자료(categorical)




2. 확률모형


2.1  확률모형이란?

앞서 확률은 불확실성을 표현하는 수단이라고 했는데, 이러한 불확실성을 확률로써 계량화하기 위해 우리가 앞서 다룬 확률함수로써 수학적으로 만든 모형이 바로 확률모형입니다. 그리고 함수에 쓰인 계수들을 모수(parameter)라고 부릅니다. 통계학에서 모수를 추정한다는 말을 많이하곤 하는데, 바로 현재 갖고 있는 데이터의 분포를 알고자하는 일이 모수를 추정하는 것입니다. 확률분포를 안다고 함은 확률분포를 나타내는 확률분포함수를 안다는 것이고, 확률분포함수를 안다는 것은 함수식을 구성하는 parameter를 안다는 것입니다. 따라서, 어떤 확률변수의 분포를 안다는 것은 매우 의미있는 정보를 얻는 것이라고 할 수 있습니다. 분포를 알면 어떤 X값이든 그 X가 발생할 확률을 얻을 수 있습니다. 그래서 모수를 추정하는 많은 방법론들을 통계학에서 연구하고 발전시켰습니다. 


2.2  통계적 추정과 표본

우리는 살면서 많은 데이터들을 마주합니다. 4차 산업혁명과 함께 빅데이터, 데이터의 중요성이 대두되었지만, 통계학은 이미 데이터의 정보를 활용하여 더 나은 가치를 발견하고 창출하는 일에 집중해왔습니다. 그래서 데이터를 모델링한 각종 분포들이 통계학에서 등장하는 이유고, 분포를 알면 편한 것이 정말 많기 때문에 분포를 추정, 모수를 추정하는 것입니다. 


우리가 마주하는 데이터는 데이터가 따르는 어떤 확률분포가 있고 이 확률분포에서 얻어진 표본(sample)이라고 생각합니다. 대한민국의 평균 남성의 키를 조사하고자 할 때, 모든 대한민국 남성의 키를 측정해서 평균을 내는 일을 할까? 아마 필요한 리소스(비용, 인력, 시간)들이 굉장히 많이 소요될 것입니다. 통계학은 제한된 리소스로 이를 가능하게 한다. 바로 앞에서 말한 추정이란 방법으로 말이죠. 전체 중의 일부만 가지고 전체를 추정합니다. 표본은 바로 그 일부를 뜻합니다. 



Reference

[1] https://datascienceschool.net/view-notebook/62be8db7c21d4fd0a7d24dee5848ad24/

[2] https://datascienceschool.net/view-notebook/56e7a25aad2a4539b3c31eb3eb787a54/

[3] http://www.ktword.co.kr/abbr_view.php?m_temp1=1635