본문 바로가기

ML

베이지안 추론(1) - 이론 개인적으로는 통계의 본질은 실제 세계의 문제를 확률분포로써 수학적으로 모델링하고, 가정한 분포의 parameter를─error를 컨트롤하면서 이를 최소화하며─추정하는 학문이라고 생각합니다. 따라서, 통계학에서 근간이 되는 것은 '확률'이라고 할 수 있습니다(그래서 이 카테고리의 첫번째 장에서 확률변수와 확률분포를 가장 먼저 다룬 것도 있습니다). 통계학에서는 이렇게 가장 기본적인 '확률'을 바라보는 두 관점이 있습니다. 바로 빈도론(Frequentism)과 베이지안(Bayesianism)입니다. 이번 포스팅에서는 이 중에서 베이즈 정리에 입각한 베이지안 추론(Bayesian inference)에 대해 다루겠습니다. Frequentism vs Bayesianism 빈도론과 베이지안이 확률을 바라보는 관점이..
Distribution(2) - 연속확률분포(Gamma, Beta, Dirichlet) 이번 포스팅에서는 앞서 다룬 이산확률분포에 이어 연속확률분포에서 익숙하지 않은 분포 세 가지에 대해 다루겠습니다. 1. 감마분포(Gamma distribution)확률변수 X가 α번째 사건이 일어날때 까지 걸리는 시간으로 정의했을 때, 이 확률변수 X의 분포를 감마분포(Gamma distribution)라고 합니다. 이산확률분포에서도 비슷하게 1번 이상의 사건까지 소요되는 요소에 다루는 분포가 있었습니다. 바로, 음이항분포(Negative binomial distribution)인데요, 음이항분포는 k번의 success가 출현할 때까지의 (베르누이)시행 횟수에 대해 다루며, 감마분포는 α번째 사건까지 소요되는 시간에 대해 다룹니다. 우리는 감마분포의 pdf를 아래와 같이 쓸 수 있습니다. 여기서 감마 함..
Distribution(1) - 이산확률분포(Binomial, Multinomial, Geometric, Negative Binomial) 앞선 포스팅에서 확률변수와 확률모형에 대해 다루었습니다. 확률분포란, 어떤 확률변수 x가 가지는 확률을 수학적으로 모델링한 것입니다. 이때, 확률변수가 이산형이냐, 연속형이냐에 따라 종류가 다릅니다. 그리고 분포를 모델링하는 함수를 확률분포함수라고 하며 각각을 pmf(probability mass function), pdf(probability density function)라고 부릅니다. 이항분포, 정규분포, 포아송분포, 카이제곱 분포 등 많은 분포들이 존재하며 통계를 공부하면서 익숙한 분포들이 많습니다. 이번 포스팅 시리즈는 익숙하지 않은 분포들에 대해 어떤 확률변수를 모델링한 분포인지 숙지하는 것을 목적으로 합니다. 이산형과 연속형으로 나누어서 각각 포스팅하겠습니다. 1. 이항분포(Binomial ..
분류성능평가지표 - Precision(정밀도), Recall(재현율) and Accuracy(정확도) 기계학습에서 모델이나 패턴의 분류 성능 평가에 사용되는 지표들을 다루겠습니다. 어느 모델이든 간에 발전을 위한 feedback은 현재 모델의 performance를 올바르게 평가하는 것에서부터 시작합니다. 모델이 평가해야하는 요소와 그 것을 수치화한 지표들, 그리고 관련 개념들에 대해서 다루도록 하겠습니다. 모델의 분류와 정답 모델을 평가하는 요소는 결국, 모델이 내놓은 답과 실제 정답의 관계로써 정의를 내릴 수 있습니다. 정답이 True와 False로 나누어져있고, 분류 모델 또한 True False의 답을 내놓습니다. 그렇게 하면, 아래와 같이 2x2 matrix로 case를 나누어볼 수 있겠네요. 이제 각 case별로 살펴보겠습니다. True Positive(TP) : 실제 True인 정답을 Tru..
확률변수와 확률모형 통계학에서 주가 되는 확률에 대해 다루고자 합니다. 통계학을 배우면서 느낀 점은, 확률로부터 파생되는 여러 이론들로 실생활에 다가가는 학문이라는 것입니다. 주변에 일어나고 있는 여러 사건(event)들을 수학적으로 모델링하고, 이를 분석하고 설명하는 것이 통계학의 본질이라는 점에서 머신러닝도 이에 맥을 함께한다고 생각합니다. 확률앞서 통계학은 확률로부터 파생되는 여러 이론들로 실생활에 다가가는 학문이라고 언급했습니다. 우리는 주위에서 발생하고 있는 여러 사건들이 일어나기 전에는 알 수가 없습니다. 이렇게 사건들은 근본적으로 불확실성을 내포하고 있는데, 이러한 불확실성을 표현할 수 있는 수단이 바로 확률입니다. 아래는 우리가 마주할 법한 불확실성에 대해 확률적으로 접근한 것인데요. 사실 우리가 예측하고자 ..
[Statistics] Prologue Motivation 머신러닝을 공부하면서 이전에 배웠던 통계의 기본 개념들을 정리하고자 합니다. 통계학(넓게는 수학)에서의 개념은 함수나 수식이 절반 이상을 차지할 정도로 비중이 큰데요. 이것들은 단지 계산과 표현을 간단하게 위해 사용하는 표현의 수단일뿐이지, 이를 사람의 언어로 알기 쉽게 표현하는 것은 생각보다 쉽지 않습니다. 어느 분야에서든 마찬가지겠지만, 배운 것을 말로 설명할 수 있는 능력을 갖추는 것이 머신러닝, 데이터 사이언스를 업으로 삼고자 하는 통계학도들에게는 매우 중요한 능력이자 경쟁력이라고 생각합니다. 그래서, 기본기부터 제대로 익히고자 합니다. 머신러닝에 쓰이는 관련 분야의 이론들을 포스팅하고 의견을 나누고 싶네요 :)