본문 바로가기

Artificial Intelligence/Machine Learning

machine learning을 위한 확률과 통계

machine learning을 위한 확률과 통계

1. 편향(Bias) - 분산(Variance) Tradeoff

편향(Bias) : 정답에 가까운 정도를 나타내는 값입니다.

분산(Variance) : 예측값들이 정답에 얼마나 모여있는가를 나타낸 값입니다.

 

 

이를 통해 Bias와 Variance간에는 Trade-off가 존재한다는 것을 알 수 있습니다.

 

2. 확률변수– 이산(이항분포, 포아송분포) 및 연속(정규분포)

이항 분포(二項分布)는 연속된 n번의 독립적 시행에서 각 시행이 확률 p를 가질 때의 이산 확률 분포입니다. 이러한 시행은 베르누이 시행이라고 불리기도 한다. 사실, n=1일 때 이항 분포는 베르누이 분포입니다.

 

푸아송 분포(Poisson分布, 영어: Poisson distribution)는 확률론에서 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 표현하는 이산 확률 분포입니다.

 

3. 빈도주의자 확률 vs. 베이지안 확률 - 베이즈 정리(Bayes’ Theorem)

  • 빈도주의 확률: 기존의 확률 이론은 사건의 빈도 수를 분석 하기 위해 발전해왔습니다. 예를 들어 동전 던지기나 카드 뽑기와 같은 시행에서, 어떤 사건이 발생할 확률이라고 하는 것은, 그 시행을 무한히 반복했을 때의 비율로 사건이 발생한다는 것을 뜻합니다.

  • 베이지안 확률: 하지만 이런 예는 반복되는 사건이 아니라면 적용하기 어렵습니다. 만일의 사가 환자에게 감기가 걸릴 확률이 40%라고 한다면, 이건 좀 다른 의미를 가집니다. 생물적으로 같은 환자를 무한히 반복하는 것은 말이 안되기 때문입니다. 또한 동전, 카드와 달리 변수들이 굉장히 많죠. 이런 경우에는 믿음의 정도를 나타내기 위해 확률을 사용합니다. 이는 실험적으로 베이즈 정리(Bayes‘ Theorem)를 이용해 구할 수 있습니다.

 

4. 결합, 주변, 조건부 확률분포

두 개 이상의 확률 변수가 서로 관계를 가지며 존재하는 경우를 생각해 봅시다. 예를 들어 학교에 있는 학생의 키와 몸무게를 측정하는 경우 한 명의 학생 ω에 대해 두 개의 자료 (x,y)가 한 쌍으로 나오게 됩니다. 이렇게 취득한 자료를 확률 변수 X 와 Y로 볼 때, 이들의 확률 분포를 한번에 묘사하기 위한 확률 분포를 **결합 확률 분포(joint probability distribution)**라고 합니다.

 

 

5. 최대우도추정(MLE) vs. 최대사후확률추정(MAP)

Maximum Likelihood Estimation (MLE)

MLE는 random variable의 parameter를 estimate하는 방법 중 하나인데, 오직 주어진 Observation, 혹은 데이터들만을 토대로 parameter estimation을 하는 방법입니다. 가장 간단한 예를 들어보자. 만약 우리가 p의 확률로 앞면이 나오고 (1−p)의 확률로 뒷면이 나오는 동전을 던져서 p를 예측한다고 생각해봅시다.

MLE로 p를 계산하기 위해서는 간단하게 앞면이 나온 횟수를 전체 횟수로 나누면 됩니다.

MLE는 가장 간단한 parameter estimation method이지만, observation에 따라 그 값이 너무 민감하게 변한다는 단점을 가지고 있습니다. 다시 동전 던지기를 예로 들어봅시다. 동전 던지기는 확률 과정이기 때문에 극단적인 경우로 n번을 던져서 앞면이 n번이 나올 수가 있습니다. 이 경우 MLE는 이 동전은 앞면만 나오는 동전이라고 판단해버립니다. 만약 스팸필터를 만드는데 연속으로 스팸이 아닌 메일이 n개가 들어왔다고해서 모든 메일이 스팸이 아니라고 할 수 없다는 단점이 있습니다.

 

 

Maximum a Posteriori Estimation (MAP)

MLE의 단점을 해결하기 위해 Maximum a Posteriori Estimation(MAP)이라는 방법을 사용하기도 합니다. 이 방법은 θ가 주어지고, 그 θ에 대한 데이터들의 확률을 최대화하는 것이 아니라, 주어진 데이터에 대해 최대 확률을 가지는 θ를 찾습니다. 수식으로 표현하면 다음과 같습니다.