나이브 베이즈( Naive Bayes ) 알고리즘에 대해서 이야기 하기 전에 베이즈 정리에 대해서 먼저 이야기 해 보자.
베이즈 정리( Bayes’ theorem )란 조건부 확률을 이용하여 또 다른 형태의 조건부 확률을 계산하는 방법을 설명하고 있는 정리이다. 조건부 확률은 다음과 같다.
조건부 확률
어떤 사건 B가 발생한 상태에서(조건 하에) 사건 A가 일어날 확률을 의미한다. 사건 A가 발생할 확률은 사건 B의 영향을 받아 변하는데 이를 조건부 확률이라 한다.

위와 같이 표기하고 영어로는 "The probability of A given B"라고 말한다.
좀 더 이해가 쉽게 그림으로 표현하자면 아래와 같다.

예를 들어 4개의 흰색 돌과 5개의 검은색 돌이 아래 그림과 같이 각각 A, B 박스에 들어 있다고 할 때 B박스에서 돌을 꺼냈을 때 흰색 돌을 꺼낼 확률은?

베이즈 정리( Bayes’ theorem )
기본적인 용어 부터 알아 보자.
-
사전 확률( prior probability )
- 관측을 통해 이미 알고 있는 확률. P(A1), P(A2), …, P(An)
-
우도( likelihood probability )
- 이미 알고 있는 사건이 발생했다는 전제 조건하에 다른 사건이 발생할 확률. P(B | A1), P(B | A2), … , P(B | An)
-
사후 확률( posterior probability )
- 사전 확률과 우도를 통해서 알게 되는 조건부 확률. P(A1 | B)

용어에 너무 신경 쓰지 말자. 용어에 매몰되면 이해가 잘 안된다. 그림으로 베이즈 정리를 정리해 보자.
표본공간 S는 서로 소인 A1, A2, …, An 의 합집합이라고 하면 아래와 같다.

위 그림을 수식으로 표현하면

결과적으로, 아래와 같이 정리 된다.

그리고, 우리가 찾고자 하는 사후 확률은 사전 확률을 통해서 구할 수 있다.

베이즈 정리는 이렇다. 그렇다면 예를 들어 다시 한번 생각해 보자.
10,000명중에 2%정도만이 걸리는 코로나 검사 중이며 95%의 검사 정확도라고 할때 검사 결과가 양성이라면 정말 코로나에 걸렸을 확률은? 95%일까? 베이즈 정리는 그렇지 않다는 것을 보여준다.
검사 결과 양성 인 경우 코로나일 확률을 조건부 확률로 표현하면 P(코로나|양성) 이다.
sol 1)
10,000명중에 2%정도 발병하는 즉, 발병률이 2/10000( 0.02% ).
P(코로나) : 코로나에 걸릴 확률 = 0.02
검사 정확도는 95%임으로
P(양성|코로나) : 코로나에 걸렸을 때 양성 판정 확률 = 0.95
양성으로 판정 될 확률은 검사가 정상적일때와 오류가 발생할 때 두가지 경우이다. 즉,
P(양성) : 양성 판정 확률 = 0.95*0.02 + 0.05*0.98
그렇다면 검사 결과 양성인 경우 코로나일 확률, P(코로나|양성)는?
P(코로나|양성) = P(양성|코로나)*P(코로나) / P(양성)
즉, 0.95*0.02 / (0.95*0.02 + 0.05*0.98) = 0.2794…
약 0.2794... 이다.
sol 2)
P(코로나|양성) = P(코로나∩양성)/P(양성) = 190 / (190+490) = 0.2794…

sol 3)
P(코로나|양성) = P(코로나∩양성)/P(양성) = 190 / (190+490) = 0.2794…

'머신러닝(ML)' 카테고리의 다른 글
| 나이브 베이즈 분류( Naive Bayes Classification)란... (0) | 2020.07.09 |
|---|---|
| 두 점 사이의 거리 공식 (0) | 2020.07.09 |
| 랜덤 포레스트( Random Forest )란... (0) | 2020.07.09 |
| 의사결정 나무(Decision Tree)란... (0) | 2020.07.09 |
| 서포트 벡터 머신( Support Vector Machine ) 이란... (0) | 2020.07.09 |