이제서야 나이브베이즈 분류기 이론을 포스팅하게 되었다.
먼저 나이브 베이즈 정리는 다음과 같다.
먼저 P(A)는 사전확률로써 스팸 메일을 분류한다고 했을 때 스팸에 해당하는 확률이다.
현재 가지고 있는 1000개의 메일 중 30개가 스팸이라면 0.03이 된다.
P(B|A)는 A가 일어나고 B가 일어날 확률이다. 우도라고 부르며
어떤 이메일이 스팸 중에서 등장할 가능성을 계산한 것이다.
여기서 분모인 P(B)는 P(A)의 확률을 구하는 것이기에 제거하여도 상관없다.
구름 AI 수업에서는 Chain Rule에 의해서 계산하게 되는데 그 예시는 다음과 같다.
어느 자연어처리 블로그에서 가져온 예시로 보겠다.
예측하려는 텍스트를 '보험 판매 오늘 당장' 이라고 했을 시
스팸일 확률을 계산하면
0.89와 0.01은 예시
0.0178보다 0.0098 확률이 크므로 이 텍스트는 스팸 이메일이라는 것을 알 수 있다.
'자연어처리 > 개념 정리' 카테고리의 다른 글
Transformer 간단 개념 정리 (0) | 2022.09.14 |
---|---|
Attention 간단 개념 정리 2 (0) | 2022.09.13 |
Tokenization 전처리 간단 개념 정리 2 (0) | 2022.09.10 |
NLP Preprocessing(전처리) 간단 개념 정리 1 (0) | 2022.09.09 |
Attention 간단 개념 정리 (1) | 2022.09.08 |
댓글