공돌이는 파닥파닥
베이즈 정리를 왜 써야 하는가? 본문
학부시절 확률과 통계 시간에 베이즈 정리에 대해 배운 적이 있지만
로 적을 수 있다.
그저 조건부 확률의 앞, 뒤를 바꾸는 일이라고만 생각을 했었는데
자세히 들여다 보니 그런 것이 아니다.
다음 식에서 x는 변수, C는 분류하고자 하는 class를 뜻한다.
변수 x는 class C에 속한다고 생각하면 될 것이다.
Product Rule
위 식의 의미는 class C에 속하면서 하나의 변수값 x (single feature)를 가지는 경우의 확률을 구한 것이다.
class와 변수의 관계를 설명하기 위해서는 바구니 두개와 두 종류의 과일로 설명할 수 있다.
과일을 꺼낼 때, 붉은 상자에서 꺼낼 확률이 40%이고 파라 상자에서 꺼낼 확률이 60%라고 하자, 그러면 각 상자에서 사과를 꺼낼 확률 P(사과)가 위 식에서의 P(x)에 대응되는 것이고, P(C)는 어떤 상자가 선택될 확률을 나타내는 확률변수이다. 대응하여 다시쓰면...(굳이 다시써야하나 싶지만)
로 적을 수 있다.
다음으로 베이즈 정리를 보도록 하자.
베이즈 정리
Bayes' Theorem
요 식은 인공지능 분야의 확률 모델에서 뺴놓으면 안되는 수식이라고 한다.
쨌든... 저 식을 보면 P(C|x)를 구하고자 하는 것인데, 이것이 단순히 P(x|C)의 순서를 뒤집으려고 하는 것이 아니다. (나는 배울 때 '이런게 있다.' 하고만 넘어가서 이 수식의 의미를 알지 못했다.)
P(x|C)의 의미는, Class C에서 x가 일어날 확률을 의미한다. 즉, 빨간 바구니에서 사과를 꺼낼 확률은 1/4이다. P(x|C) = 1/4라는 뜻이다. 그러면, 내가 사과를 꺼냈는데 이것이 빨간바구니에서 나왔을 확률은 어떻게 구할 것인가? 즉, 현상이 일어났는데 이것이 어떤 class에서 일어난 사건인가(P=(C|x))를 알아내기 위해 베이즈 정리를 쓴다는 뜻이다.
(사과나 오렌지 모두 빨간 상자에서 나올 수도 있고, 파란 상자에서 나올 수 있으므로..)
막상 정리하고 나니까 당연한 소리를 어렵게 설명한것 같은데, 관측된 현상 x가 class C에서 발생헀을 확률을 구하기 위해 베이즈 정리를 쓴다.... 가 이 글의 골자.
ps. 혹시 나처럼 모르는 사람이 있을까봐서...
참고 : aistudy
'Artificial Intelligence' 카테고리의 다른 글
Reversible Jump Markov Chain Monte Carlo (1) | 2011.06.06 |
---|---|
Machine Learning - Andrew Ng. Stanford Univ. CS229 (0) | 2011.01.04 |