TechY's blog
Always think Tech and Y

최대 사후 확률(Maximum a Posteriori Estimation)

|

본 포스팅은 카이스트 문일철 교수님의 강좌를 바탕으로 만들어졌습니다. 이미지 자료는 모두 문일철 교수님의 강좌 노트에서 첨부한 것입니다. 문제 시 바로 내리겠습니다.

본 포스팅은 단순히 개인 공부 정리 용도이며, 저자는 배경 지식이 많이 부족한 이유로, 최선을 다하겠지만 분명히 완벽하지 않거나, 틀린 부분이 있을 수 있습니다. 계속해서 수정해나가도록 하겠습니다.

저번 포스팅에서 어떠한 모수가 주어졌을 때, 우리가 가설로 정한 확률 분포의 확률값을 극대화시키는 모수를 찾는 MLE 에 대해서 알아보았는데요. 이번 포스팅에서는 MLE와 유사하지만, 결코 다른 모수 추정방법인 MAP : Maximum a Posteriori Estimation 에 대해서 알아보도록 하겠습니다.

Incorporating Prior Knowledge

  • MLE의 최종 모수 θ를 구하는 방식은 아래와 같았습니다. 즉, 5번 던졌는데 1번 앞면이 나오면 binomial distribution의 모수가 0.2가 되는 것이였죠. 물론, 시행 횟수를 늘리면서 error bound를 줄이면 이 measure는 변할 것으로 예상되지만, 정확한 값을 예측해야 하는 모수 추정에서 fair 한 동전의 확률이 0.5가 나온다는 우리의 사전 지식을 가미할 방법이 있지 없을까요?!

Bayes Theorem

베이즈 정리는 우리가 사전 확률에 대한 정보가 있을 때, 이를 통해서 사후 확률을 이끌어내는 것입니다. 우도인 likelihood 는 어떠한 모수가 주어졌을 때, 확률로써, 가설(hyphothesis)로 binomial distribution을 세웠을 경우, 그에 대한 pdf 가 됩니다. 사전 확률 p(θ) 은 우리가 위에서 언급했던, fair 동전의 사전 확률은 0.5가 될 것이다 의 부분이 됩니다. 이를 통해서, P(θ|D) 확률이 주어졌을 때, 그에 따른 모수 θ를 구할 수 있게 되는 것입니다.

베이즈 정리에 대한 의미로는, 우리의 시행(동전을 던지는)에 사전 확률(fair coin toss에 대한)의 정보를 병합(merge)해주는 것입니다.

More Formula from Bayes Viewpoint

사전 확률 P(θ)에 대한 정보를 추가해주는 만큼, 사전 확률에 대한 올바른 정의(well-defined)가 굉장히 중요합니다. 베이즈 정리에 따르면, 이러한 사전 확률 분포에 대한 정의를 편리하게 해주는 분포가 존재합니다. 이를 베이지안 모수 분포라고 하며, 켤레 사전 확률 분포(conjugate prior distribution) 이라고도 합니다. 이에 대해서는 다른 포스팅에서 다룬 바가 있으니 참고바랍니다.

Beta distribution
Dirichlet distribution
Gamma distribution

동전 던지기의 사례에서 저희는 확률 분포로 binomial distribution을 가정하였고, 동전 던지기의 사건은 앞면, 뒷면(H,T) 두 가지 케이스(K=2) 만 존재하기 때문에, Beta Distribution을 따르게 됩니다.

베타 분포로부터 구한 사전 확률(prior probability)를 베이즈 공식에 대입하면, P(θ|D) 즉, 가설 내에서 정한 분포에 따른 모수의 확률이 나오게 됩니다.

MLE에서는 모수가 주어지고 분포의 확률을 최대화하는 최적화(optimization)을 거쳤습니다. MAP에서는 추가적인 정보 사전 확률을 병합하여 (merging the prior) 분포에 따른 모수의 확률을 알게 되었고, 이를 최대화하는 모수 θ를 찾는 문제로 바뀌게 되었습니다.

결국 최적화(Optimization)의 문제로써, MLE와 같이 θ로 미분하여 최적값 θ_hat을 구하게 되면,

위와 같은 결과가 나옵니다. 베타 분포를 적용함에 따라 MLE와는 유사하지만 다른 값이 나온 것을 알 수 있습니다.

Conclusion from Anecdote

  • 베타 모수 분포의 파라미터 지정이 MAP에 대한 추정의 정확도에 큰 영향을 끼칩니다.
  • 관측의 수(N)가 커지게 되면, MLE의 error bound가 줄어들고, 이에 따라 MLE와 MAP가 같게 수렴합니다.

Comments