본문 바로가기

Data Science/Machine Learning

[ML] 데이터 학습방법으로서 MLE, MAP

반응형

※해당 게시물에 사용된 일부 자료는 순천향대학교 빅데이터공학과 정영섭 교수님의 머신러닝 전공수업 자료에 기반하였음을 알려드립니다.

 

이번 포스팅에서는 간단한 주제를 다룰텐데, 바로 데이터들이 모델에서 학습하는 방법에 대한 내용이다. 학습방법으로서는 MLE(Maximum Likelihood Estimation)와 MAP(Maximum A Posteriori estimation)이 존재한다. 하나씩 알아보자.

 

1. MLE(Maximum Likelihood Estimation)

2. MAP(Maximum A Posteriori estimation)

 

1. MLE(Maximum Likelihood Estimation)

우선 MLE는 모델 파라미터를 Observation data(이미 관측된 데이터)에만 기반하여 추정을 하는 방법이다. 다음 수식 그림 자료를 보면서 이해해보자.

 

MLE의 수식

MLE는 기본적으로 Likelihood를 기초로 한다. Likelihood는 초반 머신러닝 포스팅에서 배웠던 베이즈 정리 관련 모델에서 나온적이 있는 조건부 확률을 뜻한다. 수식에 대한 의미는 위 필기의 내용을 천천히 읽어보도록 하자. 

 

위의 수식이 추상적으로 느껴졌다면 밑의 동전을 던져 앞면이 나오는 횟수를 확률변수로 하는 예시로 이해해보자.

 

MLE의 동전 예시

 

위에서 든 예시는 이항분포를 따르는 확률 분포이다. 가장 주목해야 할 포인트는 Likelihood 표에서 가장 최대값인 파라미터를 이용하는 것이다. 

 

따라서 우리는 위 수식에서 구한 MLE의 목적함수인 Likelihood를 세타(파라미터값)값에 관하여 편미분하여 arg max를 취하는 최적의 파라미터값을 구해주게 된다. 이 때 목적함수인 Likelihood 함수에 log을 씌워주면 최소값을 구하는 문제로 변환이 될 수 있다. 이는 우리가 Logistic Regression 시간에서 배웠었다. 바로 Logistic함수에 log를 씌워줌으로써 Cost function을 최소화 하는 문제로 변환시킬 수 있는 경우와 비슷하다.

 

하지만 MLE는 전적으로 관측데이터에 의존하므로 이상치(Outlier)에 민감한 문제가 있다.

 

2. MAP(Maximum A Posteriori estimation)

MAP 방법은 기본적으로 MLE의 한계점을 극복해주는 방법이다. MLE와의 다른 점은 수식의 차이가 있는데 밑의 그림을 보자.

 

MAP의 수식

우선 MAP는 f(θ|X) 로 정의된다는 것이다. MLE는 f(X|θ) 였다. 그렇다면 f(θ|X)는 어떻게 구해줄까? 위 그림 처럼 Bayes 정리를 이용해 MLE의 'Likelihood = f(X|θ)' 를 활용해 풀어줄 수 있다. 결과적으로 나온 수식에서 초록색으로 칠해진 부분파라미터 자체의 확률값으로 이는 우리가 '사전에 알고 있는 지식'을 이용하는 것이다. '사전에 알고 있는 지식'이라고 하면 이전에 배웠던 'Bayes 정리'에서 'Prior'에 해당하는 요소라고 생각하면 될 것 같다. 그리고 MLE와 마찬가지로 해당 목적함수를 세타값에 관하여 편미분을 해주고 최적의 파라미터값을 구해주게 된다.

 

하지만 이러한 MAP는 데이터의 양이 많아지면 사전지식(=파라미터자체확률=Prior)의 영향이 미미해진다는 연구결과가 존재한다.

반응형