이번 포스팅에서는 기하분포와 왜 Error Model를 설계할 때 평균과 분산을 활용하는지, 그리고 조건부평균에 대해서 소개하려고 한다. 우선 기하분포부터 살펴보자.
1. 기하분포(Geometric Distribution)
기하분포의 RV(확률변수)는 어떤 사건에서 첫번째로 성공할 때까지의 시행의 횟수를 의미한다. 기하분포에 대한 확률값을 구하는 방법을 네트워크 간 데이터 송수신을 예시로 들어보겠다. t = 송신자, r = 수신자로 송신자가 수신자에게 에러 없이 제대로 데이터를 보낼 확률을 P라고 하자.
- 먼저 1번만에 송신을 성공할 확률은 P이다.
- 2번만에 송신에 성공할 확률은 (1-P)*(P)이다.
- 그러면 k번만에 송신에 성공할 확률은 바로 위의 Pk(k)의 식과 같이 나온다.
이 때, k값은 0을 포함하지 않는 1부터의 자연수이다. 이전에 다루었던 포아송분포는 특정 시간 구간이라는 범주를 두기 때문에 0이 포함되게 된다. a번 예시는 K가 5보다 큰 확률을 구하기 위해서 무한등비급수를 이용하여 구하면 된다.
b번 예시는 CDF(누적분포함수)를 뜻하기도 하며 위와 같은 식으로 구해주면 된다.
이제 기하분포의 평균값을 구해보자.
1-2. 기하분포의 평균과 분산
1. 평균
기하분포 역시 마찬가지로 이전에 우리가 계속적으로 반복해왔던 평균값을 구하는 공식과 똑같다. 위와 같이 E[K] = 의 값이 되는데 이의 정확한 값을 구하기 위해 우리는 빨간색 글씨로 무한등비급수라고 적혀있는 식을 이용하려고 한다.
무한등비급수라 적혀 있는 양 변을 P값에 대해 미분을 하면 파란색 네모칸의 식과 똑같아진다. 근데 이 때 파란색의 네모칸은 우리가 방금 구했던 E[K] = 이라적혀있는 값의 P값만 곱하면 되는 상태이다. 따라서 P값을 약분하게 되면 결국 1/P이라는 값이 나오게 된다.
2. 분산
분산을 구하기 위해서 E[K의제곱] - m제곱 이라는 식(이 식은 이전의 포스팅을 참고해주세요!)을 이용한다. 우리는 m에 해당하는 평균값(1/P)을 위에서 구해줬으니 E[K의제곱] 값을 구하면 된다. 1번에서의 E[K] = 식에서 K를 K제곱으로 대체해서 대입하면 위와 같은 식이 나오고 이를 P문자에 관해 편미분을 하게 되어 식이 전개된다. 식의 전개과정은 그림을 따라 이해해 가면 된다.
2. 평균과 분산의 활용
현실에서는 Error-Model을 이용해서 얼굴을 인식하는 문제를 해결하는 등 실제 세상에서 많이 쓰이고 있다. 우리는 이 Error Model에 대해서 알아보고 왜 평균값과 분산값을 이용하는지 알아보려고 한다.
에러 모델은 기본적으로 우리가 예측하고 추정하는 값인 표준참값에서 실제값을 빼어 제곱한 것들의 합을 최소화 하는 모델이다. 즉 이 값을 최소화 할수록 얼굴을 더 잘 인식하거나 하는 등 우리가 흔히 알고 있는 안면인식과 같은 기술을 잘 구현할 수 있는 것이다. 그리고 표준참값-실제값의 제곱값을 Energy라고 부르기도 한다.
우선 위의 그림 속의 f(x) 식이 여러개 써져 있는 부분을 보자. 각 f(x)값을 최소로 만드는 x값은 다음과 같다. 그럼으로써 n개까지 확장된다고 하면 결국 이 때 최소로 만드는 x값은 빨간색 동그라미로 쳐져 있는 평균값이 된다.
이 평균값을 잠깐 x위의 ^을 올려놓은 값으로 치환하고, 우리는 이 평균값을 f(x)에 넣었을 때 f(x)의 최소값으로 얼마가 나오는지 계산을 해보자. 파란색 네모칸안의 수식을 어디서 많이 보지 않았는가!? 바로 이전에 다루었던 분산값을 구하는 과정에서 나온 수식의 일부다. 저기에서 빠진 부분은 분모를 n으로 나누는 것만 빠진 것이다! 따라서 이 f(x)의 최소값은 분산의 값이 나오게 된다.
2-2. 중간값(Median)의 활용
우리는 위에서 소개한 것처럼 평균과 분산값을 이용할 수 있지만 만약 확률분포가 비대칭적이거나 기괴한 분포 형태를 이룰 때, 중간값을 문제의 솔루션으로 활용할 수가 있다. 다음 그림을 보자.
이번엔 절댓값 그래프를 그려가면서 최소로 만드는 x값이 무엇인지 찾아보자. 그림을 보면 알겠지만 중간값이 바로 g(x)를 최소로 만드는 값임을 알 수가 있다.
3. 조건부확률의 평균
이번엔 조건부확률일 때의 평균을 구해보자. 보통 E[X]를 구하는 식에서 조건부확률로만 바꾸고 범위를 A라는 조건이 생겼기 때문에 확률변수 xi가 A라는 하나의 Sample Space에 들어가야 하는 조건을 달면 된다.
(이것은 확률변수가 이산확률변수(Discrete)의 경우에 해당한다.)
그렇다면 연속확률변수(Continuous)일 때는 어떨까? 좀 복잡하기 때문에 공식을 먼저 선언하고 이후에 2개의 예시를 들어보자.
먼저 공식은 기존의 이산확률변수의 E[X] 값을 구하는 것과 같이 적분을 이용하지만 안에 x|A라는 조건부확률을 붙여준다. 우리는 이 조건부확률이 붙은 PDF(확률밀도함수)를 구해주기 위해서 CDF(누적분포함수)과의 관계(미-적분관계)를 이용한다. 따라서 위의 빨간색 글씨처럼 확률로, 또 조건부확률로 바꾸어준다.
3-1. 연속확률변수의 조건부평균 예시
위 그림과 같이 A라는 사건이 조건을 갖고 있다고 하자. 그리고 조건부확률인 x|A에 A를 위에서 정의해준 조건을 대입하자. 그리고 이 "fx(PDF=확률밀도함수)=CDF(누적분포함수)의 미분" 이 공식에 따라 x의 범위에 따라 구해주면 된다. 계산과정은 위 그림을 따라 이해할 수 있다.
또 하나의 예시를 들어보자. 이번엔 Uniform Distribution(연속균등분표)일 때의 경우이다.
위 그림과 같이 다양한 조건을 가지고 E[X|A]값을 구해보자. 위에서 정의해주었던 연속확률변수일 때의 조건부확률평균 구하는 방식(PDF-CDF 미적분 관계)을 이용해서 대입해주고 x의 범위에 따라 적분의 구간범위를 지정해준다.
사실 적분의 연산을 이용해도 되지만 연속균등분포의 특성상 직관적으로 알아볼 수 있기 때문에 간단한 계산으로 빨간색 글씨와 같이 쉽게 구해볼 수 있다.
'Data Science > 확률 및 통계' 카테고리의 다른 글
지수분포(Exponential)와 어랑분포(Erlang) (0) | 2020.03.20 |
---|---|
베르누이분포와 이항분포의관계 그리고 체비쇼프 부등식 (0) | 2020.03.19 |
평균과 분산 그리고 포아송분포와 지수분포 (2) | 2020.03.17 |
연속확률변수와 확률밀도함수 (0) | 2020.03.16 |
확률변수(RV)와 누적분포함수(CDF) (0) | 2020.03.15 |