본문 바로가기

Data Science/확률 및 통계

베르누이분포와 이항분포의관계 그리고 체비쇼프 부등식

반응형

이번 포스팅에서는 다음과 같은 내용들에 대해서 소개하려 한다.

 

  1. 체비쇼프 부등식
  2. 베르누이 분포
  3. 이항분포
  4. 기하분포의 Forgetfulness 특징

1. 체비쇼프 부등식(Chebyshev Inequality)

체비쇼프 부등식은 기본적으로는 이산확률변수(Discrete)와 연속확률변수(Continuous)한 경우 둘다 모두 성립된다.

식은 다음과 같다.

 

체비쇼프 부등식(Chevyshev Inequality)

우리가 이전 포스팅에서 다룬 Error모델을 참고해보면 예측값(추정값)과 실제값의 차이를 가장 최소화 하는 확률변수 x값E[X] 값으로 평균값이라는 것을 알게 되었다. 

 

체비쇼프 부등식은 이 평균값과 연관이 되어 있는데 일반화된 식은 그림 속 분홍색 형광펜으로 동그라미 쳐진 부분이지만 예시를 들면서 의미를 이해해보자. 

 

밑의 식을 보면 a=2시그마x 라는 분산값이 들어갔을 때 체비쇼프 부등식에 대입을 하게 되면 P( ) 값은 1/4보다 작거나 같은 결과가 된다. 이는 결국 확률변수 X를 무작위로 뽑았을 때 평균값(E[X])과 2시그마x(분산) 이상 만큼 멀어지게 될 확률은 1/4(25%)가 넘지 않는다는 것이다.

2. 베르누이 분포(Bernoulli Distribution)

 

베르누이 분포(Bernoulli Distribution)

우리는 특별한 분포로서 Discrete한 확률변수의 분포에 해당하는 베르누이 분포에 대해서 알아보자. 

베르누이 분포는 확률변수 X값이 Binary(이진값)이다. 즉 어떤 사건의 성공 확률과 실패확률 두 가지의 경우의 수만 존재하는 것이다. 그리고 이를 우리는 보통 성공과 실패의 확률변수를 각각 1과 0으로 mapping 해준다.

 

그리고 평균값인 E[X] = p, 분산값이 시그마제곱 = P(1-P)가 된다.

 

3. 이항분포(Binominal Distribution)

 

이항분포는 기본적으로 베르누이 시행과 관련되어 있다. 이항분포의 확률변수(RV)베르누이 시행의 n번 시행 중 성공(P)이 나오는 횟수를 의미한다. 밑의 그림을 보자.  해당 그림은 이항분포의 평균값(E[X])을 유도하는 과정이 있어 좀 복잡해 보인다.

 

이항분포의 확률변수와 평균값

우선 이항분포의 식은 우리가 초반에 배웠던 조합(Combination)을 이용한다. 조합이라고 빨갛게 써져 있는 부분이 바로 그 식이다. 

(조합에 대한 이론 포스팅 링크 : https://techblog-history-younghunjo1.tistory.com/37?category=888548 )

 

1) 에서 우리는 먼저 확률변수 x에대한 모든 확률의 합을 구하게 되는데 이 때 우리는 이전에 배웠던 이항정리 (a+b)의 n제곱에 대한 공식을 이용한다. 따라서 이항정리를 이용하게 되면 확률의 합은 1임을 알 수가 있다.

(이항정리 이론 포스팅 링크 : https://techblog-history-younghunjo1.tistory.com/37?category=888548 )

 

2)에서는 이제 이항분포의 평균값을 구하는 과정이다. 마찬가지로 이항정리 공식을 이용하게 된다. 해당 식의 전개 과정은 필기에 자세히 써있으므로 차근차근 읽어나가보자. 식의 전개과정을 거쳐 도출되는 이항분포의 평균값npn번시행(n)*성공확률(p)가 된다.

 

3)에서는 이제 이항분포의 분산값을 구하는 과정이다. 2)에서 평균값을 구하는 것과 마찬가지로 이항정리 공식에 x제곱을 넣어줘서 전개하면 된다. 전개과정이 상당히 복잡하므로 하나둘씩 전개해보자. 계산과정은 최대한 자세히 설명해 놓았다.

 

이항분포의 분산값

위와 같이 식을 전개해가다 보면 이항분포의 분산값 = np(1-p) 라는 값이 나오게 된다. 즉, np라는 평균값1-p라는 실패확률의 값해주면 된다.

(단, 여기서 소문자 p는 대문자 P와 똑같은 의미이며 변수입니다.)

 

4. 기하분포(Geometric Distribution)의 Forgetfulness)

이번엔 저번 포스팅에서 배웠던 기하분포에서 기하분포의 특성(Property)에 대해서 알아볼텐데 그 중 하나인 Forgetfulness에 대해 소개하려고 한다. 또 다른 이름으로 Memoryless 라고도 부른다. 먼저 기하분포의 확률변수와 평균, 분산값에 대해 다시 복습하고 넘어가자.

 

기하분포의 확률변수와 평균, 분산값

기하분포의 확률변수는 첫 번째 성공할 때가지 베르누이 시행의 횟수가 된다. 이 때 확률변수 x는 이산확률변수(Discrete)이며 1이상의 자연수가 된다. 평균(E[X])과 분산값(시그마제곱)은 위 그림과 같다.

(기하분포 이론 포스팅 링크: https://techblog-history-younghunjo1.tistory.com/42?category=888548 )

 

이제 기하분포의 특성인 Forgetfulness에 대해서 알아보자.

우선 한국어로 정의를 하자면 

  • Forgetfulness : 이전에 시행했던 모든 실패의 횟수는 이후의 성공할 확률에 영향을 주지 않는다.

이렇게 추상적으로 정의를 하면 이해를 못할 수도 있기 때문에 예시를 들어서 설명해보자. 

 

주사위의 숫자가 6이 나올 때(성공)까지 던지는 두 사람이 있다고 하자.

  • A사람 : 현재 주사위를 5번 던졌고 숫자 6이 나오지 않았다. 그리고 앞으로 5번 더 던질 예정이다.
  • B사람 : 현재 주사위를 10번 던졌고 숫자 6이 나오지 않았다. 그리고 앞으로 10번 더 던질 예정이다.

이런 상황에서 A사람, B사람 각각 앞으로 5번의 시행 중 주사위 숫자 6이 나올 확률은 얼마나 되고 누가 더 확률이 높을까?

 

→답은 앞으로 숫자 6이 나올 확률은 앞으로 1번째 시행할 때도 1/6, 2번째 시행할 때도 1/6 로 몇 번의 시행째이든 확률은 똑같다. 그리고 A사람, B사람 둘 다 앞으로 숫자 6이 나올 확률은 동일하다.

 

이렇게 한글이나 예시로 설명한 것 이외에 Forgetfulness를 수학적으로 증명해보자.

 

기하분포의 Forgetfulness

Forgetfulness 특징을 한국어로 정의한 문장을 수학적인 조건부확률 식으로 바꾸어 보면 분홍색 네모칸 두개 중 위쪽에 있는 네모칸 처럼 정의할 수 있다. 이를 위 그림과 같이 식을 전개해가면 결국 P*(1-P)의 k-1제곱이라는 아래쪽 분홍색 네모칸의 식이 나온다.

 

여기서 P*(1-P)의 k-1제곱은 바로 확률변수 X=k 일 때의 기하분포를 구할 때와 똑같아 진다. 따라서 수학적인 증명으로도 이 두개의 식(조건부확률 값 = P(X=k) 값)이 동일하기 때문에 이전의 실패는 이후의 성공확률에 영향을 주지 않는 결론을 내릴 수 있다.

 

 

 

 

반응형