저번 포스팅에서는 연속확률변수의 합과 컨볼루션에 대해 다루었다. 기존에 예고했던 것과 같이 이번 포스팅에서는 이산확률변수의 합을 구하기 위해 컨볼루션을 이용하는 것에 대해 알아보겠다. 또한 각 독립적인 이항분포, 포아송분포의 합과 컨볼루션에 대해 다루려고 한다. 목차는 다음과 같다.
1. 이산확률변수의 합과 컨볼루션
2. 서로 독립적인 두 개의 이항분포(Binomial Distribution)의 합
3. 서로 독립적인 두 개의 포아송분포(Poisson Distribution)의 합
1. 이산확률변수의 합과 컨볼루션
두 개의 독립적인 이산확률변수 X,Y의 합인 Z=X+Y의 확률분포를 구하기 위해서 연속확률변수일 때와 마찬가지로 *(컨볼루션)을 이용하게 된다. 밑의 그림을 보면서 이산확률변수의 컨볼루션 식을 이해해보자.
컨볼루션 식은 시그마로 묶여져 있는 Px(k)Py(Z-k)의 곱을 -무한대~+무한대범위 까지 총 더해주는 식으로 쓸 수 있다. 이 식은 우리가 이전 포스팅에서 다루었던 연속확률변수일 때의 식과 비슷하다. 네모칸 친 부분을 보면 연속확률변수일 때의 컨볼루션 공식인데 두 개의 식이 닮았다. 바로 대칭한 후 특정 값만큼 평행 이동한 점이 닮아있다.
그렇다면 이제 예시를 통해서 Convolution으로 만들어지는지 아닌지 검증을 해보자. 우선 Convolution을 이용하지 않고도 직관적으로 구할 수 있는 동전1개와 주사위1개를 던지는 예시로 들어보자.
그리고 그림 속 Z라는 확률변수를 두 확률변수 X,Y의 합으로 정의해주고 Z의 확률변수는 1에서 부터 7까지이다. 그리고 이에 따라 확률변수 Z가 되는 값들의 각각 확률을 구할 수 있다.
그렇다면 이렇게 구해진 확률들이 Convolution을 이용하고 난 후에도 똑같은 결과값이 나오는지 확인해보자.
위에 있는 수평선 그래프는 Px(k) 즉, 동전을 나타내는 그래프이고 밑 그래프의 검은색 부분이 Py(k) 즉, 주사위를 던지는 그래프이다. 이 때 Px(k) 그래프가 구간이 좁기 때문에 대칭 후 평행이동 시켜줄 그래프를 Px(k) 그래프로 선택한다.(왜냐하면 구간이 좁아야 대칭과 평행이동 하기 쉽기 때문이다.)
그리고 밑의 파란색 그래프가 Px(-k)로 대칭후 Z만큼 평행이동 해주었다. 그리고 Px(Z-k) 그래프가 -무한대에서 +무한대 방향으로 점진적으로 평행이동 시켜줌으로 써 Py(k)와 overlap(겹치는)되는 부분을 계산해준다.
따라서 빨간색 overlap 1,2,3번은 Z값에 따라 계산된 결과값들이다. 결과값들이 우리가 이전 그림에서 직관적으로 계산했던 확률들과 동일한 결과가 나왔다.
이번엔 또 다른 예시로 넓은 특정 두개의 구간이 주어졌을 때를 생각해보자. (단 N > M 구간범위)
이전에 동전, 주사위의 예시처럼 똑같이 구간이 작은 함수를 선택해서 대칭 후 평행이동 시켜주고 평행이동 시켜준 함수를 +무한대 방향으로 이동시키면서 다른 함수(그림에선 Py(y)함수)와 Overlap되는 구간을 Z값에 따라 계산해주면 된다.
결과값과 그 결과값과 관련된 그래프를 색깔별로 표시해 두었다.
2. 서로 독립적인 두 개의 이항분포의 합
서로 독립적인 두 개의 이항분포 X,Y가 있다고 할 때 이 두 개의 합인 새로운 확률변수 Z가 어떤 확률분포를 나타내는지 살펴보자. 이항분포는 예전에 배운것처럼 조합(Combination)을 이용해서 나타낸다. 밑의 그림을 보자.
우선 결론부터 말하자면 확률변수 Z도 이항분포를 나타내게 된다. 이에 대한 증명을 하기위해 오른쪽 계산과정을 보자.
Z를 X,Y와 관련된 이항분포식으로 풀어주기 위해서 오른쪽 첫번째 줄처럼 긴 식이 나오게 된다. 그리고 정리 후 두번째 줄의 Pz(Z)를 보게 되면 시그마와 두개의 조합으로 이루어진 식이 나오게 되는데 레몬색 형광펜으로 칠해진 부분을 잘 보면 우리가 예전 공부 초반 부분에서 배웠던 남자 m명, 여자 n명 중 k명을 뽑을 경우의 수 예시를 든 부분과 똑같다는 것을 알 수 있다.
(예시 링크 : https://techblog-history-younghunjo1.tistory.com/37?category=888548 포스팅의 3. 조합 목차 부분을 보시면 됩니다.)
따라서 시그마와 두개의 조합으로 이루어진 식을 한 방에 정리하면 n+m 컴비네이션 z로 정의할 수 있다. 그리고 식을 정리하게 되면 확률변수 Z는 B(m+n, p) 라는 이항분포를 따른다는 것을 알 수가 있다.
3. 서로 독립적인 두 개의 포아송분포의 합
이번엔 서로 독립적인 두 개의 포아송분포의 합이 어떤 확률분포를 나타내는지에 대해 알아보자.
우선 포아송분포는 람다(λ) 라는 문자로 이루어진 Exponential(지수함수) 형태로 이루어진다.
이제 X+Y=Z라는 새로운 확률변수의 확률분포를 알아보기 위해 Convolution 연산을 이용해 계산해본다.
오른쪽 그림의 첫 번째줄 식으로 정리 후 분모, 분자에 Z!(팩토리얼)을 각각 곱해주고 z 컴비네이션 k 로 만들어 준다. 이 때 또 우리가 주목해야 할 점은 레몬색 네모칸으로 쳐진 부분을 잘보면 이항정리로 정의되는 것을 알 수가 있다. 따라서 파란색 첫 번째 네모칸처럼 식이 정리된다.
둘 다 포아송분포인 확률변수 X,Y의 평균값은 각각 모두 람다(λ)로 정의 된다. 따라서 확률변수 Z의 평균값도 람다(λ)z가된다.
확률변수 Z의 Pz(Z) 형태도 Exponential인 두 번째 파란색 네모칸인 포아송분포를 띄게 된다고 하자. 근데 이 두 번째 파란색 네모칸은 우리가 앞서 계산해서 나왔던 첫 번째 파란색 네모칸과 식의 형태가 동일해진다. 따라서 우리는 서로 독립적인 두 개의 포아송분포의 합은 또 하나의 포아송분포로 나타내짐 을 알 수가 있다.
'Data Science > 확률 및 통계' 카테고리의 다른 글
퓨리에(Fourier) 변환과 확률변수의 특성함수 (0) | 2020.03.30 |
---|---|
두 확률변수로 만드는 또다른 두개의 확률변수 (0) | 2020.03.29 |
연속확률변수의 합과 컨볼루션(Convolution) (8) | 2020.03.27 |
확률변수의 함수(Functions of Random Variables) (0) | 2020.03.26 |
조건부평균과 공분산(Covariance)과 상관계수 (0) | 2020.03.24 |