본문 바로가기

Data Science/확률 및 통계

이산확률변수의 합과 컨볼루션(Convolution)

반응형

저번 포스팅에서는 연속확률변수의 합과 컨볼루션에 대해 다루었다. 기존에 예고했던 것과 같이 이번 포스팅에서는 이산확률변수의 합을 구하기 위해 컨볼루션을 이용하는 것에 대해 알아보겠다. 또한 각 독립적인 이항분포, 포아송분포의 합과 컨볼루션에 대해 다루려고 한다. 목차는 다음과 같다.

 

1. 이산확률변수의 합과 컨볼루션

2. 서로 독립적인 두 개의 이항분포(Binomial Distribution)의 합

3. 서로 독립적인 두 개의 포아송분포(Poisson Distribution)의 합

 

1. 이산확률변수의 합과 컨볼루션

두 개의 독립적인 이산확률변수 X,Y의 합인 Z=X+Y의 확률분포를 구하기 위해서 연속확률변수일 때와 마찬가지로 *(컨볼루션)을 이용하게 된다. 밑의 그림을 보면서 이산확률변수의 컨볼루션 식을 이해해보자.

 

이산확률변수의 컨볼루션

컨볼루션 식은 시그마로 묶여져 있는 Px(k)Py(Z-k)의 곱을 -무한대~+무한대범위 까지 총 더해주는 식으로 쓸 수 있다. 이 식은 우리가 이전 포스팅에서 다루었던 연속확률변수일 때의 식과 비슷하다. 네모칸 친 부분을 보면 연속확률변수일 때의 컨볼루션 공식인데 두 개의 식이 닮았다. 바로 대칭한 후 특정 값만큼 평행 이동한 점이 닮아있다.

 

그렇다면 이제 예시를 통해서 Convolution으로 만들어지는지 아닌지 검증을 해보자. 우선 Convolution을 이용하지 않고도 직관적으로 구할 수 있는 동전1개와 주사위1개를 던지는 예시로 들어보자.

 

동전1개와 주사위1개 던지는 예시

그리고 그림 속 Z라는 확률변수를 두 확률변수 X,Y의 합으로 정의해주고 Z의 확률변수는 1에서 부터 7까지이다. 그리고 이에 따라 확률변수 Z가 되는 값들의 각각 확률을 구할 수 있다.

 

그렇다면 이렇게 구해진 확률들이 Convolution을 이용하고 난 후에도 똑같은 결과값이 나오는지 확인해보자.

 

예시를 Convolution으로도 가능할까?

위에 있는 수평선 그래프는 Px(k) 즉, 동전을 나타내는 그래프이고 밑 그래프의 검은색 부분이 Py(k) 즉, 주사위를 던지는 그래프이다. 이 때 Px(k) 그래프가 구간이 좁기 때문에 대칭 후 평행이동 시켜줄 그래프를 Px(k) 그래프로 선택한다.(왜냐하면 구간이 좁아야 대칭과 평행이동 하기 쉽기 때문이다.)

 

그리고 밑의 파란색 그래프가 Px(-k)로 대칭후 Z만큼 평행이동 해주었다. 그리고 Px(Z-k) 그래프가 -무한대에서 +무한대 방향으로 점진적으로 평행이동 시켜줌으로 써 Py(k)와 overlap(겹치는)되는 부분을 계산해준다.

 

따라서 빨간색 overlap 1,2,3번은 Z값에 따라 계산된 결과값들이다. 결과값들이 우리가 이전 그림에서 직관적으로 계산했던 확률들과 동일한 결과가 나왔다.

 

이번엔 또 다른 예시로 넓은 특정 두개의 구간이 주어졌을 때를 생각해보자. (단 N > M 구간범위)

 

특정 N,M구간일 때의 Convolution

이전에 동전, 주사위의 예시처럼 똑같이 구간이 작은 함수를 선택해서 대칭 후 평행이동 시켜주고 평행이동 시켜준 함수를 +무한대 방향으로 이동시키면서 다른 함수(그림에선 Py(y)함수)와 Overlap되는 구간을 Z값에 따라 계산해주면 된다.

결과값과 그 결과값과 관련된 그래프를 색깔별로 표시해 두었다.

 

2. 서로 독립적인 두 개의 이항분포의 합

서로 독립적인 두 개의 이항분포 X,Y가 있다고 할 때 이 두 개의 합인 새로운 확률변수 Z가 어떤 확률분포를 나타내는지 살펴보자. 이항분포는 예전에 배운것처럼 조합(Combination)을 이용해서 나타낸다. 밑의 그림을 보자.

 

두 개의 독립적인 이항분포의 합

우선 결론부터 말하자면 확률변수 Z도 이항분포를 나타내게 된다. 이에 대한 증명을 하기위해 오른쪽 계산과정을 보자.

 

Z를 X,Y와 관련된 이항분포식으로 풀어주기 위해서 오른쪽 첫번째 줄처럼 긴 식이 나오게 된다. 그리고 정리 후 두번째 줄의 Pz(Z)를 보게 되면 시그마와 두개의 조합으로 이루어진 식이 나오게 되는데 레몬색 형광펜으로 칠해진 부분을 잘 보면 우리가 예전 공부 초반 부분에서 배웠던 남자 m명, 여자 n명 중 k명을 뽑을 경우의 수 예시를 든 부분과 똑같다는 것을 알 수 있다.

(예시 링크 : https://techblog-history-younghunjo1.tistory.com/37?category=888548 포스팅의 3. 조합 목차 부분을 보시면 됩니다.)

 

따라서 시그마와 두개의 조합으로 이루어진 식을 한 방에 정리하면 n+m 컴비네이션 z로 정의할 수 있다. 그리고 식을 정리하게 되면 확률변수 Z는 B(m+n, p) 라는 이항분포를 따른다는 것을 알 수가 있다.

 

3. 서로 독립적인 두 개의 포아송분포의 합

이번엔 서로 독립적인 두 개의 포아송분포의 합이 어떤 확률분포를 나타내는지에 대해 알아보자.

우선 포아송분포는 람다(λ) 라는 문자로 이루어진 Exponential(지수함수) 형태로 이루어진다.

이제 X+Y=Z라는 새로운 확률변수의 확률분포를 알아보기 위해 Convolution 연산을 이용해 계산해본다. 

 

독립적인 두 개의 포아송분포의 합

오른쪽 그림의 첫 번째줄 식으로 정리 후 분모, 분자에 Z!(팩토리얼)을 각각 곱해주고 z 컴비네이션 k 로 만들어 준다. 이 때 또 우리가 주목해야 할 점은 레몬색 네모칸으로 쳐진 부분을 잘보면 이항정리로 정의되는 것을 알 수가 있다. 따라서 파란색 첫 번째 네모칸처럼 식이 정리된다. 

 

둘 다 포아송분포인 확률변수 X,Y의 평균값은 각각 모두 람다(λ)로 정의 된다. 따라서 확률변수 Z의 평균값도 람다(λ)z가된다.

 

확률변수 Z의 Pz(Z) 형태도 Exponential인 두 번째 파란색 네모칸인 포아송분포를 띄게 된다고 하자. 근데 이 두 번째 파란색 네모칸은 우리가 앞서 계산해서 나왔던 첫 번째 파란색 네모칸과 식의 형태가 동일해진다. 따라서 우리는 서로 독립적인 두 개의 포아송분포의 합은 또 하나의 포아송분포로 나타내짐 을 알 수가 있다.

반응형