본문 바로가기

Data Science/확률 및 통계

다중변수(Multiple RV)와 연합분포

반응형

이번 포스팅에서는 다중변수의 연합 CDF와 다중변수가 이산확률변수(Discrete), 연속확률변수(Continuous)할 때를 나누어서 살펴보려고 한다. 우리는 여기서 다중변수를 2개의 변수로만 구성된 경우로 한정해서 설명한다.

 

  1. Bivariate Random Variable의 연합분포

  2. 이산확률변수일 때의 연합분포

  3. 연속확률변수일 때의 연합분포

1. Bivariate Random Variable의 연합분포

지금까지는 한개의 변수로만 이루어진 Sample Space를 다루어 왔지만 이제 다중변수라고 불리는 변수가 2개인 2개의 Sample Space에 대해서 다룰려고 한다.

 

다중변수의 그림적 정의

2개로 이루어진 다중변수는 다음과 같이 두개의 Sample Space가 존재한다. 이를 Joint(연합) 확률로 바꾸게 될 때 Cartesian Product(각 순서쌍)을 이용하는데 오른쪽 그림을 통해서 각 Sample Space와 각 R(확률변수가) mapping 되게 된다. 다중변수를 표현할 때 어떻게 표현하는 지 밑의 동전과 주사위 예시를 통해서 알아보자.

 

다중확률변수의 표시

그림 속 X=0 이라는 것은 1개의 동전을 던졌을 때 T(뒷면)이 나올 확률이며 동시에 Y=2라는 것은 주사위 숫자가 2가 나 올 확률을 의미한다.

 

이제 다중확률변수의 연합분포를 어떻게 표시하고 그 특징들을 알아보자. 우선 X,Y 두개의 확률변수에 대한 CDF 함수는 Fxy(x,y)로 나타낼 수 있다. 그리고 그래프로 표시하게 되면 그래프로 그려진 부분이다. 

 

다중확률변수 연합분포의 특징

그리고 다중확률변수의 연합분포 특징에 대해 알아보자. 특징에 대한 텍스트를 읽어보면서 그림 속 해당하는 번호의 필기와 같이 읽어보면 이해가 될 것이다.

 

  1. 다중확률변수의 연합분포의 CDF 함수는 항상 0보다 크거나 같고 1보다 작거나 같다.
  2. 확률변수 x1 < x2 < x3 ... < y1 < y2 < y3 ... 가 항상 성립하며 이에 따른 CDF 함수 대소비교도 위와 같다.
  3. 확률변수 x에 대한 CDF의 전체구간 합 = 1일때, 다중확률변수의 CDF함수인 Fxy(x,y) 함수는 확률변수 x,y가 모두 무한값까지 간다면 총 합은 1이 된다.
  4. 확률변수 x,y 둘 중 하나라도 발생가능성이 없게 되면 다중확률변수의 확률은 0이다. 즉 그림 속 예시처럼 x,y 둘 중 하나라도 -무한대로 가게 된다면 무조건 다중확률변수의 확률은 0이 된다.

그렇다면 이제 다중확률변수의 두 개의 확률변수 x,y가 각각 특정구간의 조건이 주어질 때 구하는 방법을 알아보자. 글씨로 설명하게 된다면 장황하게 설명될 것 같아 색깔별로 해당 식과 그래프의 면적을 표시해보았다. 포인트는 해당 면적을 구할 때 우리가 보통 직사각형 넓이를 구하는 것처럼 비슷한 방식으로 구하면 된다.

 

특정구간의 다중확률변수

이번엔 또 다른 예시인데 이것도 밑의 그림을 보면서 이해해보자.

 

특정구간의 다중확률변수

2. 이산확률변수일 때의 연합분포

연합분포 또한 확률변수의 종류에 따라 다르게 설명될 수 있다. 먼저 Discrete할 때의 경우를 먼저 살펴보자.

 

이산확률변수의 연합분포

우리가 기존에 이산확률변수의 PDF를 다룰 때 그래프 상에서 수직선이 그려지고 이에 대한 높이가 델타값(해당 확률변수에 대한 확률값)이라고 정의했었다. 이것이 다중확률변수로 확장된다면 필기 속 그림에서는 1차원적으로 그릴수 밖에 없었지만 저 x1,y1이 만나는 점에서 위로 우뚝 솟아오르는 2차원적인 모습이 그려진다. 

 

2개의 다중이산확률변수일 때의 PDF

 

다음은 오른쪽의 이산확률변수의 연합분포의 특징이다. 

 

  1.  0 =< 연합분포의 CDF =< 1
  2. x,y의 무한대 또는 특정 n개까지의 모든 합은 1이다.
  3. x,y 특정구간에 대한 연합분포의 CDF 함수식
  4. Px(x)라는 x만에 대한 확률변수의 확률값을 우리는 Marginal이라고 부르는데 이 식을 연합분포의 식과 관련되어서 쓸 수 있다. 위 그림처럼 Px(x) = y에 대한 시그마만을 이용해 확률변수 y값의 모든 확률값을 더해주어서 표현될 수 있다. Py(y)도 마찬가지.
  5. 독립사건의 성격을 지닐 수도 있다. 즉, Pxy(x, y) = Px(x)*Py(y) 이다. 

위 특징 중 특정한 두 개의 확률변수(두 개의 사건)가 서로 독립사건인지 아닌지를 증명하기 위해 동전과 주사위의 경우를 예시로 들어보자.

 

독립사건인가? 아닌가?

이 때 동전은 같은 동전이다.

확률변수 X동전 1개를 던져 앞,뒷면이 나올 확률, Y동전을 총 3번던지는 것 중 앞면이 나올 횟수를 나타낸다. 각 확률변수에 대한 Marginal 확률을 구해주고 표를 통해서 Joint 확률을 구해본다.

 

표를 간단하게 설명하자면, 만약 X = 0 이고 Y= 0이라면 동전 1개를 던졌을 때(X) 뒷면인(0)이 나오고 확률 변수 Y는 무조건 나머지 2번이 무조건 뒷면 연속으로 T, T가 나와야 한다. 따라서 경우의 수는 모두 뒷면이 나오는 {T , T , T}일 때 밖에 없고 결국 1/8이 된다. 

이번엔 X=0 이고 Y=1일때 보를 보면 X=0이기 때문에 우선 첫번째 동전을 던졌을 때 T(뒷면), 그리고 Y=1이기 때문에 앞면이 1번만 나오면 되서 경우의 수가 {T, H, T} , {T , T H } 두 가지가 되며 2/8가 된다. 나머지 경우의 수도 앞에서 했던 방법처럼 차근차근 풀어나간다. 

 

따라서 우리는 독립인지 증명하기 위해 Pxy(1,2) = Px(1) * Py(2) 가 맞는지 맞지 않는지 작성한 표에 기반해 판단해본다. 결과 값은 갖지 않으므로 서로 독립사건이 아닌 서로 영향을 주는 사건임을 알 수가 있다.

 

3. 연속확률변수일 때의 연합분포

 

연속화률변수일 때의 연합분포

연속확률변수는 늘 그래왔던 것처럼 PDF에서 CDF를 구해주기 위해 적분을 사용한다. 하지만 기존과 달리 확률변수가 2개이기 때문에 각 확률변수 x,y에 대해 이중적분을 해주어야 한다.

 

다음은 연속확률변수일 때의 연합분포의 특징이다.

(그림 속 fxy(x,y)는 PDF , Fxy(x,y) 는 CDF 이다.)

 

연속확률변수일 때의 연합분포의 특징

 

  1. 다중연속확률변수의 PDF는 밀도이기 때문에 0보다 크거나 같다. 
  2. 다중연속확률변수의 전체구간에 대한 CDF는 1이다.
  3. 특정 구간에 대한 CDF는 다음과 같이 PDF를 이용해 적분으로 나타낼 수 있다. 또한 CDF가 만약 전제조건으로 주어진다면 1. Bivariate RVs 에서 다루었던 것처럼 CDF 면적 빼기를 구해서 계산할 수도 있다.
  4. 다중연속확률변수의 특정 하나의 확률변수에 대한 Marginal 함수도 편미분을 이용해서 구할 수 있다.
  5. 독립사건일 수 있다. 만약 독립사건이면 특정 하나의 확률변수 x에 대한 PDF를 전체구간으로 적분하면 1이 된다.(확률변수 y도 마찬가지)
반응형