본문 바로가기

Data Science/확률 및 통계

확률변수(RV)와 누적분포함수(CDF)

반응형

이번 포스팅에서는 확률변수의 개념과 누적분포함수에 대해서 알아보려고 한다.

 

1. 확률변수(RV)

 

확률변수의 개념

우리는 이전의 포스팅까지 Sample Space에서 발생하는 특정한 사건에 대해서 다루어 왔다. 이러한 사건(outcome)에 대해 mapping한 Real number에 해당하는 것이 바로 확률변수이다.

 

동전 1개 던지기로 예시를 들어보자. 동전 1개를 던져서 나올 수 있는 경우의 수는 앞면(H), 뒷면(T) 두 가지이다. 이 각 두개의 사건을 각 1, 0 이라는 Real number를 mapping시켜 주는 것이 확률변수이다. 따라서 만약 앞면이 나올 확률변수와 확률을 구한다고 하면 P(H) = P(1) = 1/2이 된다.

 

간단한 용어 정리

왼쪽 그림 용어 필기속 "RV는 보통 X,Y,Z(대문자)" 라고 되어 있는데 여기서 RV가아닌 RV의 종류에 해당하는 특정 사건들이다. (오타입니다...) 

 

그렇다면 확률변수에 정의되는 사건의 식에 대해서 알아보자. Ax는 outcome들의 집합이며 이는 X(w) = x 라는 특정사건과 확률변수(number)를 mapping시켜 w라는 outcome들에 대한 집합이다. 예시는 오른쪽 동전 case로 보면 되겠다.

 

2. 누적분포함수(Cumulative Distribution Function)

 

여기서 '분포'라 함은 어떤 사건이 얼마나 많이 발생하고 어떤 사건이 얼마나 적게 발생하는지에 대한 의미이다.

 

누적 분포 함수

누적분포함수는 이러한 분포를 누적시켜 나타낸 그래프이다. 따라서 그래프 모양이 오른쪽 그래프와 같다. 

확률변수의 값이 음의 무한대로 갈 수록 0에 수렴하고 양의 무한대로 갈수록 결국 1에 도달하게 된다.

즉, 어떤 사건이 발생하기 이전에는 확률이 0에 있던 값이 특정 사건이 발생하고 결국 언젠가는 누적되어 반드시 일어날 확률인 1이 된다는 것이다.

 

참고로 Fx( ) : 누적분포함수를 나타내는 용어이다.

 

어떤 사건 X에 대하여 a,b의 대소비교 조건을 가진 확률 갖는 값을 구하는 경우는 오른쪽 그림 5번을 보면 쉽게 이해할 수 있다.

 

2-1. 누적분포함수의 예시문제

 

누적분포함수의 예시

다음과 같은 범위와 값을 가진 누적분포함수 Fx(x)가 있고 이에 대한 그래프가 저렇게 그려진다. 1,2,3번 문제를 풀어보기로 하자. 

 

1번은  확률변수 X가 1/4보다 클 때의 확률을 구하는 문제인데 이는 1에서 X가 1/4보다 작거나 같은 확률을 빼주면 된다. 그러므로 결국 1/4이라는 답이 나오게 된다. 이 때, 만약 추가적인 문제로 X가 1/4보다 크거나 같은 확률을 구하게 되면 이전의 방법과 똑같이 1에서 X가 1/4보다 작을때 확률을 빼주면 된다. 하지만 이때 equality(=)이 부등식에 포함되어 있지 않기 때문에 lim라는 극한 값을 이용하게 된다. 하지만 극한값을 이용하더라도 x가 1/4에 무한히 가까워진다고 하면 결국 1번 문제와 답과 똑같이 1/4이 된다. 

 

그런데 여기서 알아둬야 할점은 가장 오른쪽 밑의 그림의 But을 보면 확률변수 X=1/4일때는 0이라는 것이다. 즉 equality가 부등식에 존재하지 않아 X가 1/4보다 크거나 같은, 또는 작거나 같은, 크거나, 작거나 4가지의 확률은 1/4이지만  X=1/4일때는 0이된다는 것이다. (이에 대한 문제는 링크 속 이상화 교수님의 '확률변수의 정의' 강의를 보고 해결하시면 될 것 같습니다! http://www.kocw.net/home/search/kemView.do?kemId=1056974)

 

2번과 3번은 그림 속 필기의 풀이로만 이해 가능하니 과감하게 생략하겠다.

 

3. Discrete 확률변수일 때의 누적분포함수(CDF)

 

여기서 Discrete란 연속적이지 않는다는 의미이다.

 

Discrete RV

연속적이지 않고 개별적인 확률변수들이더라도 확률을 구하는 것은 기존과 동일하다. 단 차이가 있는 것은 Fx(x)라는 누적분포함수를 구할 때는 위의 식과 같이 된다.

 

누적분포함수와 델타함수

왼쪽 그림의 Px(x)는 어떤 사건들이 발생할 확률에 대해서 Px(x)에 관해 그려놓았다. 이를 Fx(x)라는 누적분포함수로 그려본다면 밑의 그림과 같이 된다. 여기서 알아둬야할 포인트는 분홍색 형광펜이 출발하는 시점은 아무것도 발생하지 않는 0이다가 x1일 때 P(x1)이라는 확률이 증가하게 된다. 그리고 x2시점까지 일정한 확률값이 유지되는데 이 때 전제는 equality(=)가 부등호에 존재할 때여야 한다. 만약 equality가 없다면 확률이 0이 되버리기 때문이다.(이것은 아까 제가 링크 첨부해드렸던 1번 문제와 연관성이 있습니다!)

 

그리고 델타함수란 예를들어 x1시점에서 발생한 Px(x1)에 대해 정의하는 함수이다. 오른쪽 그림을 보게되면 어느정도 감을 잡을 수가 있다. x값이 이동할때마다 평행이동한값을 더하거나 빼주고 그 때 발생한 확률을 델타함수에 곱해주면 된다.

 

4. Discrete 한 확률변수의 누적분포함수 예시

 

두개의 동전을 던진다고 가정해보자.

 

Discrete한 CDF예시

동전 2개를 던지는 Case에서 발생하는 확률에 대한 델타함수를 정의하게 되면 오른쪽 그림과 같아질 것이다. 그리고 x값에 따라 P(x)를 델타함수와 함께 동그라미친 부분으로 정의할 수 있다. 

 

이 P(x)를 누적분포함수로 그려보자.

 

CDF

그렇다면 이러한 식으로 X값에 따라 그래프가 그려진다. 아까 말했던 equality가 존재할때 일정 확률값이 유지된다는 것은 그림 속 x가 0보다 같거나 크기시작할때부터 1/4로올라가고 1보다 작아질 때까지는 1/4로 유지한 후 1이 되는 순간 3/4으로 확률이 누적되어 올라간다. 만약 여기서 1< x < 2가 되어 1에대한 equality가 없어진다면 x = 1에 대한 확률 값은 바로 0이 되버리는 것이다.

 

그리고 Discrete한 확률변수의 누적분포함수는 이렇게 계단식 함수로 그려진다 하여 Step Function이라고도 불린다.

 

다음 강의에서는 이제 Discrete가 아닌 Continuous한 확률변수에 대해서 다룰텐데 이 때는 확률밀도함수라는 개념을 이용한다고 한다. 다음 포스팅에는 아마 확률밀도함수의 개념이 등장하지 않을까 싶다.

반응형