이번 포스팅에서는 저번 포스팅의 마지막에서 예고했던 것처럼 Continouous한 Random Variable인 연속확률변수와 확률밀도함수에 대해서 배운 내용을 적으려고 한다.
저번 포스팅에서 말하지 못했던 것인데 이전 글에서 Discrete RV에 해당하는 한국어 수학용어는 '이산확률변수' 이다.
간단하게 이산확률변수에 대한 함수인 PMF(Probability Mass Function)의 수식에 대해서 짚고 넘어가자.
밑의 그림의 X라는 사건에 대한 x라는 확률변수의 확률값은 x=xi일때 xi만큼 평행이동한 델타값(확률값)을 모두 더해준 합과 같아진다.
(델타함수에 대한 개념은 이전 포스팅을 참고하시면 됩니다!)
https://techblog-history-younghunjo1.tistory.com/39
1. 연속확률변수(Continuous Random Variable)
그렇다면 이제 본격적으로 연속확률변수(Continuous RV)에 대해서 알아보자. 우선 연속확률변수는 Sample Space와 확률변수 모두 셀수없이 무한한 갯수가 존재하여 특정한 x값이라는 확률변수의 확률값을 정의할수가 없다. 또한 확률변수값들에 인덱싱을 붙일수도 없으며 이산확률변수(Discrete RV)에서 중요했던 equality(=)를 따질 필요가 없어진다.
따라서 연속확률변수의 특징을 정리하면 다음과 같다.
- 특정한 확률변수의 확률값을 정의 불가( 0으로 수렴하게 됨.)
- 확률변수 값들에 인덱싱 붙일 수 없음
- equality(=등호)를 따질 필요가 없음
2. 확률밀도함수(PDF = Probability Density Function)
연속확률변수는 이렇게 특정한 확률변수 값의 확률을 정의할 수 없기 때문에 연속확률변수의 CDF(누적분포함수)를 구하기 위해서는 lim라는 극한값의 방법을 이용하게 된다.
위 그림처럼 (x < X < x+델타x) 범위의 확률값을 구할 때 이전의 이산확률변수 때처럼 똑같이 각 구간의 누적분포함수를 빼주되 분모에는 델타x라는 x축(확률변수)의 어떤 특정한 짧은 길이(length)로 나누어주게 된다.
이렇게 되면 결국 fx(x) = Fx(x)를 미분한 꼴이되게 된다. 이 때 우리는 이 함수를 확률밀도함수(PDF)라고 부르게 된다. 그렇다면 왜 밀도일까? 이유는 "델타x라는 어떤 특정한 단위길이당 확률값이 얼마나 되는가"라는 개념이 되어 '밀도(Density)'의 개념이 되게 된다.
그렇다면 이제 연속확률변수의 CDF(누적분포함수)를 구하기 위해선 우리가 방금 미분해서 구했던 PDF를 반대로 적분을 하게 되면 된다. 이에 대한 그림 설명을 위에서 해놓았다.
2-2. PDF(확률밀도함수의 성질)
이번엔 PDF의 성질에 대해 알아보자.
우선 첫 번째로 fx(x) -확률밀도함수 가 0보다 크거나 같아야 한다. 왜냐하면 PDF로 미분하기 전인 Fx(x)라는 누적분포함수(CDF)는 감소하지 않기(증가하거나 일정) 때문이다. 따라서 이러한 non-decreasing함수를 미분하게 되면 기울기가 항상 0보다 크거나 같을 것이고 여기서 기울기 = PDF가 되기 때문이다.
두번째로는 음의무한대에서 양의무한대 범위로 PDF함수를 적분하게되면 1이어야 한다.
세번째는 특정 구간 범위에 해당하는 확률을 구하는 예시인데 이는 그림을 보고 이해가 될 것이다.
네번째 예시는 equality에 관한 내용인데 그림 속 x가 a보다 작다고 하든 작거나 같다고 하든 결과는 똑같다는 것이다.
왜냐하면 연속확률변수이기 때문이다.
4. Uniform Distribution(연속균등분포)
이번엔 연속균등분포라는 개념에 관해 소개하겠다. 정의에 관해서 말로 설명하기가 어려워 밑의 f(t)함수로 특정예시로 들어놓았다. 보면 이해가 될 것이다.
또 다른 예시로 우리가 일상생활에서 연속균등분포를 암묵적으로 사용하고 있다는 예시를 통해서 이해할 수가 있다. 나는 강의 속 교수님의 이 예시로 이해가 피부에 와닿은 것 같다.
우선 그림 속 8점,9점,10점짜리 양궁판이 있다고 가정하자. 각 원의 반지름(r)은 1씩이다. 이 때 원의넓이 구하는 공식(파이*반지름제곱)을 이용해서 10점을 맞출 확률은 1/9이 되고 9점만을 맞출 확률은 1/3 이렇게 된다.
여기서 우리가 주목해야 할 점은 각 점수 판마다 면적이 있고 점수 8점,9점,10점 각각의 면적 안에서 빨간색 엑스(X)라고 표시된 곳을 맞추나 파란색 동그라미인 곳을 맞추나 똑같다는 것이다. 이렇게 어딜 맞추나 똑같은 확률 즉, 분포가 특정 범위 내에서 균등한 것을 가정하는 것이 바로 Uniform Distribution(연속균등분포)인 것이다.
'Data Science > 확률 및 통계' 카테고리의 다른 글
기하분포, 평균과 분산의 활용(Error Model) 그리고 조건부평균 (0) | 2020.03.18 |
---|---|
평균과 분산 그리고 포아송분포와 지수분포 (2) | 2020.03.17 |
확률변수(RV)와 누적분포함수(CDF) (0) | 2020.03.15 |
순열(Permutation)과 조합(Combination) (0) | 2020.03.14 |
조건부확률과 Bayes 정리 (0) | 2020.03.13 |