이번 포스팅에서는 다음과 같은 주제들을 살펴보려고 한다.
- 지수분포의 특성
- 지수분포와 포아송분포의 관계
- 어랑(Erlang)분포의 정의와 평균과 분산
- 연속균등분포(Uniform Distribution)의 평균과 분산
그에 앞서서 그동안 다루었던 우선 포아송 분포와 지수 분포에 대해서 복습해보고 가자.
위 그림을 천천히 읽어보면서 포아송 분포, 지수분포의 각 확률변수는 뭘 의미하는지, 그리고 평균값과 분산값은 각각 뭐였는지 상기해보자.
1. 지수분포의 특성
저번 포스팅에서 베르누이 시행과 관련된 기하분포(Geometric Dist)의 특성 중 하나인 Forgetfulness에 대해서 알아보았다. 지수분포도 이러한 Forgetfulness 특성을 갖는다.
(기하분포의 Forgetfulness 특성 포스팅 : https://techblog-history-younghunjo1.tistory.com/43 )
다시 상기하지만 지수분포를 연속확률변수(Continuous)일 때 이며, 확률변수는 보통 lifetime이라하는 생애주기, 반감기를 의미한다. PDF, CDF 함수와 평균, 분산값은 밑의 그림과 같다.
지수 분포도 마찬가지로 Forgetfulness의 특성을 갖는데 이를 한국어로 정의해본다면 특정 시간인 t라는 시간 까지 시스템이 고장나지 않았을 때의 확률은 , S라는 추가적인 시간 즉, t+S시간까지 생존할 확률에 영향을 미치지 않는다.
저번 포스팅 처럼 수학적으로 증명하기 위해서 조건부확률로 증명해보자. 위의 식을 계속 따라가다 보면 빨간색 밑줄 친 부분과 같은 결론이 나오게 된다.
추가적으로 그래프로 표현해본다면 t, t2 시간에도 확률분포의 그래프는 똑같이 그려진다.
단, 실제 하드웨어 시스템은 내구성이 있기 때문에 시간이 지날 수록 내구성이 약해짐에 따라 확률분포가 시간이 지나면서 변할 수도 있다는 것을 알아두자!
2. 지수분포와 포아송분포의 관계
지수분포와 포아송분포의 관계는 뭘까? 다음 그림을 보자.
필기가 세로로 길어진 점 양해부탁드립니다..
둘 의 차이는 무선 확률변수가 포아송분포는 사건의 발생 수, 지수분포는 시간이라는 것이다.
우선 람다(λ)라는 특성 시간에 따른 포아송 분포가 있다고 가정해보자. 그리고 이 특정 시간인 람다(λ)를 람다(λ)*t로 바꾸어보자. 그리고 람다(λ)*t를 포아송분포의 확률 계산하는 식에 넣어보자.
그리고 예를들어 아무 사건이 발생하지 않는 P(X=0)일 때를 구하고 이를 활용해서 P(적어도 1번 발생) 확률을 구한다. 그리고 그 결과 식은 지수함수의 CDF 식과 똑같아 진다.
따라서 우리는 이러한 등식으로부터 포아송분포에서 발생하는 사건의 수 = 지수분포에서 특정 시간 동안 생존하면서 중간중간에 언제 발생할지 모르는 죽음(failure)의 숫자라고 할 수 있겠다. 이에 대해서 이해가 잘 안간다면 강의 속 교수님의 설명을 참고해보자.
(한양대학교 이상화 교수님의 확률 및 통계 링크 : http://www.kocw.net/home/search/kemView.do?kemId=1056974 )
3. 어랑(Erlang) 분포의 정의와 평균, 분산
어랑 분포는 지수분포의 일반화라고 할 수 있는데, 어랑분포의 확률변수의 의미는 특정 갯수 k+1개가 연속적으로 발생하는 사건들의 시간 구간을 의미한다. 이해하기 쉽게 필기 속에서 그림을 그려 설명해 놓았다.
그리고 K-order(K차수)의 어랑분포를 살펴보면 해당 분포의 PDF(확률밀도함수)는 다음과 같이 정의해진다. 만약 이 k값에 1을 대입하면 지수분포의 식이 되기도 한다. 또한 전체 확률을 구하기 위해 { PDF -- 적분 -- > CDF } 방법론을 이용하면 1이라는 값이 나오게 된다.
그러면 이제 어랑분포의 평균과 분산값을 구해보자.
이전까지 소개해왔던 여러 확률분포 이론들의 평균,분산값 구하는 것처럼 어랑분포도 똑같다. 다만, 중간에 Gamma Function이라는 것을 이용해야 한다. Gamma Function을 도출하기 위해서 부분적분을 이용해야 하는데 해당 계산과정은 생략하겠다.
따라서 위 식의 전개과정을 따라가다보면 람다(λ)와 k와 관련된 식이 도출되고 평균과 분산값을 구할 수 있게 된다.
4. 연속균등분포의 평균과 분산
그동안 소개해왔던 연속균등분포 일명 Uniform Distribution의 평균과 분산값에 대해서 알아보자.
연속균등분포는 이산,연속활률 변수 모두 가능하며 필기 속 그림을 예시로 평균과 분산값을 구해보자.
평균값은 직관적으로 두 구간 a,b를 2로 나누면 구해지며, 분산값은 PDF를 CDF로 바꾸는 적분과정을 거치면서 구해줄 수 있다. 결과값들은 필기내용을 참고하자.
'Data Science > 확률 및 통계' 카테고리의 다른 글
다중변수(Multiple RV)와 연합분포 (0) | 2020.03.22 |
---|---|
정규분포(Gaussian Distribution)의 정의와 활용 (0) | 2020.03.21 |
베르누이분포와 이항분포의관계 그리고 체비쇼프 부등식 (0) | 2020.03.19 |
기하분포, 평균과 분산의 활용(Error Model) 그리고 조건부평균 (0) | 2020.03.18 |
평균과 분산 그리고 포아송분포와 지수분포 (2) | 2020.03.17 |