본문 바로가기

Data Science/확률 및 통계

평균과 분산 그리고 포아송분포와 지수분포

반응형

이번 포스팅에서는 확률변수의 평균과 분산을 구하는 방법, 그리고 포아송분포와 지수분포의 특성에 대해 소개하는 시간이다. 우선 산술평균에 대해서 알아보고 가보자.

 

1. 산술평균Arithmetic Average)

 

산술평균

산술평균은 왼쪽 식처럼 우리가 보통 평균을 구하는 것처럼 계산을 하면 된다. 단 이제 특정한 사건이 발생하는 횟수가 각각 다를 때오른쪽 그림과 같이 평균값을 구하게 된다. 즉, 각 사건과 그에 mapping되는 확률변수를 곱하여 모두 더한 값을 발생가능한 사건 모두의 합으로 나누어 주게 된다.

 

2. 확률변수의 평균(Expectation)

 

평균(Expectation)

Expectation이라 함은 평균이며 mean이라고도 부른다. 이전에 우리가 공부한 것처럼 확률변수는 이산(Discrete), 연속(Continuous)확률변수 두 가지로 분류되는데 평균값도 확률변수 분류에 따라 다르게 구해준다. 각 식은 위와 같다.

 

3. Taylor Series (테일러 급수)

Taylor Series의 한글적 정의를 위키피디아에서 조사해보았을 때 다음과 같다.

"도함수들의 한 점에서의 값으로 계산된 항의 무한합으로 해석함수를 나타내는 방법" 

계산 방법은 다음과 같다. 이 Taylor Series는 이후에 소개할 람다(λ)가 섞여있는 포아송분포의 평균, 분산값을 구하는 데 유용할 것이다.

 

Taylor Series(테일러 급수)

우리가 주목해야 할 수식은 e와 관련되어 있는 지수함수 인데 이를 시그마를 활용해서 간단하게 표현하면 파란색 동그라미의 표현과 같다. 그러면 이제 포아송분포 예시를 보자.

 

4. 포아송 분포(Poisson Distribution)

밑의 예시는 확률변수가 Discrete(이산확률변수)할 때의 포아송 분포의 평균값을 구하는 것이다. 일반적으로 포아송 분포는 은행, 우체국과 같이 하루에 손님이 얼마나 올 지나  인터넷 서버같은 시스템 설계에서 사용자들이 얼마나 접근을 하는지 이러한 것들을 사건(Event)로 간주하고 이를 근거로 시스템을 설계하는데 활용된다. (단 특정 시간 구간을 정한다. 예를 들어, 하루에 또는 한달에...)

 

포아송 분포

2번 확률변수의 평균 목차에서 봤듯이 Discrete한 확률변수의 평균값을 구하는 공식을 그대로 이용해 위의 람다와 연관된 Pk(k) 함수를 그대로 대입해본다. 그리고 위 그림의 빨간색 글씨를 읽으며 풀이를 따라가고 결국 포아송분포의 평균값은 람다(λ) 라는 상수의 값이 나오게 된다.

 

5. 지수분포(Exponential Distribution)

다음은 연속확률변수(Continuous)일 때의 지수분포의 평균값을 구하는 예시이다. 다음 그림을 보자.

 

지수분포

다음과 같이 생긴 지수분포의 평균값을 구하게 되면 오른쪽의 필기 처럼 1/λ 라는 값이 나오게 된다. 

참고로 여기서 λParameter라고도 부른다. 하지만 이러한 Parameter가 정해지지 않는 경우가 있으며 그 때는 다른 방법인 Parametric Probability Density Estimation을 이용한다. 이 방법은 추후의 강의에서 다룰 예정이라고 한다.

 

6. 확률변수의 Moments(적률)

확률변수의 X의 n제곱일 때의 평균값을 이산,연속확률변수 각각의 경우에 따라 구하는 방법들은 다음과 같다.

 

확률변수의 적률

이 때 알아두어야 할 점은 확률변수가 X이든 X의 제곱이든 세제곱이든 n제곱이든 발생할 확률은 똑같다는 것이다. 그러므로 X의 n제곱의 평균을 구하는 식에서 이산,연속확률변수일 때 모두 확률변수가 X일 때의 확률과 같다. 

여기서 n=1을 대입해보면 E[X] 라는 값이 나오게 되고 이를 mean이라고 하며 그리스문자로 '뮤'라고 읽는 표기를 하기도 한다.

 

6-2. Central Moments

 

Central Moment

Central Moments 를 구하기 위해 다음과 같이 이산,연속확률변수 별로 식을 세울 수 있다. 여기서 우리가 n이라는 차수에 1을 대입해보게 되면 0이라는 값이 나오게 된다. 이것은 결국 다른 확률변수값들과의 difference(차이)가 0이라는 의미이며 결국 필기의 내용처럼 "여러곳에 분포된 확률변수들 중 하나를 뽑아야 할 때 어느 한쪽으로 치우치지 않는 값을 뽑아햐 하는데 이 때 평균값을 뽑게 되는 것" 이라는 내용을 이해할 수 있다.

 

이제 n=2를 대입함으로써 우리는 Variance라고도 부르는 분산(표준편차의 제곱)을 구할 수 있는데 이 때 분산은 0보다 크거나 같다.

 

잠깐 내용과 벗어나는 이야기 일 수도 있지만 나도 하나 얻어간 지식을 공유하고 싶어서 이야기 하려고 한다. 만약 분산이 0이라고 하면 무슨 의미일까? 바로 발생경우의 수가 1가지로 무조건 100%라는 것이다.

그렇다면 "분산이 크다" 라는 것이 단지 "데이터가 골고루 분포되어 있다" 라는 의미말고 예측가능성의 관점에서 의미를 하나 더 뽑아낼 수 있다. 바로 어떤 값이 나올지 예측을 할 수가 없게 된다는 의미이다. 예시로 우리가 에러를 예측할 때 힘들게 된다는 것이다. 

 

다시 n=2를 대입할 때로 돌아와보자. 위 그림의 밑의 식 전개과정을 보면 E[ ] 안에 있는 값들 중 확률변수인 X와 관련이 없는 값들이 E[ ] 밖으로 튀어나온다. 이 때 우리는 이러한 식을 Linear하다! 라고 부른다. Linear한 성질은 위와 같이 E [ ] 밖으로 튀어나올 수가 있는데 어떤 경우에 Linear 한지를 살펴보자.


** Linearity **

Linearity

함수가 Linearity를 가지려면 다음과 같은 2가지 특성을 가져야 한다.

  1. Homogenity : 즉, 원점을 통과하는 함수여야 한다.
  2. Superposition : 함수가 분배법칙처럼 분배되는 것이다.

따라서 우리는 보통 Linear한 함수들의 예시를 알아두도록 하자.

  • 원점을 지나는 직선 y=mx
  • 미분, 적분, (유클리드기반의)행렬변환 연산
  • 확률에서 평균값(Expectation)을 구할 때

따라서 Central Moments에서 아까 설명했던 부분인 E[ ] 안에 있는 값들 중 확률변수인 X와 관련이 없는 값들이 E[ ] 밖으로 튀어나오는 경우가 성립하는 이유는 우리가 현재 Linear의 예시 중 확률에서 평균값을 구하고 있기 때문이다. 

따라서 결국 분산(표준편차의 제곱)인 시그마 제곱은 분홍색 형광펜으로 칠해진 네모칸의 안의 값과 같아진다.

 

7. 포아송분포에서 분산 구해보기

 

포아송분포에서의 분산

우리는 아까 앞서서 4. 포아송분포 에서 들었던 예시를 6-2. Central Moments 에서 해본 분산 구하는 공식을 이용해서 해당 예시문제의 분산을 구해보려고 한다. 평균은 람다(λ)라는 값이 이미 구해졌고 이에 기반하여 분산을 구해본다.

 

우선 E[K제곱] 값을 구하기 위해 위와 같은 식의 조작과 전개를 해나가면 람다제곱+람다의 값이 나오게 된다. 

따라서 분산구하는 값의 공식을 이용해(필기 속 So라고 되어있는 부분) 계산을 하게 되면 분산도 λ라는 값이 나오게 된다.

 

물론 이렇게 분산과 평균값이 똑같다는 예시가 특이하긴 하지만 이러한 방법을 이용해 다른 문제에도 적용해볼 수가 있다.

반응형