본문 바로가기

Data Science/확률 및 통계

[통계] 표본분산을 통한 모분산 예측과 카이제곱 분포

반응형

"표본평균의 평균값은 모평균의 값과 같다" 라는 공식을 이용해서 우리는 표본평균을 통해 모수(모집단의 특성)인 모평균을 구해보았다. 이번에는 표본분산을 통해서 어떻게 모분산을 예측하는지, 그리고 또 다른 분포로 카이제곱 분포의 개념에 대해서 알아보려고 한다.

 

우선 본론에 들어가기 앞서 저번 시간에 '신뢰도'라는 개념이 글 말미에 잠깐 등장하였지만 자세히는 소개하지 않아서 인트로로 신뢰도에 대해 소개하고 표본분산으로 넘어가려고 한다.

 

<Reliability (신뢰도) >

 

우선 신뢰도에는 대표적으로 95%, 99% 신뢰도가 존재한다.  밑의 그림을 보자.

 

신뢰도

저번시간에 구해봤던 것처럼 표본평균의 평균값은 모평균의 값과 같은 사실, 표본평균의 분산값은 모집단의 분산값을 표본의 갯수 n개로 나눈값과 같다 는 두 가지 사실을 알게 되었었다. 또한 우리는 표본평균이 중심극한정리(Central Limit Theorem)에 따라 정규분포를 따른다 라는 규정을 짓게 되었고 이 표본평균의 정규분포에 대한 신뢰도를 그려보면 오른쪽 그림과 같아진다.

 

95%는 표본평균이라는 확률변수(X헤드값)를 정규화시킨 후의 절댓값이 1.96 보다 크거나 같다로 정의할 수 있다.

반면에 99%2.58 보다 크거나 같다로 정의할 수가 있다. 이에 대한 의미는 95%든 99%든 정해진 값 1.96 또는 2.58 값 안에 들어갈 확률이 각각 95%, 99%가 되며 정해진 범위 이외로 벗어나면 오류가 발생하는 것을 의미한다.

 

1. 표본분산 (Sample Variance)과 이를 통한 모분산을 예측하기

 

표본분산의 계산

확률변수 표본분산값을 구하기 위해서 S제곱이라는 값을 정의해보자. S제곱을 구하기 위해서는 왼쪽 아래와 같은 식이 계산된다. 오른쪽 식의 변환을 통해서 식을 전개하다보면 최종적으로 가장 아래에 적혀있는 식이 나오게 된다. 

 

그렇다면 이제 위에서 계산한 표본분산값(S제곱)을 이용해서 모분산을 예측하는 과정을 해보자. 우선 표본분산값의 평균을 구해보자. ( S의 제곱값에 E [ ] 을 씌운 부분이다!)

 

표본분산의 평균값을 통해 모분산 예측하기

E[S제곱] 부분을 계산하게 되면 가장 맨 위의 식과 같은 결과가 도출됨으로써 우리는 모분산을 예측하기 위해서 3가지 식을 이제 알고 있다. 

  • E[X헤드값] = m : 표본평균의 평균값은 모평균의 값과 같다.
  • 표본분산 = 모분산을 표본의 갯수 n으로 나눈 값과 같다.
  • 위에서 구한 표본분산의 평균값 = E[S제곱]

그렇다면 우리는 새로운 변수를  S제곱*n/(n-1)로 오른쪽 필기부분에서 새로 정의해준다. 그리고 다음과 같은 식으로 새로운 변수평균값을 계산해주면 모분산의 값인 시그마제곱이 나오게 된다. 따라서 우리는 모분산을 구해주기 위해서는 분홍색 네모칸으로 쳐준 부분과 같이 표본분산의 평균값을 이용하는데 이 때 표본분산을 구할 때는 n이 아닌 n-1로 나누어주어야 한다는 것이다! 

 

2. Student-t Distribution

우리는 중심극한 정리를 적용할 때 n이 30보다 크다'어느정도 n의 숫자가 크다'라고 하게 되면 정규분포를 따르게 된다고 했다. 그렇다면 n이 30보다 작은(n < 30) 때는 어떤 분포를 취하게 될까? 이 때 Student - t 분포가 등장하게 된다.

 

< 중심극한 정리 - n이 30보다 작을 때의 분포는? >

 

Student - t 분포( n < 30 )

n이 30보다 작거나 같을 때 우리는 Student - t 분포를 따른다고 규정을 할 것이다. Student - t 분포에 대해 알아보자. 우선적으로 정규분포를 따를 때와 똑같이 표본평균의 평균값은 모평균값과 같고 모분산은 표본분산의 평균값(이 때 n이 아닌 n-1 이다!)과 똑같다. Student - t 분포에 대해서 그림을 그리면 오른쪽 그림과 같아진다. 표준정규분포(평균값이 0이고 분산값이 1인)와 똑같은 평균과 분산을 따르지만 그림은 정규분포에 비해 첨도가 negative하게 된다. 위 그림속에서 빨간색 선의 그래프이다. 

 

3. 카이제곱(Kai - Square) 분포

이번엔 표본평균을 구할 때 각 확률변수에 제곱을 한 값을 k개로 나눈 표본평균을 확률변수로 하는 카이제곱 분포에 대해서 알아보자.

 

카이제곱 분포

카이제곱분포 또한 중심극한 정리에 의해서 정규분포를 따르게 된다. 하지만 그래프로 그려보면 카이제곱 분포는 완전한 정규분포와 달리 좌/우가 비대칭을 이룬다. 오른쪽 그림에서 보다시피 k값이 커질수록 검은색 - 파란색 - 빨간색 그래프로 진행된다. 

 

이러한 카이제곱 분포제곱을 하는 이유는 우리가 예전 포스팅에서 배웠던 'Error - Model' 에서 실제값과 예측값의 차이를 제곱했던 것과 비슷하다고 할 수 있다. 즉, 실제값과 예측값이 얼마나 떨어져있는지 측정하기 위해서 제곱을 해주는 것이다. 

 

 

이렇게 해서 한양대학교 이상화 교수님의 '확률 및 통계' 강의가 끝이 났다. 나도 이 강의를 들으면서 한 강의마다 하나의 주제로 선정하여 블로그 글을 작성했고 확률의 기초를 다질 수 있는 계기가 됬던 것 같다. 끝으로 이러한 훌륭한 강의를 제공해준 한양대학교에 감사인사 드리며 더욱 더 많은 사람들이 강의를 듣고 지식을 공유하도록 링크를 첨부해놓겠다.

http://www.kocw.net/home/search/kemView.do?kemId=1056974

 

확률 및 통계

확률변수는 예측할 수 없는 물리적 신호를 표현하는 수학적 모델로서, 함수의 변수가 확률적 분포에 의하여 임의로 발생하는 경우에 적용한다. 확률신호는 통신신호, 영상 및 음성신호, 등과 같이 일상적으로 다루는 모든 신호에 적용될 수 있으며, 측정하고자 하는 물리적인 현상을 다루는데 널리 활용된다. 본 강의에서는 확률 및 확률변수의 개념을 소개하고, 확률변수에 대한 평균, 분산, 상관계수 등을 구하는 방법을 다룬다. 또한 가우시안 분포를 포함한 여러 가지 유

www.kocw.net

 

 

반응형