본문 바로가기

Data Science/확률 및 통계

[통계] 표본평균 (Sample Mean)을 통한 모평균 예측

반응형

저번 포스팅을 마지막으로 이제 확률과 통계 중 확률에 대한 이론 시간을 모두 끝이 났다. 이제 통계의 기초에 대한 내용을 포스팅하려고 한다. 하지만 통계도 확률 공부의 연장선이며 통계는 확률의 이론을 기반으로 한다는 것을 잊지말자. 

 

본격적인 내용으로 들어가기 전에 통계학의 기능과 용어에 대해 간단히 알아보자.

 

1. 통계학의 기능과 용어

 

통계학의 기능과 용어

먼저 통계학의 기능부터 알아보자.

 

  • 첫 번째로는 데이터들에 대한 설명을 할 수가 있다. 예를 들어, 우리가 앞서 배웠던 평균(mean), 분산(Variance), 중앙값(Median) 등이 대표적으로 들 수 있겠다.
  • 두 번째로는 Inference(추론)에 관한 내용이다. 이론적으로 풀어 쓴다면 데이터들로부터 특정한 파라미터를 estimate하거나 predict하는 것인데 예시를 들어 설명하면 이해가 쉽다.

 필기에도 써있다 시피, 미사일이 날라가는 경우를 살펴보자. 이전 포스팅에서도 언급했었지만 미사일이 날라가면서 실시간 위치를 파악하기 위해 평균값을 이용한다고 했었다. 이런 경우를 estimate라고 한다. 또한 우리가 살면서 "북한이 미사일을 쏜다면 미국이 미사일을 쏘아 북한이 쏜 미사일을 미사일끼리 격추시킬 것이다" 라는 말을 들어본 적이 있을 것이다. 이 때 미국이 북한이 쏜 미사일을 격추시키려 할 때 통계학으로 predict하는 것이다.

 

통계학의 용어로는 Population은 모집단이라고 하며, Samples 는 표본이라고 한다. 표본은 랜덤하게 선택되어야 하며 replacement 즉, 복원 추출이어야 한다. 따라서 표본을 뽑을 때는 모든 경우에 똑같은 확률이며 이는 IID(Independent Identical Distribution) 한국말로는 '독립항등분포'라고 하기도 한다.

 

2. 표본평균과 표본평균의 평균

 

본격적으로 통계의 기초 중 가장 첫 번째로 배운 순서는 표본평균에 대한 내용이다. 표본이란, Sample 이라고도 하며 우리가 흔히 알고 있는 모집단에서 랜덤하게 n개를 뽑은 것들을 말한다. 

 

표본평균의 평균

위 그림에서 보는것처럼 i가 1~n까지 확률변수인 Xi의 평균값은 모집단의 평균값인 m값과 분산값 또한 모분산의 값과 같다고 전제된 상태에서 공식이 진행된다.

그리고 이렇게 우리가 n까지 뽑은 확률변수 Xi의 합들을 n으로 나눠준 것을 표본평균(X헤드값=Sample Mean)이라고 한다. 이러한 표본평균(X헤드값)을 확률변수로 하는 확률분포가 정규분포를 따른다고 하는데, 이를 증명하기 위한 공식이 Central Limit Theorem 이다. 

 

오른쪽 그림을 보는 것처럼 표본평균의 PDF를 구하기 위해서는 우리가 이전에 '기존의 두확률변수의 합으로 이루어진 새로운 확률변수의 PDF는 Convolution을 이용한다' 이 공식을 이용해서 오른쪽 그림과 같이 되게 된다. 그리고 이렇게 n개까지 연속적으로 Convolution을 하게되다보면 결국 정규분포(가우시안 분포)로 수렴해간다. 

 

보통 n이 30보다 큰 만큼 어느정도 n이 클 때, 정규분포를 따른다고 한다. 

 

그렇다면 이제 왼쪽 아래 그림에 있는 표본평균의 평균값을 구해보자. 적혀있는 식처럼 식을 전개하다보면 결국 m이라는 모평균의 값과 동일함을 알 수가 있다.

 

3. 표본평균의 분산

다음은 평균값을 구했던 것과 마찬가지 방식으로 표본평균의 분산값을 구해보자.

 

표본평균의 분산

위와 같은 식의 전개를 통해서 식 중간중간에 나오는 빨간색, 파란색 밑줄 친 부분을 통해서 확률변수 X에대한 분산, 공분산=0 이라는 것을 이용해 파란색 네모칸과 같이 표본평균(X헤드값)의 정규분포 공식이 된다.

 

이와 같은 여러가지 공식을 통해서 우리는 다음과 같은 결론을 도출할 수 있다. 쉽게 이해하기 위해서 강의 속 교수님의 예시를 빌려쓰겠다.

 

비누를 생산하는 공장에서 하루에 100만개를 생산하는데 비누의 무게가 100g을 맞춰야 한다. 이 때 100만개의 모든 비누를 일일이 무게를 잴 수 없으므로 본평균의 평균값은 모평균과 같음 을 이용한다. 따라서 100만개의 비누중 100개(n개)를 뽑고 이에 대한 비누무게의 평균값(X헤드값1)을 계산한다. 그리고 뽑았던 100개의 비누를 다시 넣고(복원추출) 다시 100개의 비누를 뽑아서 이에 대한 비누무게의 평균값(X헤드값2)을 계산한다. 이렇게 계속적으로 100개(표본)을 뽑아서 평균값(X헤드값)을 최소 30번 보다 더 많은 횟수(X헤드값30보다 더 클 때까지)를 진행한다. 

 

그렇게 X헤드값(표본평균)을 확률변수로 하는 정규분포를 구하고 우리는 이제 정규분포에서 특정 비누무게를 지정하고 이 무게보다 크면 오류가 발생했음을 정의해줄 수가 있다. 이 때 우리가 특정 비누무게를 지정할 때 신뢰구간이라는 개념이 등장하게 된다. 

 

신뢰구간

위 그림처럼 초록색, 파란색 구간에 속하는 비누무게가 나온다면 그 때는 오류로 판단하게 된다는 것이다.

 

반응형