본문 바로가기

Data Science/확률 및 통계

조건부평균과 공분산(Covariance)과 상관계수

반응형

이번 포스팅에서는 조건부평균과 공분산에 대해서 소개하려고 한다. 저번 포스팅에서 소개했던 다중변수에서 조건부 확률분포와 밀도함수에 대해서 알아보았다. 그 내용의 연장선으로 변수가 2개일 때 조건부확률의 평균값을 구해보고 공분산에 대한 개념에 대해서 알아보자.

 

1. 다중변수일 때 조건부평균

 

조건부평균(Conditional Mean)

저번 포스팅에서 언급한 것처럼 다중변수일 때의 조건부평균에 대한 식을 세울 때는 조건에 해당하는 확률변수 값이 특정한 값일 때의 확률을 구하는 것이다. 즉 위 그림 처럼 E[X|Y] = E[X|Y=y] 일 때이다. 

 

그렇다면 이제 X,Y 2개의 확률변수가 존재할 때 조건부확률의 평균값을 구해보자. 평균값에 대한 공식은 xfx|y(x|y)dx 에 대한 식이다. 우리는 저번 포스팅에서 배웠던 fx|y(x|y) = fxy(x, y)/ fy(y) 라는 joint확률의 공식을 이용한다. 그리고 적분할 때 x변수에 관해 적분을 하니 결과값은 상수 또는 y값에 대한 식으로 정의가 된다.

 

해당 내용을 이해하기 쉽도록 다중변수의 조건부확률에 대한 그림 그래프를 보고 이해해보자.

그리고 분산값을 구하기 위해서는 위와 같은 식을 이용하며 그림 그래프 속 y1과 y2값의 분산을 비교해보면 초록색으로 형광펜 칠해진 부분을 보면 된다.

 

그렇다면 다중변수일 때 조건부확률의 평균값의 평균값을 구하면 어떻게 해결해야 할까? 밑 그림의 E [ E[X|Y] ] 을 살펴보자.

 

다중변수 조건부확률 평균의 평균값

위와 같이 식을 전개하다 보면 저번 포스팅에서 배웠던 Marginal 확률 개념을 이용해서 결국 값이 하나의 확률변수 X에 대한 평균값인 E[X]가 된다.

 

2. 공분산(Covariance)상관계수(Correlation Coefficient) 

공분산과 상관계수가 왜 필요한지 그리고 상관계수의 높고 낮음이 뭘 의미하는지 알아보자.

 

공분산과 상관계수

우선 공분산과 상관계수는 두 개의 다른 확률변수의 경향이 서로 어떤지 파악하기 위함이다. 즉 2개의 확률변수 X,Y가 서로 어떤 상관관계가 있는지 알아보는 것이다. 상관계수의 범위는 -1 부터 +1 사이의 값이다. 상관계수의 높/낮음의 의미는 다음과 같다.

  • 상관계수의 값이 높음 : X,Y가 서로 같은 방향
  • 상관계수의 값이 낮음 : X,Y가 서로 다른 방향
  • 상관계수 = 0 : X,Y가 서로 상관이 없음( 서로 독립적인 사건이라는 경우도 있지만 이에 대해선 밑에서 다루겠다.)

 

공분산과 독립사건의 관계

두 개의 확률변수 X,Y의 공분산은 Cov(X,Y) = 시그마XY 라고 나타내어 진다. 이 때 분산인데 "왜 시그마제곱이 아닌가?" 라고 의문을 제기할 수 있다. 이는 단순히 수학적인 수식으로서 확률변수가 두 개 라서 시그마 제곱이 아닌 시그마라고 써준다. 

 

어찌됬든 공분산을 정의하게 되면 E[ (X-mx)*(Y-my) ] 이된다. (이 때 mx는 확률변수 X에대한 평균값이다.) 공분산을 이중적분에 의해서 joint 확률과 같이 나타낼 수도 있지만 예전에 배웠던 Linear 성질을 이용해서 계산하게 되면 

Cov(X,Y) = E[XY] -mx*my 이다.

 

이번엔 두 개의 확률변수가 서로 상관이있다(Correlated)상관이없다(Uncorrelated) 일 때와 공분산=0 인 것과 두 개의 사건이 독립적인 것과의 관계, 마지막으로 상관계수에 대해서 자세히 살펴보자.

 

2-1. Correlated 

만약 두 확률변수에서 X,Y가 서로 Correlated가 있다고 한다면 Y=g(X) 라고 Y를 X에 대한 함수식으로 필연적으로 쓸 수 있다.(물론 g(X)가 상수일 수도 있다.)

 

2-2. Uncorrelated

먄약 두 확률변수에서 X,Y가 서로 Uncorrelated가 있다고 한다면 Y=g(X)라고 Y를 X에 대한 함수식으로 절대 나타낼 수 없다.

 

2-3. Independent 와 Covariance = 0 인 것과의 관계

만약 두 개의 확률변수가 서로 독립적이라고 한다면 공분산이 0이 될까? 이에 대해 알아보자. 

우선 독립적이라고 한다면 fxy(x,y)라는 Joint 확률이 fx(x)*fy(y)와 같아지는 공식을 이용한다. 그래서 위 그림처럼 식을 전개하다 보면 공분산은 0이라는 값이 나오게 된다. 

따라서 독립적인 특성은 공분산=0 임을 보장하지만 공분산=0 임은 항상 독립적인 특성을 보장하진 않는다.

 

2-4. 상관계수(Correlation Coefficient)

상관계수는 기본적으로 공식은 다음과 같다. 공분산을 두개의 확률변수 X,Y의 각 표준편차를 곱한값을 나눠주는 것이다.

밑에 있는 그림의 예시를 통해서 상관계수가 -1과 1사이의 값이 어떻게 되는건지 살펴보자.

 

상관계수의 계산공식

위 예시처럼 Y라는 확률변수가 Y=aX+b 라는 식을 만족할 때를 계산해보자. 위에서 배웠던 공분산의 공식인

E[ (X-mx)*(Y-my) ]을 이용해보자. E [ ] 안에 있는 식을 분배법칙으로 풀어주고 a라는 상수를 linear성질을 통해 E [ ]밖으로 빼준다면 결국 a*확률변수 X에대한 분산값 이라는 식이 나오게 된다. 

 

그리고 확률변수 Y값에 대한 분산값을 구해주기 위해서 Linear성질을 이용하게 되면 V[ ] 안에 있는 식의 부분에서 밖으로 빠져 나올때 상수인 b는 버려지고 시그마의 계수인 a는 a제곱으로 나오게 된다. 

 

이제 확률변수 X에 대한 표준편차, Y에 대한 표준편차, 두 확률변수 X,Y에 대한 공분산 을 모두 구해주었으니 이 3가지를 이용해서 상관계수 계산공식을 적용하게 되면 a>0 때는 1, a<0 때는 -1의 값이 나오게 된다. 

 

하지만 만약 위의 그림 속 Y=aX+b라는 Linear(직선)그래프가 아닌 Y=X제곱 과 같이 곡선으로 된 복잡한 식이 나오게 되면 그 때의 상관계수는 1이 나올 가능성이 줄어들게 된다. 따라서 직선그래프 일때 상관계수가 1, -1이 될 가능성이 높다는 사실을 알아두자.

반응형