데이터 분석에 있어서 기본적으로 알아야 할 지식이 바로 통계지식이다. 사실 고등학교 이후로 통계의 'ㅌ'자도 본적이 없다.. 하지만 그래도 고등학교 시절 문과이긴 했지만 수포자가 아니었고 수학에 나름 흥미가 있었던 터라 공부하려는 의지가 조금은 불탄다..
책으로 공부하기에는 너무나도 어렵고 막막하기 짝이 없는 통계 분야이기 때문에 open course를 이용해 한양대학교 이상화 교수님의 확률과 통계 강의를 이용하기로 했다.
설명하는 내용에 대한 첨부 사진은 본인이 직접 강의를 들으면서 필기한 사진으로 대체하려고 한다. 최대한 이해할 수 있도록 설명을 써놓은 거라서 인터넷에 떠도는 수식만 적혀있는 사진보다 내가 이해하기 쉬울 것 같아 이렇게 하려고 한다.(발글씨 아니도록 노력하겠습니다..!)
앞으로 강의 1개 마다 복습차원으로 그리고 까먹을 때 언제든 다시 돌아보도록 하기 위해서 블로그에 배운 내용 정리 포스팅을 하려고 한다. 첫 번째 시간은 조건부확률과 Bayes정리에 대한 내용이였다.
그 전에 앞서서 간단한 확률 개념에 대해서 짚고 넘어가자.
- 표본공간(Sample Space) : 모든 발생 가능한 경우의 집합(set)
- 사건(Event) : 표본공간의 부분집합
- 셈 원리(Counting Principle) : 만약 발생 경우의 수가 5가지이고 4번의 시행에서 발생 경우의 모든 수 = 5x5x5x5 이다. 이 때 적용되는 곱의 법칙이 셈 원리 이다.
1. 조건부 확률
조건부 확률 P(B|A) 를 하게되면 A라는 사건이 발생한다는 조건 하에 B의 사건이 발생할 확률을 의미한다.
이는 풀어쓰면 위와 같은 수식이 된다. 그리고 가장 오른쪽의 수식을 보게되면 결국 전체 가능한 발생할 수있는 경우의 Sample Space의 조건이 달린 상태라고 볼 수 있다.
2. Total Probability
전체확률의 법칙(Total Probability)는 위 그림에서 보자면 A라는 사건이 발생할 확률이 n번을 시행했을 때도 서로 배반사건이라면 A를 1번째부터 n번까지 실행한 사건은 Sample Space라는 사건의 부분집합이 된다. (참고로 필기 속 Partition of A 라고 되어 있는데 A가 아니라 S(전체 Sample Space)입니다.. 다음 강의에서 교수님께서 수정하셔서 저도 수정합니다..!)
즉 결국 가장 하단의 수식을 보면 A라는 사건이 발생할 확률은 시그마 옆의 수식을 1번부터 n번까지 더한 조건부확률의 합이된다.
3. Bayesian Theory
Bayes 정리를 이용할 때는 우리가 어떠한 모르는 확률(그림 속 input=original data)을 알아내기 위해서 Observation data(관측한 데이터=우리가 이미 알고 있는 확률)를 이용하는 것이다. 그림 속 A,B에 관한 조건부확률 정리 수식을 보면 된다. 따라서 마지막 세번째 줄 ex)를 보면 A사건이 발생했을 때 Ai라는 사건이 발생할 확률을 구하기 위해서는 오른쪽 과 같이 Bayes정리를 이용하여 수식을 변환후 Observation data를 이용해서 모르는 확률을 구할 수 있다는 것이다.
3-2. Bayes 정리의 활용
바이너리 시메트릭 채널은 주로 통신망 구조에서 활용 되는 구조이다. 그림 속 예시를 설명하자면 만약 우리가 전화를 건다는 상황을 가정했을 때 input 데이터로 x1=0 , x2 =1 , output 데이터는 y1=0, y2 =1 이라고 가정해보자. 이 때 발생할 수 있는 경우의 수는 총 4가지로 각각 값이 동일한 값을 보내고 받게 되면 연결은 성공하고 다른 값을 받게되면 연결에 에러가 발생한다. 여기서 우리는 x1,x2를 input(original data) , y1,y2를 observation data(연결됬는지 안됬는지 알 수 있기 때문)라고 한다.
그림속 P에대한 확률을 조건부확률로 정의하면 오른쪽그림과 같다. 예를들어 P11 = P(Y1|X1)이라고 되어 있는데 이는 x1값을 보냈을 때 y1값을 받을 확률이다. 이렇게 경우마다 각각 조건부확률로 정의할 수 있다. 이러한 확률들을 우리는 사전에 알 수 있는 확률 priori라고 칭한다.
이번에 error가 발생할 확률을 구한다고 해보자. 그렇다면 x1을 보내고 y2를 받았을때 확률과 x2를 보내고 y1을 받았을 때의 확률을 더해야 한다. 이를 Bayes정리를 활용해서 표현한다면 왼쪽 밑의 수식과 바뀐다.
2번째로 y2를 받았을 때(Observation data) x1을 보냈을 확률을 어떻게 구할까? 조건부확률로 구하면 P(x1|y2)가 된다. 이를 Bayes 정리를 이용하면 밑의 수식처럼 정리가 된다. 그리고 마지막 수식의 분모는 y2가 발생할 확률을 다시 또 조건부확률로 정리를 해준다.
4. 독립사건(Independent Events)
독립사건은 서로 영향을 주지 않는 사건이라 말하는데 만약 사건 A,B가 서로 독립적인 사건이라면 그림속의 조건부확률 수식을 따라가게 된다. 결국 A와B의 사건 발생확률의 곱은 A와B의 교집합 발생확률과 같게 된다.
즉, 역으로 A와B의 사건 발생확률의 곱은 A와B의 교집합 발생확률과 같게된다면 서로 그 두개의 사건은 독립사건이라고 간주하면 되고 이 때 문제가 단순화 되어진다.
독립사건은 주로 반복 시행하는 복원 시행일 때 쓰인다.
그리고 잠깐 단어에 대한 정의 차이를 짚고 넘어가야 한다. Independent와 Exclusive의 차이이다.
- Independent : 서로 영향을 주지 않음
- Exclusive : 교집합이 없는 것(하지만 교집합이 없다고 서로 영향을 주지 않는다는 것은 아님!)
그리고 만약 A와 B사건이 독립사건이라고 한다면 각 A,B의 여사건끼리 그리고 사건 A와 B여사건(반대로도 가능) 끼리 서로 독립적이다. 이에 대한 증명은 그림 속 빨간 색 화살표를 따라가면 알 수 있다.
5. Combined Experiments(조합)
이번 개념은 '조합'이라는 개념이다 간단하게 예시를 들자면 앞,뒤가 있는 동전을 2번 이상 던지는 실험을 말한다. 즉, Sample Space가 여러개 되는 것이다. 즉 동전을 한번 던지는(Sample Space)것을 3번(3 experiments)던지는 것이다.
따라서 우리는 이 3번의 총 합계의 Sample Space를 구하기 위해서는 Cartesian Product를 이용하는데 Cartesian Product는 단순히 곱을 하는 것이 아닌 집합의 원소를 쌍으로 만든 다음 구해주는 것이다.
무슨소리인지 잘모르겠어서 예시를 들어보기로 했다. 그림 속 예시처럼 앞,뒤가 있는 동전을 3번 던지다고 시행하자
그렇다면 S(=Sample Space)1 = { H, T }, S2 = { H, T }, S3 = { H, T }가된다.
이를 Cartesian Product를 한다면 3번 시행을 했으니 S1, S2, S3에서 각각 나올 경우의수를 골라낸다.
{ H,H,H } , { H,H,T }, { H,T,H } ..... { T,T,T } 이런식으로 원소를 쌍으로 묶어 나열해주면 총 8가지의 총 Sample Space가 나오게 된다. 즉 동전의 예시에서는 하나의 Sample Space에서 나오는 요소의 갯수인 2를 3번 곱해 2의 3제곱인 8이 나오게 된다.
'Data Science > 확률 및 통계' 카테고리의 다른 글
기하분포, 평균과 분산의 활용(Error Model) 그리고 조건부평균 (0) | 2020.03.18 |
---|---|
평균과 분산 그리고 포아송분포와 지수분포 (2) | 2020.03.17 |
연속확률변수와 확률밀도함수 (0) | 2020.03.16 |
확률변수(RV)와 누적분포함수(CDF) (0) | 2020.03.15 |
순열(Permutation)과 조합(Combination) (0) | 2020.03.14 |