본문 바로가기

Data Science/확률 및 통계

(20)
감마, 베타, 카이제곱 분포와 t분포, F분포에 대한 이해 🔉해당 포스팅에서 사용된 자료는 고려대학교 산업경영공학부 김성범교수님의 Youtube 강의자료에서 발췌했음을 알려드립니다. 혹여나 출처를 밝혔음에도 불구하고 저작권의 문제가 된다면 joyh951021@gmail.com으로 연락주시면 해당 자료를 삭제하겠습니다. 감사합니다. 이번 포스팅에서는 그동안 확률분포 관련 포스팅에서 다루어보지 않았었던 감마, 베타, 카이제곱 분포, 그리고 t분포와 F분포에 대해 알아보려고 한다. 각 확률분포에 대한 PDF 함수 공식과 분포 생김새도 알아보며 서로가 어떤 관련이 있는지에 대해서도 알아보자. 목차는 다음과 같다. 1. 감마 분포 2. 베타 분포 3. 카이제곱 분포 4. t분포 5. F분포 1. 감마 분포 감마분포와 다음 목차에서 소개할 베타분포는 기본적으로 지수분포와 ..
[통계] 표본분산을 통한 모분산 예측과 카이제곱 분포 "표본평균의 평균값은 모평균의 값과 같다" 라는 공식을 이용해서 우리는 표본평균을 통해 모수(모집단의 특성)인 모평균을 구해보았다. 이번에는 표본분산을 통해서 어떻게 모분산을 예측하는지, 그리고 또 다른 분포로 카이제곱 분포의 개념에 대해서 알아보려고 한다. 우선 본론에 들어가기 앞서 저번 시간에 '신뢰도'라는 개념이 글 말미에 잠깐 등장하였지만 자세히는 소개하지 않아서 인트로로 신뢰도에 대해 소개하고 표본분산으로 넘어가려고 한다. 우선 신뢰도에는 대표적으로 95%, 99% 신뢰도가 존재한다. 밑의 그림을 보자. 저번시간에 구해봤던 것처럼 표본평균의 평균값은 모평균의 값과 같은 사실, 표본평균의 분산값은 모집단의 분산값을 표본의 갯수 n개로 나눈값과 같다 는 두 가지 사실을 알게 되었었다. 또한 우리는 ..
[통계] 표본평균 (Sample Mean)을 통한 모평균 예측 저번 포스팅을 마지막으로 이제 확률과 통계 중 확률에 대한 이론 시간을 모두 끝이 났다. 이제 통계의 기초에 대한 내용을 포스팅하려고 한다. 하지만 통계도 확률 공부의 연장선이며 통계는 확률의 이론을 기반으로 한다는 것을 잊지말자. 본격적인 내용으로 들어가기 전에 통계학의 기능과 용어에 대해 간단히 알아보자. 1. 통계학의 기능과 용어 먼저 통계학의 기능부터 알아보자. 첫 번째로는 데이터들에 대한 설명을 할 수가 있다. 예를 들어, 우리가 앞서 배웠던 평균(mean), 분산(Variance), 중앙값(Median) 등이 대표적으로 들 수 있겠다. 두 번째로는 Inference(추론)에 관한 내용이다. 이론적으로 풀어 쓴다면 데이터들로부터 특정한 파라미터를 estimate하거나 predict하는 것인데 예..
퓨리에(Fourier) 변환과 확률변수의 특성함수 이번 포스팅에서는 퓨리에변환과 이를 역 정리시킨 Inverse 퓨리에변환과 특성함수(Characteristic)에 대해서 알아보려고 한다. Inverse 퓨리에변환은 수학에서 많은 유형의 함수에 대해 푸리에 변환에서 함수를 복구 할 수 있다. 보통 퓨리에변환은 주파수공간으로 확장시킬 때 이용하는데 공식은 밑의 식처럼 이루어진다. 1. 퓨리에변환과 Inverse 퓨리에변환 여기서 우리가 알아야 할 개념은 3가지이다. 필기 속에서 j, w, T 라고 표기된 부분은 다음과 같은 개념을 이용한다. j : 복소수의 허수로서 제곱을하면 -1이 된다. w : w는 angular Frequency로서 2πf 가된다. 여기서 또 f = frequency로 우리가 흔히 알고히는 헤르츠(Hz)를 의미한다. T : T는 Pe..
두 확률변수로 만드는 또다른 두개의 확률변수 이전 포스팅에서는 이산확률변수 두 개가 합해져 만들어지는 새로운 확률변수를 Convolution을 이용해 계산하는 내용에 대해서 알아보았다. 이번 포스팅에서는 X,Y 라는 두 확률변수가 Z,W 라는 또 다른 두 개의 확률변수를 만드는 방법에 대해서 설명하려고 한다. 텍스트로만으로는 이해가 안 될 수도 있을 것 같아 필기로 표시해보았다. 1. 공식 위 그림 처럼 X,Y라는 기존의 확률변수들로 Z,W라는 새로운 확률변수를 만들려고 한다. 이 때 우리는 역함수 관계와 Joint 확률, 그리고 자코비안(J) 행렬이라는 개념을 이용해야 한다. 역함수관계와 Joint 확률에 대해서는 그동안 다뤄왔던 내용이기 때문에 따로 설명은 안하지만 자코비안 행렬에 대한 개념에 대해서는 설명해보려고 한다. 우선 그림을 예시로 보..
이산확률변수의 합과 컨볼루션(Convolution) 저번 포스팅에서는 연속확률변수의 합과 컨볼루션에 대해 다루었다. 기존에 예고했던 것과 같이 이번 포스팅에서는 이산확률변수의 합을 구하기 위해 컨볼루션을 이용하는 것에 대해 알아보겠다. 또한 각 독립적인 이항분포, 포아송분포의 합과 컨볼루션에 대해 다루려고 한다. 목차는 다음과 같다. 1. 이산확률변수의 합과 컨볼루션 2. 서로 독립적인 두 개의 이항분포(Binomial Distribution)의 합 3. 서로 독립적인 두 개의 포아송분포(Poisson Distribution)의 합 1. 이산확률변수의 합과 컨볼루션 두 개의 독립적인 이산확률변수 X,Y의 합인 Z=X+Y의 확률분포를 구하기 위해서 연속확률변수일 때와 마찬가지로 *(컨볼루션)을 이용하게 된다. 밑의 그림을 보면서 이산확률변수의 컨볼루션 식을..
연속확률변수의 합과 컨볼루션(Convolution) 저번 포스팅에서는 확률변수 Y가 X에 대한 함수로 정의될 때 확률변수의 함수, 그리고 이에 대한 평균값을 구하는 방법에 대해서 알아보았다. 이번 포스팅에서는 이전과 달리 연속확률변수 X,Y가 존재할 때 이 두 개 변수의 합을 새로운 확률변수 S에 대해 정의하는 방법에 대해서 얘기해보려고 한다. 참고로 다음시간에는 이산확률변수의 경우에 대해 다룰 예정이다. 1. 두 개의 연속확률변수의 합 위 그림처럼 X+Y=S 라는 두 개의 확률변수 X,Y의 합을 S라는 새로운 확률변수로 정의해보자. 그렇다면 이 새로운 확률변수 S의 PDF함수는 어떻게 될까? 먼저 우리가 인지해야 할 점은 이 새로운 확률변수 S에 대한 PDF함수가 기존에 배웠던 fxy(x,y)라는 두 확률변수의 Joint 확률의 PDF식과 관련이 있을 ..
확률변수의 함수(Functions of Random Variables) 이번 포스팅에서는 두 개의 확률변수를 다루지만 확률변수 Y가 X에 대한 함수로 이루어진 확률변수의 함수에 대해서 다루어보려고 한다. 그리고 확률변수의 함수일 때 평균값을 구하는 방법도 알아보자. 1. 확률변수의 함수 X에 관련된 함수로 정의된 Y=g(X) 라는 함수의 종류에 따라 확률변수 X와의 확률분포와 같을 수도 다를수도 있다. 위 그림에서 오른쪽 예시를 통해 살펴보자. 파란색 1번에서는 Y=2X+1 이라는 일종의 g(X)함수가 주어졌다. 이 때는 확률변수 Y값에 따른 확률이 확률변수 X일 때와 모두 같다. 따라서 확률변수 Y=2X+1 의 확률분포 그림은 확률변수 X의 확률분포와 같을 것이다. 하지만 빨간색 2번에서는 Y=X제곱이라는 함수가 주어졌고 확률변수 Y에 대한 확률값은 각각 1/2, 1/2로..
조건부평균과 공분산(Covariance)과 상관계수 이번 포스팅에서는 조건부평균과 공분산에 대해서 소개하려고 한다. 저번 포스팅에서 소개했던 다중변수에서 조건부 확률분포와 밀도함수에 대해서 알아보았다. 그 내용의 연장선으로 변수가 2개일 때 조건부확률의 평균값을 구해보고 공분산에 대한 개념에 대해서 알아보자. 1. 다중변수일 때 조건부평균 저번 포스팅에서 언급한 것처럼 다중변수일 때의 조건부평균에 대한 식을 세울 때는 조건에 해당하는 확률변수 값이 특정한 값일 때의 확률을 구하는 것이다. 즉 위 그림 처럼 E[X|Y] = E[X|Y=y] 일 때이다. 그렇다면 이제 X,Y 2개의 확률변수가 존재할 때 조건부확률의 평균값을 구해보자. 평균값에 대한 공식은 xfx|y(x|y)dx 에 대한 식이다. 우리는 저번 포스팅에서 배웠던 fx|y(x|y) = fxy(x,..
연합확률밀도함수와 조건부 확률밀도함수 이번 포스팅에서는 다중확률변수에 기반한 연합확률밀도함수와 조건부 확률밀도함수에 대해서 소개해보려고 한다. 1.연합확률밀도함수 저번 포스팅에 이어서 다중연속확률변수일 때의 확률밀도함수를 구하는 걸 복습겸 이어서 소개해보겠다. 포인트는 x,y라는 두 개의 확률변수로 이중적분, 이중미분을 한다는 것이다. 다음으로는 y=x라는 직선그래프의 예시와 원 그래프의 경우 두 가지로 살펴보자. 단 원 그래프 일때는 모든 구간의 확률이 일정한 Uniform Distribution이다. 각 두개의 그래프에서 x,y 특정 구간에 대해서 CDF함수를 구하는 것은 위 그림과 같다. 2. 조건부 확률분포 이번엔 조건부확률일 때의 확률분포에 대해서 알아보자. 기존처럼 확률변수가 Discrete, Continuous일 때 각각의 Ca..
다중변수(Multiple RV)와 연합분포 이번 포스팅에서는 다중변수의 연합 CDF와 다중변수가 이산확률변수(Discrete), 연속확률변수(Continuous)할 때를 나누어서 살펴보려고 한다. 우리는 여기서 다중변수를 2개의 변수로만 구성된 경우로 한정해서 설명한다. 1. Bivariate Random Variable의 연합분포 2. 이산확률변수일 때의 연합분포 3. 연속확률변수일 때의 연합분포 1. Bivariate Random Variable의 연합분포 지금까지는 한개의 변수로만 이루어진 Sample Space를 다루어 왔지만 이제 다중변수라고 불리는 변수가 2개인 2개의 Sample Space에 대해서 다룰려고 한다. 2개로 이루어진 다중변수는 다음과 같이 두개의 Sample Space가 존재한다. 이를 Joint(연합) 확률로 바꾸게 ..
정규분포(Gaussian Distribution)의 정의와 활용 이번 포스팅에서 다룰 내용들은 다음과 같다. 1. 정규분포의 정의 2. 이항분포에서 정규분포의 활용 3. 정규분포의 Error Function 4. 파스칼(Pascal)분포에 대한 간략한 개념 1. 정규분포의 정의 정규분포는 가우시안(Gaussian)분포라고도 부른다. 정규분포는 기본적으로 연속확률변수(Continuous)일 때를 다룬다. 그래서 정규분포의 확률변수는 연속확률변수이다. 그리고 정규분포는 이미지 센서, 오디오 음성 신호, 모바일 채널 등과 같은 case들에서 쓰인다. 또한 Quantization(양자화)과 같은 아날로그 데이터를 처리할 때도 가우시안 분포로 나타낼 수도 있지만 보통 연속균등분포(Uniform Dist)으로 나타낸다. 그렇다면 정규분포의 PDF(확률밀도함수), CDF(누적밀도..
지수분포(Exponential)와 어랑분포(Erlang) 이번 포스팅에서는 다음과 같은 주제들을 살펴보려고 한다. 지수분포의 특성 지수분포와 포아송분포의 관계 어랑(Erlang)분포의 정의와 평균과 분산 연속균등분포(Uniform Distribution)의 평균과 분산 그에 앞서서 그동안 다루었던 우선 포아송 분포와 지수 분포에 대해서 복습해보고 가자. 위 그림을 천천히 읽어보면서 포아송 분포, 지수분포의 각 확률변수는 뭘 의미하는지, 그리고 평균값과 분산값은 각각 뭐였는지 상기해보자. 1. 지수분포의 특성 저번 포스팅에서 베르누이 시행과 관련된 기하분포(Geometric Dist)의 특성 중 하나인 Forgetfulness에 대해서 알아보았다. 지수분포도 이러한 Forgetfulness 특성을 갖는다. (기하분포의 Forgetfulness 특성 포스팅 : h..
베르누이분포와 이항분포의관계 그리고 체비쇼프 부등식 이번 포스팅에서는 다음과 같은 내용들에 대해서 소개하려 한다. 체비쇼프 부등식 베르누이 분포 이항분포 기하분포의 Forgetfulness 특징 1. 체비쇼프 부등식(Chebyshev Inequality) 체비쇼프 부등식은 기본적으로는 이산확률변수(Discrete)와 연속확률변수(Continuous)한 경우 둘다 모두 성립된다. 식은 다음과 같다. 우리가 이전 포스팅에서 다룬 Error모델을 참고해보면 예측값(추정값)과 실제값의 차이를 가장 최소화 하는 확률변수 x값은 E[X] 값으로 평균값이라는 것을 알게 되었다. 체비쇼프 부등식은 이 평균값과 연관이 되어 있는데 일반화된 식은 그림 속 분홍색 형광펜으로 동그라미 쳐진 부분이지만 예시를 들면서 의미를 이해해보자. 밑의 식을 보면 a=2시그마x 라는 분산값..
기하분포, 평균과 분산의 활용(Error Model) 그리고 조건부평균 이번 포스팅에서는 기하분포와 왜 Error Model를 설계할 때 평균과 분산을 활용하는지, 그리고 조건부평균에 대해서 소개하려고 한다. 우선 기하분포부터 살펴보자. 1. 기하분포(Geometric Distribution) 기하분포의 RV(확률변수)는 어떤 사건에서 첫번째로 성공할 때까지의 시행의 횟수를 의미한다. 기하분포에 대한 확률값을 구하는 방법을 네트워크 간 데이터 송수신을 예시로 들어보겠다. t = 송신자, r = 수신자로 송신자가 수신자에게 에러 없이 제대로 데이터를 보낼 확률을 P라고 하자. 먼저 1번만에 송신을 성공할 확률은 P이다. 2번만에 송신에 성공할 확률은 (1-P)*(P)이다. 그러면 k번만에 송신에 성공할 확률은 바로 위의 Pk(k)의 식과 같이 나온다. 이 때, k값은 0을 포..
평균과 분산 그리고 포아송분포와 지수분포 이번 포스팅에서는 확률변수의 평균과 분산을 구하는 방법, 그리고 포아송분포와 지수분포의 특성에 대해 소개하는 시간이다. 우선 산술평균에 대해서 알아보고 가보자. 1. 산술평균Arithmetic Average) 산술평균은 왼쪽 식처럼 우리가 보통 평균을 구하는 것처럼 계산을 하면 된다. 단 이제 특정한 사건이 발생하는 횟수가 각각 다를 때는 오른쪽 그림과 같이 평균값을 구하게 된다. 즉, 각 사건과 그에 mapping되는 확률변수를 곱하여 모두 더한 값을 발생가능한 사건 모두의 합으로 나누어 주게 된다. 2. 확률변수의 평균(Expectation) Expectation이라 함은 평균이며 mean이라고도 부른다. 이전에 우리가 공부한 것처럼 확률변수는 이산(Discrete), 연속(Continuous)확률변..
연속확률변수와 확률밀도함수 이번 포스팅에서는 저번 포스팅의 마지막에서 예고했던 것처럼 Continouous한 Random Variable인 연속확률변수와 확률밀도함수에 대해서 배운 내용을 적으려고 한다. 저번 포스팅에서 말하지 못했던 것인데 이전 글에서 Discrete RV에 해당하는 한국어 수학용어는 '이산확률변수' 이다. 간단하게 이산확률변수에 대한 함수인 PMF(Probability Mass Function)의 수식에 대해서 짚고 넘어가자. 밑의 그림의 X라는 사건에 대한 x라는 확률변수의 확률값은 x=xi일때 xi만큼 평행이동한 델타값(확률값)을 모두 더해준 합과 같아진다. (델타함수에 대한 개념은 이전 포스팅을 참고하시면 됩니다!) https://techblog-history-younghunjo1.tistory.com/3..
확률변수(RV)와 누적분포함수(CDF) 이번 포스팅에서는 확률변수의 개념과 누적분포함수에 대해서 알아보려고 한다. 1. 확률변수(RV) 우리는 이전의 포스팅까지 Sample Space에서 발생하는 특정한 사건에 대해서 다루어 왔다. 이러한 사건(outcome)에 대해 mapping한 Real number에 해당하는 것이 바로 확률변수이다. 동전 1개 던지기로 예시를 들어보자. 동전 1개를 던져서 나올 수 있는 경우의 수는 앞면(H), 뒷면(T) 두 가지이다. 이 각 두개의 사건을 각 1, 0 이라는 Real number를 mapping시켜 주는 것이 확률변수이다. 따라서 만약 앞면이 나올 확률변수와 확률을 구한다고 하면 P(H) = P(1) = 1/2이 된다. 왼쪽 그림 용어 필기속 "RV는 보통 X,Y,Z(대문자)" 라고 되어 있는데 여기서..
순열(Permutation)과 조합(Combination) 이번 포스팅에서는 순열과 조합에 대해서 알아보는 시간이다. 순열과 조합 두개를 모두 일컬어 'Combinatorial Analysis'라고도 부른다. 1. 순열(Permutation) : 서로 다른 n개를 일렬로 나열하는 것이다.(line arrangement for 'n' different objects) 이때 순서(order)는 고려한다. 그림으로 예시를 들어보자면 그림 속 왼쪽의 그림과 같이 된다. n개 중에서 r개를 일렬로 쭉 세울 대 nPr이라는 수식이 나오게 되고 !(팩토리얼)로 풀어내게 되면 위와 같은 수식이 된다. 참고로 0! 은 왜 1일까? 에 대해서 고민한다면 0! 이라는 것은 '아무것도 나열하지 않는것 ' 이라는 것을 의미하기 떄문에 아무것도 나열하지 않는 것도 하나의 경우의 수이기 ..
조건부확률과 Bayes 정리 데이터 분석에 있어서 기본적으로 알아야 할 지식이 바로 통계지식이다. 사실 고등학교 이후로 통계의 'ㅌ'자도 본적이 없다.. 하지만 그래도 고등학교 시절 문과이긴 했지만 수포자가 아니었고 수학에 나름 흥미가 있었던 터라 공부하려는 의지가 조금은 불탄다.. 책으로 공부하기에는 너무나도 어렵고 막막하기 짝이 없는 통계 분야이기 때문에 open course를 이용해 한양대학교 이상화 교수님의 확률과 통계 강의를 이용하기로 했다. 설명하는 내용에 대한 첨부 사진은 본인이 직접 강의를 들으면서 필기한 사진으로 대체하려고 한다. 최대한 이해할 수 있도록 설명을 써놓은 거라서 인터넷에 떠도는 수식만 적혀있는 사진보다 내가 이해하기 쉬울 것 같아 이렇게 하려고 한다.(발글씨 아니도록 노력하겠습니다..!) 앞으로 강의 ..