본문 바로가기

Tech

(556)
[통계] 표본분산을 통한 모분산 예측과 카이제곱 분포 "표본평균의 평균값은 모평균의 값과 같다" 라는 공식을 이용해서 우리는 표본평균을 통해 모수(모집단의 특성)인 모평균을 구해보았다. 이번에는 표본분산을 통해서 어떻게 모분산을 예측하는지, 그리고 또 다른 분포로 카이제곱 분포의 개념에 대해서 알아보려고 한다. 우선 본론에 들어가기 앞서 저번 시간에 '신뢰도'라는 개념이 글 말미에 잠깐 등장하였지만 자세히는 소개하지 않아서 인트로로 신뢰도에 대해 소개하고 표본분산으로 넘어가려고 한다. 우선 신뢰도에는 대표적으로 95%, 99% 신뢰도가 존재한다. 밑의 그림을 보자. 저번시간에 구해봤던 것처럼 표본평균의 평균값은 모평균의 값과 같은 사실, 표본평균의 분산값은 모집단의 분산값을 표본의 갯수 n개로 나눈값과 같다 는 두 가지 사실을 알게 되었었다. 또한 우리는 ..
[그로스해킹] 성장의 지렛대와 급속실험 '그로스 해킹' 이라는 책을 읽고 내용을 정리하는 이전 포스팅에서는 그로스해킹을 하기 위해서 팀을 어떻게 구축을 해야하는지, 그리고 그렇게 구성된 그로스 해킹 팀이 제품의 어떤 특성에 집중을 해야 하는지에 대해서 다루어 보았다. 이번 포스팅에서는 제품의 '아하' 특성을 발견한 다음 단계에 대해 소개할 예정이다. 키워드는 '성장의 지렛대' 그리고 '급속 실험' 이다. 1. 성장의 지렛대 정말 매력적인 핵심 가치를 제공하며 기존 경쟁자들이 아직 차지하지 않은 엄청난 시장 잠재력을 갖고 있는 제품들이 실패에 이른 것은 성장 촉진 전략을 제대로 설계하고 실행하지 못했기 때문인 경우가 태반이다. 그로스 해킹은 이러한 실패를 겪지 않기 위해 원하는 결과를 확실히 달성하기 위해 끊임없이 실험을 거치는 과정이라 할 수..
[통계] 표본평균 (Sample Mean)을 통한 모평균 예측 저번 포스팅을 마지막으로 이제 확률과 통계 중 확률에 대한 이론 시간을 모두 끝이 났다. 이제 통계의 기초에 대한 내용을 포스팅하려고 한다. 하지만 통계도 확률 공부의 연장선이며 통계는 확률의 이론을 기반으로 한다는 것을 잊지말자. 본격적인 내용으로 들어가기 전에 통계학의 기능과 용어에 대해 간단히 알아보자. 1. 통계학의 기능과 용어 먼저 통계학의 기능부터 알아보자. 첫 번째로는 데이터들에 대한 설명을 할 수가 있다. 예를 들어, 우리가 앞서 배웠던 평균(mean), 분산(Variance), 중앙값(Median) 등이 대표적으로 들 수 있겠다. 두 번째로는 Inference(추론)에 관한 내용이다. 이론적으로 풀어 쓴다면 데이터들로부터 특정한 파라미터를 estimate하거나 predict하는 것인데 예..
퓨리에(Fourier) 변환과 확률변수의 특성함수 이번 포스팅에서는 퓨리에변환과 이를 역 정리시킨 Inverse 퓨리에변환과 특성함수(Characteristic)에 대해서 알아보려고 한다. Inverse 퓨리에변환은 수학에서 많은 유형의 함수에 대해 푸리에 변환에서 함수를 복구 할 수 있다. 보통 퓨리에변환은 주파수공간으로 확장시킬 때 이용하는데 공식은 밑의 식처럼 이루어진다. 1. 퓨리에변환과 Inverse 퓨리에변환 여기서 우리가 알아야 할 개념은 3가지이다. 필기 속에서 j, w, T 라고 표기된 부분은 다음과 같은 개념을 이용한다. j : 복소수의 허수로서 제곱을하면 -1이 된다. w : w는 angular Frequency로서 2πf 가된다. 여기서 또 f = frequency로 우리가 흔히 알고히는 헤르츠(Hz)를 의미한다. T : T는 Pe..
두 확률변수로 만드는 또다른 두개의 확률변수 이전 포스팅에서는 이산확률변수 두 개가 합해져 만들어지는 새로운 확률변수를 Convolution을 이용해 계산하는 내용에 대해서 알아보았다. 이번 포스팅에서는 X,Y 라는 두 확률변수가 Z,W 라는 또 다른 두 개의 확률변수를 만드는 방법에 대해서 설명하려고 한다. 텍스트로만으로는 이해가 안 될 수도 있을 것 같아 필기로 표시해보았다. 1. 공식 위 그림 처럼 X,Y라는 기존의 확률변수들로 Z,W라는 새로운 확률변수를 만들려고 한다. 이 때 우리는 역함수 관계와 Joint 확률, 그리고 자코비안(J) 행렬이라는 개념을 이용해야 한다. 역함수관계와 Joint 확률에 대해서는 그동안 다뤄왔던 내용이기 때문에 따로 설명은 안하지만 자코비안 행렬에 대한 개념에 대해서는 설명해보려고 한다. 우선 그림을 예시로 보..
이산확률변수의 합과 컨볼루션(Convolution) 저번 포스팅에서는 연속확률변수의 합과 컨볼루션에 대해 다루었다. 기존에 예고했던 것과 같이 이번 포스팅에서는 이산확률변수의 합을 구하기 위해 컨볼루션을 이용하는 것에 대해 알아보겠다. 또한 각 독립적인 이항분포, 포아송분포의 합과 컨볼루션에 대해 다루려고 한다. 목차는 다음과 같다. 1. 이산확률변수의 합과 컨볼루션 2. 서로 독립적인 두 개의 이항분포(Binomial Distribution)의 합 3. 서로 독립적인 두 개의 포아송분포(Poisson Distribution)의 합 1. 이산확률변수의 합과 컨볼루션 두 개의 독립적인 이산확률변수 X,Y의 합인 Z=X+Y의 확률분포를 구하기 위해서 연속확률변수일 때와 마찬가지로 *(컨볼루션)을 이용하게 된다. 밑의 그림을 보면서 이산확률변수의 컨볼루션 식을..
연속확률변수의 합과 컨볼루션(Convolution) 저번 포스팅에서는 확률변수 Y가 X에 대한 함수로 정의될 때 확률변수의 함수, 그리고 이에 대한 평균값을 구하는 방법에 대해서 알아보았다. 이번 포스팅에서는 이전과 달리 연속확률변수 X,Y가 존재할 때 이 두 개 변수의 합을 새로운 확률변수 S에 대해 정의하는 방법에 대해서 얘기해보려고 한다. 참고로 다음시간에는 이산확률변수의 경우에 대해 다룰 예정이다. 1. 두 개의 연속확률변수의 합 위 그림처럼 X+Y=S 라는 두 개의 확률변수 X,Y의 합을 S라는 새로운 확률변수로 정의해보자. 그렇다면 이 새로운 확률변수 S의 PDF함수는 어떻게 될까? 먼저 우리가 인지해야 할 점은 이 새로운 확률변수 S에 대한 PDF함수가 기존에 배웠던 fxy(x,y)라는 두 확률변수의 Joint 확률의 PDF식과 관련이 있을 ..
확률변수의 함수(Functions of Random Variables) 이번 포스팅에서는 두 개의 확률변수를 다루지만 확률변수 Y가 X에 대한 함수로 이루어진 확률변수의 함수에 대해서 다루어보려고 한다. 그리고 확률변수의 함수일 때 평균값을 구하는 방법도 알아보자. 1. 확률변수의 함수 X에 관련된 함수로 정의된 Y=g(X) 라는 함수의 종류에 따라 확률변수 X와의 확률분포와 같을 수도 다를수도 있다. 위 그림에서 오른쪽 예시를 통해 살펴보자. 파란색 1번에서는 Y=2X+1 이라는 일종의 g(X)함수가 주어졌다. 이 때는 확률변수 Y값에 따른 확률이 확률변수 X일 때와 모두 같다. 따라서 확률변수 Y=2X+1 의 확률분포 그림은 확률변수 X의 확률분포와 같을 것이다. 하지만 빨간색 2번에서는 Y=X제곱이라는 함수가 주어졌고 확률변수 Y에 대한 확률값은 각각 1/2, 1/2로..
연합정규분포(Joint Gaussian Distribution) 이번 포스팅에는 상관계수에 대한 간단한 복습과 연합정규분포에 대해서 알아보려고 한다. 우선 저번 시간에서 다루었던 상관계수에 대해 간단하게 복습해보고 가자. 1. 상관계수에 대한 복습 상관계수를 구하기 전에 우선 공분산을 구해야 한다. 공분산은 두개의 확률변수를 각각의 확률변수에 해당하는 평균값을 빼준 값들을 곱한 후의 평균값을 의미한다. 정리하게 되면 E[XY] - mx*my 가 된다. (mx란 확률변수 X에 대한 평균값을 의미한다.) 그리고 오른쪽 그림처럼 확률변수 Y=aX+b 라는 직선으로 정의할 때 그래프를 그려봄으로써 a의 값에 따라 상관계수의 값을 알아보자. a가 양수일 때는 상관계수값이 1로 두 개의 확률변수가 같은 방향임을 알 수 있다. 반대로 상관계수가 -1일때는 두 개의 확률변수가 서로..
조건부평균과 공분산(Covariance)과 상관계수 이번 포스팅에서는 조건부평균과 공분산에 대해서 소개하려고 한다. 저번 포스팅에서 소개했던 다중변수에서 조건부 확률분포와 밀도함수에 대해서 알아보았다. 그 내용의 연장선으로 변수가 2개일 때 조건부확률의 평균값을 구해보고 공분산에 대한 개념에 대해서 알아보자. 1. 다중변수일 때 조건부평균 저번 포스팅에서 언급한 것처럼 다중변수일 때의 조건부평균에 대한 식을 세울 때는 조건에 해당하는 확률변수 값이 특정한 값일 때의 확률을 구하는 것이다. 즉 위 그림 처럼 E[X|Y] = E[X|Y=y] 일 때이다. 그렇다면 이제 X,Y 2개의 확률변수가 존재할 때 조건부확률의 평균값을 구해보자. 평균값에 대한 공식은 xfx|y(x|y)dx 에 대한 식이다. 우리는 저번 포스팅에서 배웠던 fx|y(x|y) = fxy(x,..
연합확률밀도함수와 조건부 확률밀도함수 이번 포스팅에서는 다중확률변수에 기반한 연합확률밀도함수와 조건부 확률밀도함수에 대해서 소개해보려고 한다. 1.연합확률밀도함수 저번 포스팅에 이어서 다중연속확률변수일 때의 확률밀도함수를 구하는 걸 복습겸 이어서 소개해보겠다. 포인트는 x,y라는 두 개의 확률변수로 이중적분, 이중미분을 한다는 것이다. 다음으로는 y=x라는 직선그래프의 예시와 원 그래프의 경우 두 가지로 살펴보자. 단 원 그래프 일때는 모든 구간의 확률이 일정한 Uniform Distribution이다. 각 두개의 그래프에서 x,y 특정 구간에 대해서 CDF함수를 구하는 것은 위 그림과 같다. 2. 조건부 확률분포 이번엔 조건부확률일 때의 확률분포에 대해서 알아보자. 기존처럼 확률변수가 Discrete, Continuous일 때 각각의 Ca..
[그로스해킹] 그로스 해킹 팀 구축과 '머스트해브'란? 그로스해킹을 하기 위해서는 그로스 해킹을 하기 위한 전문적인 팀이 존재해야 한다. 또한 그로스 해킹은 팀 단위로 움직이며 활동해야 한다. 그래서 그로스 해킹 팀은 기본적으로 다기능 팀이다. 다기능 팀이란, 제품, 엔지니어링, 데이터, 마케팅 그룹 사이에서 협력을 하는 팀이다. 그로스 해킹 팀을 이루는 인원 전략과 비즈니스 목표에 대해 꿰뚫고 있는 직원 데이터 분석을 실행하는 데이터 분석가 디자인, 기능, 제품 마케팅에 변화를 주고 이에 대한 실험을 가능케 하는 엔지니어 크게 3가지 인원으로 구성되어 있지만 이외 추가적으로 UX/UI 디자이너, 퍼포먼스 마케터와 같이 추가 인원이 구성될 수 있다. 각 롤(Roe)에 대한 역할과 설명은 책에 나와 있으므로 나는 내가 하고자 하는 데이터분석가에 대한 정의와 역..
다중변수(Multiple RV)와 연합분포 이번 포스팅에서는 다중변수의 연합 CDF와 다중변수가 이산확률변수(Discrete), 연속확률변수(Continuous)할 때를 나누어서 살펴보려고 한다. 우리는 여기서 다중변수를 2개의 변수로만 구성된 경우로 한정해서 설명한다. 1. Bivariate Random Variable의 연합분포 2. 이산확률변수일 때의 연합분포 3. 연속확률변수일 때의 연합분포 1. Bivariate Random Variable의 연합분포 지금까지는 한개의 변수로만 이루어진 Sample Space를 다루어 왔지만 이제 다중변수라고 불리는 변수가 2개인 2개의 Sample Space에 대해서 다룰려고 한다. 2개로 이루어진 다중변수는 다음과 같이 두개의 Sample Space가 존재한다. 이를 Joint(연합) 확률로 바꾸게 ..
[그로스해킹] 그로스해킹의 정의와 구성 데이터분석가라는 희망직무를 선정한 후에 어떤 역량이 필요한지 찾아보았다. 그리고 '그로스해킹'이라는 단어를 알게 되었다. 그리고 무작정 그로스해킹을 파헤치기 위해 책 한 권을 샀다. 분량이 많은 책이지만 부분적으로 읽을 때마다 책의 내용을 문서화시키고 나중에 적용하기 위해 남겨놓으려고 한다. 그럼 시작하자. (책 링크는 글 하단에 남겨놓겠습니다.) 그로스해킹은 무엇인가? 여기서 그로스는 Growth다. 즉, 한국어로 성장이라는 의미이다. 그로스해킹이라는 용어는 기업의 성장을 촉진시키기 위한 방법론 중 하나이다. 그렇다면 구체적으로 그로스해킹은 어떤 방법을 의미하는 걸까? 기업들은 스타트업으로 출시한 후 열정적인 마케팅과 기술력으로 어느정도 성장..
정규분포(Gaussian Distribution)의 정의와 활용 이번 포스팅에서 다룰 내용들은 다음과 같다. 1. 정규분포의 정의 2. 이항분포에서 정규분포의 활용 3. 정규분포의 Error Function 4. 파스칼(Pascal)분포에 대한 간략한 개념 1. 정규분포의 정의 정규분포는 가우시안(Gaussian)분포라고도 부른다. 정규분포는 기본적으로 연속확률변수(Continuous)일 때를 다룬다. 그래서 정규분포의 확률변수는 연속확률변수이다. 그리고 정규분포는 이미지 센서, 오디오 음성 신호, 모바일 채널 등과 같은 case들에서 쓰인다. 또한 Quantization(양자화)과 같은 아날로그 데이터를 처리할 때도 가우시안 분포로 나타낼 수도 있지만 보통 연속균등분포(Uniform Dist)으로 나타낸다. 그렇다면 정규분포의 PDF(확률밀도함수), CDF(누적밀도..
지수분포(Exponential)와 어랑분포(Erlang) 이번 포스팅에서는 다음과 같은 주제들을 살펴보려고 한다. 지수분포의 특성 지수분포와 포아송분포의 관계 어랑(Erlang)분포의 정의와 평균과 분산 연속균등분포(Uniform Distribution)의 평균과 분산 그에 앞서서 그동안 다루었던 우선 포아송 분포와 지수 분포에 대해서 복습해보고 가자. 위 그림을 천천히 읽어보면서 포아송 분포, 지수분포의 각 확률변수는 뭘 의미하는지, 그리고 평균값과 분산값은 각각 뭐였는지 상기해보자. 1. 지수분포의 특성 저번 포스팅에서 베르누이 시행과 관련된 기하분포(Geometric Dist)의 특성 중 하나인 Forgetfulness에 대해서 알아보았다. 지수분포도 이러한 Forgetfulness 특성을 갖는다. (기하분포의 Forgetfulness 특성 포스팅 : h..
베르누이분포와 이항분포의관계 그리고 체비쇼프 부등식 이번 포스팅에서는 다음과 같은 내용들에 대해서 소개하려 한다. 체비쇼프 부등식 베르누이 분포 이항분포 기하분포의 Forgetfulness 특징 1. 체비쇼프 부등식(Chebyshev Inequality) 체비쇼프 부등식은 기본적으로는 이산확률변수(Discrete)와 연속확률변수(Continuous)한 경우 둘다 모두 성립된다. 식은 다음과 같다. 우리가 이전 포스팅에서 다룬 Error모델을 참고해보면 예측값(추정값)과 실제값의 차이를 가장 최소화 하는 확률변수 x값은 E[X] 값으로 평균값이라는 것을 알게 되었다. 체비쇼프 부등식은 이 평균값과 연관이 되어 있는데 일반화된 식은 그림 속 분홍색 형광펜으로 동그라미 쳐진 부분이지만 예시를 들면서 의미를 이해해보자. 밑의 식을 보면 a=2시그마x 라는 분산값..
기하분포, 평균과 분산의 활용(Error Model) 그리고 조건부평균 이번 포스팅에서는 기하분포와 왜 Error Model를 설계할 때 평균과 분산을 활용하는지, 그리고 조건부평균에 대해서 소개하려고 한다. 우선 기하분포부터 살펴보자. 1. 기하분포(Geometric Distribution) 기하분포의 RV(확률변수)는 어떤 사건에서 첫번째로 성공할 때까지의 시행의 횟수를 의미한다. 기하분포에 대한 확률값을 구하는 방법을 네트워크 간 데이터 송수신을 예시로 들어보겠다. t = 송신자, r = 수신자로 송신자가 수신자에게 에러 없이 제대로 데이터를 보낼 확률을 P라고 하자. 먼저 1번만에 송신을 성공할 확률은 P이다. 2번만에 송신에 성공할 확률은 (1-P)*(P)이다. 그러면 k번만에 송신에 성공할 확률은 바로 위의 Pk(k)의 식과 같이 나온다. 이 때, k값은 0을 포..
평균과 분산 그리고 포아송분포와 지수분포 이번 포스팅에서는 확률변수의 평균과 분산을 구하는 방법, 그리고 포아송분포와 지수분포의 특성에 대해 소개하는 시간이다. 우선 산술평균에 대해서 알아보고 가보자. 1. 산술평균Arithmetic Average) 산술평균은 왼쪽 식처럼 우리가 보통 평균을 구하는 것처럼 계산을 하면 된다. 단 이제 특정한 사건이 발생하는 횟수가 각각 다를 때는 오른쪽 그림과 같이 평균값을 구하게 된다. 즉, 각 사건과 그에 mapping되는 확률변수를 곱하여 모두 더한 값을 발생가능한 사건 모두의 합으로 나누어 주게 된다. 2. 확률변수의 평균(Expectation) Expectation이라 함은 평균이며 mean이라고도 부른다. 이전에 우리가 공부한 것처럼 확률변수는 이산(Discrete), 연속(Continuous)확률변..
연속확률변수와 확률밀도함수 이번 포스팅에서는 저번 포스팅의 마지막에서 예고했던 것처럼 Continouous한 Random Variable인 연속확률변수와 확률밀도함수에 대해서 배운 내용을 적으려고 한다. 저번 포스팅에서 말하지 못했던 것인데 이전 글에서 Discrete RV에 해당하는 한국어 수학용어는 '이산확률변수' 이다. 간단하게 이산확률변수에 대한 함수인 PMF(Probability Mass Function)의 수식에 대해서 짚고 넘어가자. 밑의 그림의 X라는 사건에 대한 x라는 확률변수의 확률값은 x=xi일때 xi만큼 평행이동한 델타값(확률값)을 모두 더해준 합과 같아진다. (델타함수에 대한 개념은 이전 포스팅을 참고하시면 됩니다!) https://techblog-history-younghunjo1.tistory.com/3..