본문 바로가기

Data Science

(158)
다중변수(Multiple RV)와 연합분포 이번 포스팅에서는 다중변수의 연합 CDF와 다중변수가 이산확률변수(Discrete), 연속확률변수(Continuous)할 때를 나누어서 살펴보려고 한다. 우리는 여기서 다중변수를 2개의 변수로만 구성된 경우로 한정해서 설명한다. 1. Bivariate Random Variable의 연합분포 2. 이산확률변수일 때의 연합분포 3. 연속확률변수일 때의 연합분포 1. Bivariate Random Variable의 연합분포 지금까지는 한개의 변수로만 이루어진 Sample Space를 다루어 왔지만 이제 다중변수라고 불리는 변수가 2개인 2개의 Sample Space에 대해서 다룰려고 한다. 2개로 이루어진 다중변수는 다음과 같이 두개의 Sample Space가 존재한다. 이를 Joint(연합) 확률로 바꾸게 ..
정규분포(Gaussian Distribution)의 정의와 활용 이번 포스팅에서 다룰 내용들은 다음과 같다. 1. 정규분포의 정의 2. 이항분포에서 정규분포의 활용 3. 정규분포의 Error Function 4. 파스칼(Pascal)분포에 대한 간략한 개념 1. 정규분포의 정의 정규분포는 가우시안(Gaussian)분포라고도 부른다. 정규분포는 기본적으로 연속확률변수(Continuous)일 때를 다룬다. 그래서 정규분포의 확률변수는 연속확률변수이다. 그리고 정규분포는 이미지 센서, 오디오 음성 신호, 모바일 채널 등과 같은 case들에서 쓰인다. 또한 Quantization(양자화)과 같은 아날로그 데이터를 처리할 때도 가우시안 분포로 나타낼 수도 있지만 보통 연속균등분포(Uniform Dist)으로 나타낸다. 그렇다면 정규분포의 PDF(확률밀도함수), CDF(누적밀도..
지수분포(Exponential)와 어랑분포(Erlang) 이번 포스팅에서는 다음과 같은 주제들을 살펴보려고 한다. 지수분포의 특성 지수분포와 포아송분포의 관계 어랑(Erlang)분포의 정의와 평균과 분산 연속균등분포(Uniform Distribution)의 평균과 분산 그에 앞서서 그동안 다루었던 우선 포아송 분포와 지수 분포에 대해서 복습해보고 가자. 위 그림을 천천히 읽어보면서 포아송 분포, 지수분포의 각 확률변수는 뭘 의미하는지, 그리고 평균값과 분산값은 각각 뭐였는지 상기해보자. 1. 지수분포의 특성 저번 포스팅에서 베르누이 시행과 관련된 기하분포(Geometric Dist)의 특성 중 하나인 Forgetfulness에 대해서 알아보았다. 지수분포도 이러한 Forgetfulness 특성을 갖는다. (기하분포의 Forgetfulness 특성 포스팅 : h..
베르누이분포와 이항분포의관계 그리고 체비쇼프 부등식 이번 포스팅에서는 다음과 같은 내용들에 대해서 소개하려 한다. 체비쇼프 부등식 베르누이 분포 이항분포 기하분포의 Forgetfulness 특징 1. 체비쇼프 부등식(Chebyshev Inequality) 체비쇼프 부등식은 기본적으로는 이산확률변수(Discrete)와 연속확률변수(Continuous)한 경우 둘다 모두 성립된다. 식은 다음과 같다. 우리가 이전 포스팅에서 다룬 Error모델을 참고해보면 예측값(추정값)과 실제값의 차이를 가장 최소화 하는 확률변수 x값은 E[X] 값으로 평균값이라는 것을 알게 되었다. 체비쇼프 부등식은 이 평균값과 연관이 되어 있는데 일반화된 식은 그림 속 분홍색 형광펜으로 동그라미 쳐진 부분이지만 예시를 들면서 의미를 이해해보자. 밑의 식을 보면 a=2시그마x 라는 분산값..
기하분포, 평균과 분산의 활용(Error Model) 그리고 조건부평균 이번 포스팅에서는 기하분포와 왜 Error Model를 설계할 때 평균과 분산을 활용하는지, 그리고 조건부평균에 대해서 소개하려고 한다. 우선 기하분포부터 살펴보자. 1. 기하분포(Geometric Distribution) 기하분포의 RV(확률변수)는 어떤 사건에서 첫번째로 성공할 때까지의 시행의 횟수를 의미한다. 기하분포에 대한 확률값을 구하는 방법을 네트워크 간 데이터 송수신을 예시로 들어보겠다. t = 송신자, r = 수신자로 송신자가 수신자에게 에러 없이 제대로 데이터를 보낼 확률을 P라고 하자. 먼저 1번만에 송신을 성공할 확률은 P이다. 2번만에 송신에 성공할 확률은 (1-P)*(P)이다. 그러면 k번만에 송신에 성공할 확률은 바로 위의 Pk(k)의 식과 같이 나온다. 이 때, k값은 0을 포..
평균과 분산 그리고 포아송분포와 지수분포 이번 포스팅에서는 확률변수의 평균과 분산을 구하는 방법, 그리고 포아송분포와 지수분포의 특성에 대해 소개하는 시간이다. 우선 산술평균에 대해서 알아보고 가보자. 1. 산술평균Arithmetic Average) 산술평균은 왼쪽 식처럼 우리가 보통 평균을 구하는 것처럼 계산을 하면 된다. 단 이제 특정한 사건이 발생하는 횟수가 각각 다를 때는 오른쪽 그림과 같이 평균값을 구하게 된다. 즉, 각 사건과 그에 mapping되는 확률변수를 곱하여 모두 더한 값을 발생가능한 사건 모두의 합으로 나누어 주게 된다. 2. 확률변수의 평균(Expectation) Expectation이라 함은 평균이며 mean이라고도 부른다. 이전에 우리가 공부한 것처럼 확률변수는 이산(Discrete), 연속(Continuous)확률변..
연속확률변수와 확률밀도함수 이번 포스팅에서는 저번 포스팅의 마지막에서 예고했던 것처럼 Continouous한 Random Variable인 연속확률변수와 확률밀도함수에 대해서 배운 내용을 적으려고 한다. 저번 포스팅에서 말하지 못했던 것인데 이전 글에서 Discrete RV에 해당하는 한국어 수학용어는 '이산확률변수' 이다. 간단하게 이산확률변수에 대한 함수인 PMF(Probability Mass Function)의 수식에 대해서 짚고 넘어가자. 밑의 그림의 X라는 사건에 대한 x라는 확률변수의 확률값은 x=xi일때 xi만큼 평행이동한 델타값(확률값)을 모두 더해준 합과 같아진다. (델타함수에 대한 개념은 이전 포스팅을 참고하시면 됩니다!) https://techblog-history-younghunjo1.tistory.com/3..
확률변수(RV)와 누적분포함수(CDF) 이번 포스팅에서는 확률변수의 개념과 누적분포함수에 대해서 알아보려고 한다. 1. 확률변수(RV) 우리는 이전의 포스팅까지 Sample Space에서 발생하는 특정한 사건에 대해서 다루어 왔다. 이러한 사건(outcome)에 대해 mapping한 Real number에 해당하는 것이 바로 확률변수이다. 동전 1개 던지기로 예시를 들어보자. 동전 1개를 던져서 나올 수 있는 경우의 수는 앞면(H), 뒷면(T) 두 가지이다. 이 각 두개의 사건을 각 1, 0 이라는 Real number를 mapping시켜 주는 것이 확률변수이다. 따라서 만약 앞면이 나올 확률변수와 확률을 구한다고 하면 P(H) = P(1) = 1/2이 된다. 왼쪽 그림 용어 필기속 "RV는 보통 X,Y,Z(대문자)" 라고 되어 있는데 여기서..
[딥러닝] NN(Neural Network)의 등장과 개념 이번 포스팅에서는 딥러닝 즉, 뉴럴네트워크(NN)의 등장과 개념, 그리고 뉴럴네트워크의 한계를 Backpropagation(역전파)를 통해서 어떻게 해결했는지에 대해 알아보려고 한다. 1. 뉴럴네트워크의 등장 우리가 다루었던 선형회귀, 로지스틱 회귀, 소프트맥스 이러한 머신러닝 모델들은 linear로 여러가지 문제들을 해결할 수 있었다. 하지만 절대 해결할 수 없는 문제가 하나 있었으니.. 그것은 바로 XOR 문제이다. XOR이란 다음과 같다. X Y XOR 0 0 0 1 0 1 0 1 1 1 1 0 OR 과 AND 그리고 XOR 문제를 그래프로 나타내보면 다음과 같다. 그림에서 보다시피 OR 과 AND 는 기본적으로 Linear를 그려서 분류를 할 수 있다. 하지만 XOR은 어떤 방식으로라도 Linea..
순열(Permutation)과 조합(Combination) 이번 포스팅에서는 순열과 조합에 대해서 알아보는 시간이다. 순열과 조합 두개를 모두 일컬어 'Combinatorial Analysis'라고도 부른다. 1. 순열(Permutation) : 서로 다른 n개를 일렬로 나열하는 것이다.(line arrangement for 'n' different objects) 이때 순서(order)는 고려한다. 그림으로 예시를 들어보자면 그림 속 왼쪽의 그림과 같이 된다. n개 중에서 r개를 일렬로 쭉 세울 대 nPr이라는 수식이 나오게 되고 !(팩토리얼)로 풀어내게 되면 위와 같은 수식이 된다. 참고로 0! 은 왜 1일까? 에 대해서 고민한다면 0! 이라는 것은 '아무것도 나열하지 않는것 ' 이라는 것을 의미하기 떄문에 아무것도 나열하지 않는 것도 하나의 경우의 수이기 ..
조건부확률과 Bayes 정리 데이터 분석에 있어서 기본적으로 알아야 할 지식이 바로 통계지식이다. 사실 고등학교 이후로 통계의 'ㅌ'자도 본적이 없다.. 하지만 그래도 고등학교 시절 문과이긴 했지만 수포자가 아니었고 수학에 나름 흥미가 있었던 터라 공부하려는 의지가 조금은 불탄다.. 책으로 공부하기에는 너무나도 어렵고 막막하기 짝이 없는 통계 분야이기 때문에 open course를 이용해 한양대학교 이상화 교수님의 확률과 통계 강의를 이용하기로 했다. 설명하는 내용에 대한 첨부 사진은 본인이 직접 강의를 들으면서 필기한 사진으로 대체하려고 한다. 최대한 이해할 수 있도록 설명을 써놓은 거라서 인터넷에 떠도는 수식만 적혀있는 사진보다 내가 이해하기 쉬울 것 같아 이렇게 하려고 한다.(발글씨 아니도록 노력하겠습니다..!) 앞으로 강의 ..
[ML] 머신러닝 모델링 시 필요한 데이터 종류 그리고 Epoch란? 이번 포스팅에서는 간단한 개념정의를 하려고 한다. 그동안 배웠던 머신러닝 모델링에 관한 내용은 아니니 쉽게 접근하면 되겠다. 소개할 주제는 다음과 같다. 1. 머신러닝 모델시 Train / Test / Validation 데이터들의 각각의 개념 2. Online Learning이란? 3. Epoch와 Batch의 개념 머신러닝을 모델링 하고 성능을 검증할 때 위 그림과 같이 Raw Data에서 2가지 또는 3가지로 나누어 준다. 학습률(Learning rate)과 Regularization Strength 상수값을 튜닝하기 위해서는 가장 밑의 3가지(훈련/검증/테스팅) 종류로 나눈 방법을 사용한다. 이렇게 3가지 종류로 나누어서 검증하는 이유는 쉽게 예를들면 이렇다. 중,고등학교 시절 우리는 중간고사를 ..
[ML] Softmax Regression(다중분류모델) 이번 포스팅에서는 회귀분석의 연장이라고 할 수 있는 다중분류 모델에 대해서 다룰 예정이다. 보통 Multinominal Logistic Regression이라고도 불린다. 저번 시간에 다뤘던 로지스틱 리그레션은 합격/불합격, 스팸메일인가/아닌가, 사용자가 좋아하는 페이스북 피드인가/아닌가 같은 Binary(이진) 분류에 적합한 모델이였다. 이번에 소개할 모델은 2개 이상인 3개,4개,5개..의 Class들을 분류할 수 있는 모델이다. 하지만 이렇게 다중분류를 Binary를 이용해서 분류 할 수도 있다! 밑의 그림을 보자. 그림 속에 3가지 선이 있다. A인지 아닌지를 분류하는 Linear B인지 아닌지를 분류하는 Linear C인지 아닌지를 분류하는 Linear 이렇게 함으로써 밑의 수식을 만들어낼 수 ..
[ML] Logistic Regression for Classification 이번 포스팅에서는 바로 직전에 포스팅 했던 Linear Regression과는 조금 다른 로지스틱 리그레션에 대해 다룰 예정이다. 로지스틱 리그레션은 연속하는 값을 예측하는 선형회귀와 달리 원-핫 인코딩을 이용해서 분류 값을 예측하는 모델이다. 로지스틱 리그레션은 3가지만 기억하자! Linear Regression에 Sigmoid 씌우기 Cost값(예측,실제 값 차이) 측정 Cost값을 최소화 하기 위해 Gradient Decent(기울기 하강) 적용 우선, 선형회귀분석의 한계 부터 알아보자. 간단한 예시를 들어보겠다. 위 그림은 공부시간에 따른 시험의 합격/불합격에 대한 그래프이다. x축은 공부시간, y축은 시험 통과 여부이다. 우선 파란색으로 그려진 x와 o 표시로 된 데이터에 기반해서 파란색의 Li..
[ML] Linear Regression(선형회귀분석) 머신러닝에는 기본적으로 Supervised Learning(지도 학습) 과 Unsupervised Learning(비지도 학습)으로 크게 구분된다. 두개의 차이에 대해서 정의하자면, 미리 '정답'을 알려주면서 기계에게 정답을 학습시켜줌으로써 기계가 그 정답을 습득하고 스스로 알아서 정답을 판단해주는 것이 '지도학습'이다. 반면에 '정답'을 미리 알려주지 않고 패턴이 없는 비정형 데이터안에서 일정의 패턴을 찾는 것이 '비지도 학습'이라고 보면 된다. 이번 포스팅에서 작성할 머신러닝 모델은 지도학습 중에서도 가장 기본적인 모델인 Linear Regression(선형회귀분석)에 대해서 작성해보려고 한다. 우선 선형회귀분석이라 함은 연속적인 숫자값을 예측하는 것이다. 쉽게 설명하기 위해서 밑의 예시를 들어보자...
[ML] 머신러닝 모델: Decision Tree(의사결정나무) 머신러닝의 다양한 모델들 중 하나인 Decision Tree(의사결정 나무)에 대해서 알아보는 시간을 가졌다. 최근 DSC 동아리에서 시행하는 프로젝트로 다양한 머신러닝 용어와 모델들에 대해서 알게 되어 대학교에 들어와서 가장 생산적인 활동이 아니었나 싶다...흑 어찌 되었던 우선 많고 어려운 용어를 다 배제시키고 일상적인 단어로 표현한다면 '의사결정 나무 = 스무고개 놀이 ' 라고 보면 될 거 같다. 이래도 이 해가 어렵다면 밑에 그림을 보고 이해해보자! 의사결정나무는 분류와 회귀 방법에 모두 적용이 가능하다! 먼저 분류 과정에 대해 말하자면, 새로운 데이터가 특정 teriminal node에 속한다는 정보를 확인하고 해당 terminal node에서 가장 빈도가 높은 범주에 새로운 데이터를 분류! 시..
[용어 정리] ML/DL의 난제인 'Overfitting' 과 해결책인 'Validation' 요즘 머신러닝, 딥러닝 분야를 학습하다 보면 물론 수학적인 수식이나 공식이 어렵기도 하지만 한국어로 풀어쓴 설명에서 막히는 원인이 용어에 대한 개념숙지가 안되어 있는게 문제라고 생각한다. 따라서 용어를 순차적으로 학습해나가고 숙지하는 것이 또 하나의 숙제가 될 것 같다. 먼저 머신러닝의 개념과 난제부터 살펴보자. 머신러닝이라는 기법을 통해서 학습데이터로부터 모델을 찾아내고 실제 현장의 데이터를 그 모델에 input으로 넣었을 때 output을 찾는 것을 추론(inference) 라고 한다. 이렇게 학습 데이터로부터 열심히 머신러닝 모델을 구하고 실제 데이터를 입력했을 때 제대로 된 결과가 나오지 않을 수 있다. 그 이유는 학습데이터는 실제데이터의 부분집합이기 때문이다. 머신러닝과 딥러닝의 문제는 여기에서..
[Neural Network] ANN(인공신경망) ANN(Artificial Neural Networks)란, 인간의 뇌를 본따서 입력-은닉-출력 총 3가지 layer로 구성되 있다. ​ Perceptron과는 달리 다층으로 구성되어 있다! -> 차이점! 그래서 ANN= Multilayer Perceptron이라고도 부른다! ​ 이제 구체적으로 퍼셉트론과 ANN의 차이에 대해서 알아보겠다. 1) Layer 우선 layer 갯수에서 차이가 있다. 퍼셉트론은 앞서 말했다시피 총 3개의 층(입력-중간-출력층) 으로 구성되어 있는 반면 ANN은 입력층,출력층이 있으나 그 사이에 1개이상의 히든레이여를 갖고 있다! 그래서 ANN이 Multi layer이자 다중 perceptron이라고 부른다! ​ 2)패턴 인지 중간층이 하나인 퍼셉트론은 선형패턴(예측할 수 있는..