본문 바로가기

Data Science

(158)
시계열 데이터(Time-Series) 분석, 예측방법 이번 포스팅에서는 시계열 데이터를 분석과 미래의 값을 예측하기 위해 사용하는 구체적인 방법들에 대해서 소개하겠다. 필자는 어떤 주제를 공부하기 전에 큰 숲이라는 개괄적인 부분보고 세부적인 부분으로 들어가는 이상한(?)습관이 있어서 우선 예측방법의 큰 틀이 어떻게 되어있는지 보고 넘어가자. 위 그림과 같이 예측방법이 여러가지로 분류된다. 우리는 앞으로 소개할 방법들은 위 그림에서 '고전적 방법-평활법-이동평균과 지수평활법' 의 여러가지 방법들에 대해서 소개하려 한다. 목차는 다음과 같다. 1. 단순이동평균법 2. 선형이동평균법 3. 가중이동평균법 4. 단순지수평활법 5. Holt 선형지수평활법 6. Holt winters 계절지수평활법 1. 단순이동평균법 단순이동평균법은 추세가 있는 경우의 데이터에 적합하..
[ML] 데이터 학습방법으로서 MLE, MAP ※해당 게시물에 사용된 일부 자료는 순천향대학교 빅데이터공학과 정영섭 교수님의 머신러닝 전공수업 자료에 기반하였음을 알려드립니다. 이번 포스팅에서는 간단한 주제를 다룰텐데, 바로 데이터들이 모델에서 학습하는 방법에 대한 내용이다. 학습방법으로서는 MLE(Maximum Likelihood Estimation)와 MAP(Maximum A Posteriori estimation)이 존재한다. 하나씩 알아보자. 1. MLE(Maximum Likelihood Estimation) 2. MAP(Maximum A Posteriori estimation) 1. MLE(Maximum Likelihood Estimation) 우선 MLE는 모델 파라미터를 Observation data(이미 관측된 데이터)에만 기반하여 추..
LU Decomposition(LU 분할) 이번 포스팅에서는 저번 시간에 계속적으로 배웠던 '가우스 소거법(Gauss Elimination)' (줄여서 'GE'라고 부르기도 한다.)에서 이끌어낼 수 있는 LU 분할에 대해서 알아보려고 한다. 기본적으로 가우스 소거법의 계산과정을 알아야 LU분할이라는 개념이 이해가 되기 때문에 가우스 소거법을 모른다면 이전 포스팅을 참고하자. (가우스 소거법을 알고 싶다면? https://techblog-history-younghunjo1.tistory.com/67) 앞으로 소개할 목차는 다음과 같다. 1. LU Decomposition (LU분할) 2. Triangular Factors 3. Pivoting을 고려한 LU분할 1. LU Decomposition 사람에 따라 LU Factorization이라고도 부..
시계열 데이터(Time-Series Data)의 특징과 모형 앞으로 게시할 포스팅은 주로 순천향대학교 빅데이터공학과 김영민 교수님의 '시계열 분석' 수업자료에 기반을 두었으며 포스팅 내용의 출처는 김영민 교수님의 수업자료에 있음을 우선적으로 알려드립니다. 데이터사이언스 분야에서도 데이터분석가가 되기 위해서는 통계적인 지식이 필수적이다. 통계라는 것은 시간과 무조건적으로 관련되어 있으며 이는 곧 시계열 자료 즉, Time-Series Data와도 밀접하게 연관되어 있음을 의미하기도 한다. 학교에서 '시계열 분석' 전공과목을 들으면서 이 학습시간을 효율적으로, 그리고 나의 머릿속에 오래도록 남기게 하기 위해서 시계열 분석 관련 포스팅을 남기려 한다. 블로그에서는 주로 이론적인 면을 다루며 R을 사용하여 시계열 분석을 실습해보는 코드는 해당 Github의 레포지토리에 ..
1차 연립방정식과 가우스 소거법(Gauss Elimination) 이번 포스팅에서는 Singular Case에 대해 알아보고 저번 포스팅에서 소개했었던 가우스 소거법의 구체적인 절차(방법)에 대해서 소개하려고 한다. 목차는 다음과 같다. 1. Singular Case란? 2. Gauss Elimination(가우스 소거법) 절차 1. Singular Case란? 우선 정의부터 하자면 Singular Case란 Unique한 해를 가지지 않을 때를 말하며 두 가지의 Case가 존재한다. No solution : 해가 존재하지 않아서 해결책이 없는 경우이다. Infinite solution : 해가 무수히 많아서 해결책이 무한한 개수인 경우이다. 다음 그림을 보면서 row form(도형, 직선)일 때와 Column form(벡터)일 때 두 가지 예시를 나누어서 살펴보자. ..
[ML] PCA(주성분분석), SVD, LDA by Fisher ※해당 게시물에 사용된 일부 자료는 순천향대학교 빅데이터공학과 정영섭 교수님의 머신러닝 전공수업 자료에 기반하였음을 알려드립니다. 이번 포스팅에서는 선형대수의 벡터를 기반으로 하는 모델들에 대해서 알아보려고 한다. 앞으로 소개할 모델들을 이해하기 위해서는 벡터공간에서의 기저(Basis)에 대한 개념 이해가 중요하다. 필자도 이 모델에 대한 수업을 들으면서 선형대수의 기초 개념 공부의 필요성을 느꼈고 개인적으로 오픈 소스 강의를 통해 학습을 진행하고 있다. 앞으로 소개할 목차는 다음과 같다. 1. 기본적으로 알고가야 할 개념 2. Eigen Value(고유값) Decomposition 3. SVD(Singular Value Decomposition) 4. PCA(Principal Component Anal..
선형성(Linearity) 정의 및 1차연립방정식의 의미 선형대수 카테고리에서는 한양대학교 KOCW 오픈강의 이상화 교수님의 선형대수 강의를 듣고 이에 대한 학습 포스팅을 남기려고 한다. 이번학기에 전공과목으로 배우기 시작한 머신러닝 과목에서 확률과 통계 개념도 등장했지만 모델에 따라 선형대수에 관한 개념도 많이 등장해서 개인적으로 선형대수학을 공부하려고 한다. 첫 포스팅은 선형대수의 '선형성'이라는 것에 대한 정의와 1차연립방정식의 의미에 대해 알아보자. 1. 선형성(Linearity) 우선 '선형'이라는 말은 "특정 함수나 Operation(연산)이 Linear(선형적)하다." 라는 말에 사용될 수 있다. "특정함수나 연산이 Linear하다"라고 하기 위해서는 두 가지 조건을 만족해야 한다. Superposition(중첩) : f(x1+x2) = f(x1)..
[ML] Linear Regression(선형회귀)& Logistic Regression ※해당 게시물에 사용된 일부 자료는 순천향대학교 빅데이터공학과 정영섭 교수님의 머신러닝 전공수업 자료에 기반하였음을 알려드립니다. 이번 포스팅에서는 가장 전형적인 머신러닝 모델이라고 할 수 있으며 연속적인 값을 예측할 수 있는 Linear Regression(선형회귀) 모델에 대해 알아보려고 한다. 또한 Linear Classification 이라고도 하며 Linear(선형)으로 Class(Label)을 분류할 수 있는 Logistic Regression에 대해 알아본다. 목차는 다음과 같다. 1. Linear Regrssion 2. Linear Regression의 Ridge Regression 3. Linear Regression의 Lasso Regression 4. Linear Classificat..
[ML] Bayesian Networks(베이즈 네트워크) ※해당 게시물에 사용된 일부 자료는 순천향대학교 빅데이터공학과 정영섭 교수님의 머신러닝 전공수업 자료에 기반하였음을 알려드립니다. 이번 포스팅에서는 Bayes Rule에 기반으로 하는 머신러닝 모델인 Bayesian Networks에 대해 알아보려고 한다. 그 전에 먼저 Bayesian Networks는 Bayes Classifier의 일반화 버전이다. 어찌됬든 두 개가 다른 모델이지만 Bayes에 관련된 머신러닝 모델들 여러가지를 포함하는 용어가 Bayesian Networks이다. 본격적인 머신러닝 모델들을 배우기 전에 가장 기반이 되는 Bayes Rule(베이즈 정리)를 알아보고 가자. 앞으로 전개해나갈 내용에 대한 목차는 다음과 같다. 1. Bayes Rule(베이즈 정리) 개념 2. Bayes ..
[ML] Decision Tree(의사결정나무) ※해당 게시물에 사용된 일부 자료는 순천향대학교 빅데이터공학과 정영섭 교수님의 머신러닝 전공수업 자료에 기반하였음을 알려드립니다. 이번 포스팅에서 머신러닝 모델 종류 중 가장 쉽고 단순한 Decision Tree(의사결정나무) 모델에 대해서 알아보려고 한다. 앞으로 전개할 컨텐츠 순서는 다음과 같다. 1. Decision Tree의 전체적인 구조 2. 좋은 Tree 란? 3. Decision Tree 생성 알고리즘인 'ID3 알고리즘' 4. Tree 생성 순서 5. Decision Tree의 기타 특징 1. Decision Tree의 전체적인 구조 의사결정나무의 전체적인 구조는 우리가 지금껏 살아오면서 쉽게 접했을 수 있는 모형이다. 다음 그림을 보면서 Tree를 구성하고 있는 여러 부분들의 용어를 알아..
[ML] 머신러닝의 종류와 용어개념 이번 학기에 머신러닝이라는 전공수업을 듣게 됬다. 저번학기 부터 관심이 간 분야지만 사실 이전에는 공부하면서 등장하는 개념을 알긴 아는 것 같은데 남에게 확실히 뭐라고 설명할 수 있을 정도로 지식의 깊이가 깊지 않았다. 이번학기 수업을 기반으로 해서 시험공부 뿐만 아니라 머신러닝의 기초를 다잡기 위해서 블로그 포스팅을 이용해보려고 한다. 개인적인 공부습관이 시험공부를 하기 위해서는 따로 연습장에 나만의 필기를 무조건 하는 스타일이라서 중간 중간 애매모호한 개념을 직관적으로 이해하기 위해서 필기 그림을 이용하는 것은 이해해 주길... 요즘 코로나로 인해서 아쉽게도 사이버강의로 진행하지만 최대한 따라가기 위해서 갓 구글링의 도움을 빌려가며 같이 공부하고 있다. 오늘은 첫 포스팅으로 머신러닝의 종류와 용어개념..
[통계] 표본분산을 통한 모분산 예측과 카이제곱 분포 "표본평균의 평균값은 모평균의 값과 같다" 라는 공식을 이용해서 우리는 표본평균을 통해 모수(모집단의 특성)인 모평균을 구해보았다. 이번에는 표본분산을 통해서 어떻게 모분산을 예측하는지, 그리고 또 다른 분포로 카이제곱 분포의 개념에 대해서 알아보려고 한다. 우선 본론에 들어가기 앞서 저번 시간에 '신뢰도'라는 개념이 글 말미에 잠깐 등장하였지만 자세히는 소개하지 않아서 인트로로 신뢰도에 대해 소개하고 표본분산으로 넘어가려고 한다. 우선 신뢰도에는 대표적으로 95%, 99% 신뢰도가 존재한다. 밑의 그림을 보자. 저번시간에 구해봤던 것처럼 표본평균의 평균값은 모평균의 값과 같은 사실, 표본평균의 분산값은 모집단의 분산값을 표본의 갯수 n개로 나눈값과 같다 는 두 가지 사실을 알게 되었었다. 또한 우리는 ..
[통계] 표본평균 (Sample Mean)을 통한 모평균 예측 저번 포스팅을 마지막으로 이제 확률과 통계 중 확률에 대한 이론 시간을 모두 끝이 났다. 이제 통계의 기초에 대한 내용을 포스팅하려고 한다. 하지만 통계도 확률 공부의 연장선이며 통계는 확률의 이론을 기반으로 한다는 것을 잊지말자. 본격적인 내용으로 들어가기 전에 통계학의 기능과 용어에 대해 간단히 알아보자. 1. 통계학의 기능과 용어 먼저 통계학의 기능부터 알아보자. 첫 번째로는 데이터들에 대한 설명을 할 수가 있다. 예를 들어, 우리가 앞서 배웠던 평균(mean), 분산(Variance), 중앙값(Median) 등이 대표적으로 들 수 있겠다. 두 번째로는 Inference(추론)에 관한 내용이다. 이론적으로 풀어 쓴다면 데이터들로부터 특정한 파라미터를 estimate하거나 predict하는 것인데 예..
퓨리에(Fourier) 변환과 확률변수의 특성함수 이번 포스팅에서는 퓨리에변환과 이를 역 정리시킨 Inverse 퓨리에변환과 특성함수(Characteristic)에 대해서 알아보려고 한다. Inverse 퓨리에변환은 수학에서 많은 유형의 함수에 대해 푸리에 변환에서 함수를 복구 할 수 있다. 보통 퓨리에변환은 주파수공간으로 확장시킬 때 이용하는데 공식은 밑의 식처럼 이루어진다. 1. 퓨리에변환과 Inverse 퓨리에변환 여기서 우리가 알아야 할 개념은 3가지이다. 필기 속에서 j, w, T 라고 표기된 부분은 다음과 같은 개념을 이용한다. j : 복소수의 허수로서 제곱을하면 -1이 된다. w : w는 angular Frequency로서 2πf 가된다. 여기서 또 f = frequency로 우리가 흔히 알고히는 헤르츠(Hz)를 의미한다. T : T는 Pe..
두 확률변수로 만드는 또다른 두개의 확률변수 이전 포스팅에서는 이산확률변수 두 개가 합해져 만들어지는 새로운 확률변수를 Convolution을 이용해 계산하는 내용에 대해서 알아보았다. 이번 포스팅에서는 X,Y 라는 두 확률변수가 Z,W 라는 또 다른 두 개의 확률변수를 만드는 방법에 대해서 설명하려고 한다. 텍스트로만으로는 이해가 안 될 수도 있을 것 같아 필기로 표시해보았다. 1. 공식 위 그림 처럼 X,Y라는 기존의 확률변수들로 Z,W라는 새로운 확률변수를 만들려고 한다. 이 때 우리는 역함수 관계와 Joint 확률, 그리고 자코비안(J) 행렬이라는 개념을 이용해야 한다. 역함수관계와 Joint 확률에 대해서는 그동안 다뤄왔던 내용이기 때문에 따로 설명은 안하지만 자코비안 행렬에 대한 개념에 대해서는 설명해보려고 한다. 우선 그림을 예시로 보..
이산확률변수의 합과 컨볼루션(Convolution) 저번 포스팅에서는 연속확률변수의 합과 컨볼루션에 대해 다루었다. 기존에 예고했던 것과 같이 이번 포스팅에서는 이산확률변수의 합을 구하기 위해 컨볼루션을 이용하는 것에 대해 알아보겠다. 또한 각 독립적인 이항분포, 포아송분포의 합과 컨볼루션에 대해 다루려고 한다. 목차는 다음과 같다. 1. 이산확률변수의 합과 컨볼루션 2. 서로 독립적인 두 개의 이항분포(Binomial Distribution)의 합 3. 서로 독립적인 두 개의 포아송분포(Poisson Distribution)의 합 1. 이산확률변수의 합과 컨볼루션 두 개의 독립적인 이산확률변수 X,Y의 합인 Z=X+Y의 확률분포를 구하기 위해서 연속확률변수일 때와 마찬가지로 *(컨볼루션)을 이용하게 된다. 밑의 그림을 보면서 이산확률변수의 컨볼루션 식을..
연속확률변수의 합과 컨볼루션(Convolution) 저번 포스팅에서는 확률변수 Y가 X에 대한 함수로 정의될 때 확률변수의 함수, 그리고 이에 대한 평균값을 구하는 방법에 대해서 알아보았다. 이번 포스팅에서는 이전과 달리 연속확률변수 X,Y가 존재할 때 이 두 개 변수의 합을 새로운 확률변수 S에 대해 정의하는 방법에 대해서 얘기해보려고 한다. 참고로 다음시간에는 이산확률변수의 경우에 대해 다룰 예정이다. 1. 두 개의 연속확률변수의 합 위 그림처럼 X+Y=S 라는 두 개의 확률변수 X,Y의 합을 S라는 새로운 확률변수로 정의해보자. 그렇다면 이 새로운 확률변수 S의 PDF함수는 어떻게 될까? 먼저 우리가 인지해야 할 점은 이 새로운 확률변수 S에 대한 PDF함수가 기존에 배웠던 fxy(x,y)라는 두 확률변수의 Joint 확률의 PDF식과 관련이 있을 ..
확률변수의 함수(Functions of Random Variables) 이번 포스팅에서는 두 개의 확률변수를 다루지만 확률변수 Y가 X에 대한 함수로 이루어진 확률변수의 함수에 대해서 다루어보려고 한다. 그리고 확률변수의 함수일 때 평균값을 구하는 방법도 알아보자. 1. 확률변수의 함수 X에 관련된 함수로 정의된 Y=g(X) 라는 함수의 종류에 따라 확률변수 X와의 확률분포와 같을 수도 다를수도 있다. 위 그림에서 오른쪽 예시를 통해 살펴보자. 파란색 1번에서는 Y=2X+1 이라는 일종의 g(X)함수가 주어졌다. 이 때는 확률변수 Y값에 따른 확률이 확률변수 X일 때와 모두 같다. 따라서 확률변수 Y=2X+1 의 확률분포 그림은 확률변수 X의 확률분포와 같을 것이다. 하지만 빨간색 2번에서는 Y=X제곱이라는 함수가 주어졌고 확률변수 Y에 대한 확률값은 각각 1/2, 1/2로..
조건부평균과 공분산(Covariance)과 상관계수 이번 포스팅에서는 조건부평균과 공분산에 대해서 소개하려고 한다. 저번 포스팅에서 소개했던 다중변수에서 조건부 확률분포와 밀도함수에 대해서 알아보았다. 그 내용의 연장선으로 변수가 2개일 때 조건부확률의 평균값을 구해보고 공분산에 대한 개념에 대해서 알아보자. 1. 다중변수일 때 조건부평균 저번 포스팅에서 언급한 것처럼 다중변수일 때의 조건부평균에 대한 식을 세울 때는 조건에 해당하는 확률변수 값이 특정한 값일 때의 확률을 구하는 것이다. 즉 위 그림 처럼 E[X|Y] = E[X|Y=y] 일 때이다. 그렇다면 이제 X,Y 2개의 확률변수가 존재할 때 조건부확률의 평균값을 구해보자. 평균값에 대한 공식은 xfx|y(x|y)dx 에 대한 식이다. 우리는 저번 포스팅에서 배웠던 fx|y(x|y) = fxy(x,..
연합확률밀도함수와 조건부 확률밀도함수 이번 포스팅에서는 다중확률변수에 기반한 연합확률밀도함수와 조건부 확률밀도함수에 대해서 소개해보려고 한다. 1.연합확률밀도함수 저번 포스팅에 이어서 다중연속확률변수일 때의 확률밀도함수를 구하는 걸 복습겸 이어서 소개해보겠다. 포인트는 x,y라는 두 개의 확률변수로 이중적분, 이중미분을 한다는 것이다. 다음으로는 y=x라는 직선그래프의 예시와 원 그래프의 경우 두 가지로 살펴보자. 단 원 그래프 일때는 모든 구간의 확률이 일정한 Uniform Distribution이다. 각 두개의 그래프에서 x,y 특정 구간에 대해서 CDF함수를 구하는 것은 위 그림과 같다. 2. 조건부 확률분포 이번엔 조건부확률일 때의 확률분포에 대해서 알아보자. 기존처럼 확률변수가 Discrete, Continuous일 때 각각의 Ca..