본문 바로가기

Data Science/시계열(Time-Series) 분석

(7)
ARMIA and SARIMA Models 이번 포스팅에서는 저번에 알아보았던 AR, MA, ARMA에 이어 차분을 추가한 ARIMA 모델과 계절적 AIRMA 모델인 SARIMA 모델에 대해 알아보려고 한다.(여기서 S는 Seasonal을 의미한다.) 목차는 다음과 같다. 1. ARIMA 모델 2. SARIMA 모델 3. 시계열 데이터의 예측력 검정방법 1. ARIMA 모델 ARIMA 모델은 기존에 배웠던 ARMA(AR+MA)모델에 차분을 추가해준 모델을 의미한다. 여기서 차분을 해주는 이유가 무엇일까? 바로 비정상성의 데이터를 정상화 시켜주기 위함이다. ARIMA 모델의 수학적 수식은 다음과 같다. 위 수식에서 C라는 상수값이 존재하는데, 이는 차분(d)의 값에 따라 C값이 달라지게 된다. d = 0 (차분을 하지 않을 때), 단순히 평균(me..
AR(AutoRegressive), MA(Moving Average), ARMA Models 이번 포스팅에서는 자기회귀 모형인 AR, 이동평균 모형인 MA, 이 두개를 합친 ARMA모형에 대해서 알아보려고 한다. 목차는 다음과 같다. 1. 모형식별을 위한 Correlogram 2. AR 모형 3. MA 모형 4. ARMA 모형 1. 모형식별을 위한 Correlogram ACF, PACF 함수 형태를 보고 모형을 식별할 때 사용하는 유용한 Correlogram이 있다. 이 표는 시차 k가 달라짐에 따라 ACF, PACF 함수값이 어떻게 달라지는지를 나타낸 것이며 한국어로는 자기상관성도표라고 부른다. 2. AR 모형 AR 모형은 자기회귀(AutoRegressive)모형이다. AR 모형에 적합한 시계열 데이터의 ACF, PACF 함수 그래프 형태는 위 Correlogram 도표에서 빨간색 네모칸 쳐진..
Box-Jenkins 방법론과 ARIMA 모델의 기초 한 학기 동안 시계열 분석이라는 수업이 끝나고 배운 내용 중에 기록하지 못했던 ARIMA 모델에 대한 내용을 뒤늦게 포스팅 해보려 한다. 이번 포스팅에서는 시계열 모형의 통계이론 체계를 구축하여 모델의 적합성을 살펴보는 Box-Jenkins 방법론이라는 것과 ARIMA 모델에 대한 기초에 대해서 알아보려 한다. 목차는 다음과 같다. 1. ARIMA 모델이란 무엇인가? 2. Box-Jenkins 방법론 절차 3. 백색 잡음(White Noise) 4. 확률 보행과정(Random Walk Process) 5. 정상시계열을 판단하는 방법 1. ARIMA 모델이란 무엇인가? 우선 ARIMA를 풀어 쓴다면 Auto Regressive Integrated Moving Average이다. ARIMA 모델은 확률에 기..
시계열의 분해법(Time-series decomposition) 이번 포스팅에서는 시계열의 분해법에 대해 알아보려고 한다. 이번에 다룰 내용은 이동평균평활법을 활용한 분해법과 전통적인 분해법이다. 시계열 데이터를 각 개별성분(추세, 계절, 순환, 불규칙)으로 분해하고 다시 결합하여 미래의 값을 예측하기도 하지만 분해법의 주요목적은 '변동요인을 잘 구분하기 위함'이라는 것을 기억하자. 포스팅의 목차는 다음과 같다. 1. 이동평균평활법을 활용한 시계열 분해 2. 전통적인 시계열 분해법 1. 이동평균평활법을 활용한 시계열 분해 이동평균평활법은 시계열 데이터의 '불규칙 성분'을 제거하기 위해 사용되는 방법이다. 즉, 추세, 순환성분을 추정하기 위해 사용한다. 이동평균평활법은 또 대칭이동평균과 중심화이동평균으로 나뉘어진다. 대칭이동평균 : 이동평균시키는 값(m값)이 홀수인 경..
ETS 모델과 벤치마크로 미래의 값 예측하기 이번 포스팅에서는 저번 시간까지 배운 홀트-윈터스 계절 모형과는 다른 미래의 값을 예측하기 위한 방법인 ETS모델에 대해서 알아보고 또 다른 예측방법인 벤치마크 방법에 대해서 알아보려고 한다. 목차는 다음과 같다. 1. ETS 모델 2. 벤치마크 예측법 1. ETS 모델 ETS의 의미는 Error, Trend, Seasonal을 의미한다. 기본적으로 ETS 모델은 잔차(실제값-예측값) 즉, Error로 보정을 해주는 모델이다. ETS의 모델의 인자에 여러가지가 들어갈 수 있고 여러가지 모델을 만들 수 있다. 모델 종류에 대해서 알아보자. E,T,S각 인자에 맞게 들어갈 수 있는 유형이라고 생각하면 된다. #N : None / A: Additive / M: Mulitiplicative E(Error) A ..
시계열 데이터(Time-Series) 분석, 예측방법 이번 포스팅에서는 시계열 데이터를 분석과 미래의 값을 예측하기 위해 사용하는 구체적인 방법들에 대해서 소개하겠다. 필자는 어떤 주제를 공부하기 전에 큰 숲이라는 개괄적인 부분보고 세부적인 부분으로 들어가는 이상한(?)습관이 있어서 우선 예측방법의 큰 틀이 어떻게 되어있는지 보고 넘어가자. 위 그림과 같이 예측방법이 여러가지로 분류된다. 우리는 앞으로 소개할 방법들은 위 그림에서 '고전적 방법-평활법-이동평균과 지수평활법' 의 여러가지 방법들에 대해서 소개하려 한다. 목차는 다음과 같다. 1. 단순이동평균법 2. 선형이동평균법 3. 가중이동평균법 4. 단순지수평활법 5. Holt 선형지수평활법 6. Holt winters 계절지수평활법 1. 단순이동평균법 단순이동평균법은 추세가 있는 경우의 데이터에 적합하..
시계열 데이터(Time-Series Data)의 특징과 모형 앞으로 게시할 포스팅은 주로 순천향대학교 빅데이터공학과 김영민 교수님의 '시계열 분석' 수업자료에 기반을 두었으며 포스팅 내용의 출처는 김영민 교수님의 수업자료에 있음을 우선적으로 알려드립니다. 데이터사이언스 분야에서도 데이터분석가가 되기 위해서는 통계적인 지식이 필수적이다. 통계라는 것은 시간과 무조건적으로 관련되어 있으며 이는 곧 시계열 자료 즉, Time-Series Data와도 밀접하게 연관되어 있음을 의미하기도 한다. 학교에서 '시계열 분석' 전공과목을 들으면서 이 학습시간을 효율적으로, 그리고 나의 머릿속에 오래도록 남기게 하기 위해서 시계열 분석 관련 포스팅을 남기려 한다. 블로그에서는 주로 이론적인 면을 다루며 R을 사용하여 시계열 분석을 실습해보는 코드는 해당 Github의 레포지토리에 ..