2_Time Series Regression

2019-09-23 이민예

Time Series 예제

Series란 연속적인 이란 뜻이다. Time Series 란 시간과 연결해서 연속적인 데이터이다. 시간에 따라서 얻어진 모든 데이터이며, 우리는 시간 안에 살고 있기 때문에 대략 80% 이상은 시계열 데이터이다.

이처럼 시계열 데이터는 시간에 따른 실업자수, 시간에 따른 오염 정도, 시간에 따른 특정 제품의 재고량등을 말한다.

이러한 Time Series 데이터는 4가지로 구성되어 있다. Trend, Cycle, Seasonal, Random이다.

Trend(추이)란 짧은 시간의 패턴이 아니라 최소한 1년 이상 지속되는 패턴을 말한다. 감소되는 추이일때는 영어로 Downward Trend 증가하는 추이일 때는 Upward Trend라 말하며 선형 비선형에 따라 Downward Linear Trend, Upward Nonlinear Trend 라고 한다.

Cycle(주기)란 시작점과 끝점이 있을때 끝점이 시작점 언저리로 오는 것이고 이러한 현상이 최소 2번 이상 나오는 것이다.

Seasonal(계절변동) 은 Cycle의 한 종류이지만, 너무 많이 일어나서 따로 분리하였다. 예를 들어 아래 그래프는 여름과 겨울에 올라가고, 봄과 가을에 내려가는 주기(Cycle)가 있다고 말한다.

Random(우연변동)은 모든 Time Series에 있다. 설령 Trend가 있는 데이터에서도 그 Trend안에 우연변동이 있다. 이것을 White-Noise 라고 하고 착한 Noise, 번역하여 백색잡음이라고 한다. 백색잡음은 (1)패턴을 가지고 있거나, (2)분산이 0이다.

선형회귀모델

오차함수

실제값은 예측값보다 작을수도 있고, 또 클수도 있다. 이들의 차이를 합하기만 하면, 그리고 n이 무한대로 가면 0이 된다. 물론, 실제값이 예측값보다 항상 작다거나, 크다는 보장이 있으면 아래 함수를 쓸 수 있다.

하지만 우리가 관심있는 것은 + 혹은 - 가 아니다. 우리가 관심있는 것은 차이 (amount of degree, amount of difference) 이다. 따라서 우리는 Squared Error 를 사용하며, 가장 많이 알고 있는 것이 최소제곱오차(MSE, Mean Squared Error)이다.

MAD 와 MSE

방법론

Auto Regressive

ARMA

Last updated