예측모델 HW#3

2019021166 이민예 Date: 2019-10-07

1. 계절 시계열 모형의 니트 검색 지수 추정 및 예측 정확도 평가

1-1. 다음 방법들을 적용하고 예측력 비교해 보세요 (최소 10시점 이후 예측할 것)

모델 오차 비교 (2018.11예측력 기준)

Multiplicative Holt-Winters, Additive Holt-Winters, 그리고 Dummy variable 모델 순으로 예측 성능이 높았다.

Error

Dummy variable

trigonometric model 1

trigonometric model 2

Additive Holt-Winters

Multiplicative Holt-Winters

2018.11

1.8

26.10431

24.85738

2.80615

4.6217

alpha, beta 변경

0.811146

0.62527

니트 검색 지수 데이터 설명

미국 사람들의 니트에 대한 검색지수가 11월에 압도적으로 높은 것으로 나타났다.

2004년 1월 부터 2017년 12월까지 축적한 자료를 분석한 결과, 니트 평균 검색지수가 가장 높은 달은 11월(33.7) 이었고, 다음으로 2월(27.5), 12월(24.0), 1월(22.0) 순이었다. 이는 날씨가 쌀쌀한 겨울과 봄에 니트를 많이 찾는 현상이 반영된 결과이다.

Dummy Variable Model 의 요약 및 예측

2004년부터 2017년까지 총 168개의 월드컵 대회 검색지수 데이터에 대한 월별 가변수(dummy variable)를 만들었다.

t

M1

M2

M3

...

M9

M10

M11

Y

1

1

0

0

0

0

0

0

0

2

0

1

0

0

0

0

0

100

3

0

0

1

0

0

0

0

0

...

...

...

...

...

...

...

...

...

168

0

0

0

0

0

0

0

56

Dummy Variable Model

yt=β0+β1t+β2M1+β3M2+β4M3+.....+β12M11+εty_t=β_0+β_1t+β_2M_1+β_3M_2+β_4M_3+.....+β12M11+ε_t

11시점 이후인, 2018년 11월( ​ t=179t=179 ) 니트 검색 지수를 예측하고자 한다.

y=10.6555+0.1445168+10.26921y'=10.6555+0.1445*168+10.2692*1

이를 계산하면, ​y=45.2007y'=45.2007 이다. 실제값 ​ y=47y=47 이다. 오차는 약 1.81.8 이다.

Trigonometric Model 1 의 요약 및 예측

y=β0+β142+β2sin(2π42/12)+β3cos(2π42/12)y'=β_0+β_1*42+β_2*sin(2π*42/12)+β_3cos(2π*42/12)
y=5.35978+0.14508168+1.77261sin(2π42/12)+8.83753cos(2π42/12)y'=5.35978+0.14508*168+1.77261*sin(2π*42/12)+8.83753*cos(2π*42/12)

이를 계산하면, ​​ y=20.89569y'=20.89569 이다. 실제값 ​​y=47​ ​y=47 이다. 오차는 약 ​ 26.1043126.10431 이다.

Trigonometric Model 2 의 요약 및 예측

y=β0+β142+β2sin(2π42/12)+β3cos(2π42/12)+β4sin(4π42/12)+β5cos(4π42/12)y'=β_0+β_1*42+β_2*sin(2π*42/12)+β_3cos(2π*42/12)+β_4*sin(4π*42/12)+β_5cos(4π*42/12)
y=5.45109+0.14400168+1.76858sin(2π42/12)+8.83861cos(2π42/12)2.15278sin(4π42/12)+1.33814cos(4π42/12)y'=5.45109+0.14400*168+1.76858*sin(2π*42/12)+8.83861*cos(2π*42/12)-2.15278*sin(4π*42/12)+1.33814*cos(4π*42/12)

이를 계산하면, ​​ y=22.14262y'=22.14262 이다. 실제값 ​​y=47​ ​y=47 이다. 오차는 약 ​ 24.8573824.85738 이다.

Additive Holt-Winters 의 요약 및 예측

2018년 11월 니트 검색지수 예측값, ​​ y=49.80615y'=49.80615 이다. 실제값 ​​y=47​ ​y=47 이다. 오차는 약 ​ 2.806152.80615 이다.

Multiplicative Holt-Winters 의 요약 및 예측

Multiplicative Holt-Winters 모델에서는 데이터가 0이 있으면 안된다. 따라서 0을 1로 변경하였다.

2018년 11월 니트 검색지수 예측값, ​​ y=42.53783y'=42.53783 이다. 실제값 ​​y=47​ ​y=47 이다. 오차는 약 ​ 4.462174.46217 이다.

1-2. Weighting parameter를 변경하여 예측력 비교해 보세요.

alpha, beta, gamma 분석

  • alpha 는 과거 시점의 데이터에 가중을 두었을 때, 예측 성능이 높았다.

  • beta 는 과거 시점의 트랜드에 가중을 두었을 때, 예측 성능이 높았다.

  • gamma 는 현재 시점의 계절성에 가중을 두거나, 동일하게 두었을 때, 성능이 높았다.

Model

alpha

beta

gamma

Error

Additive Holt Winters

0.3

0.1

0.5

0.811146

Multiplicative Holt Winters

0.3

0.1

0.7

0.62527

Additive VS Multiplicative Holt winters Model 분석

2. 시계열 모형의 미국 불꽃놀이 검색 지수 추정 및 예측 정확도 평가

2-1. 다음 방법들을 적용하고 예측력 비교해 보세요

모델 오차 비교 (2018.11예측력 기준)

Simple Exponential Smoothing

Double Exponential Smoothing

80.53162

16.47578

미국에서는 독립 기념일을 기념하기 위하여, 7월 4일 워싱턴에서 크나큰 불꽃 놀이 행사를 열린다. 따라서, 미국인들의 불꽃 놀이에 대한 관심도도 7월에 압도적으로 높은 것으로 나타났다.

Simple Exponential Smoothing

  • alpha = NULL (최적의 값을 스스로 찾음)

2019년 7월 니트 검색지수 예측값, ​​ y=17.46838y'=17.46838 이다. 실제값 ​​y=98​ ​y=98 이다. 오차는 약 ​ 80.5316280.53162 이다.

  • alpha = 0.1

  • alpha = 0.9

Double Exponential Smoothing

  • alpha = NULL , beta = 0.8

2019년 7월 니트 검색지수 예측값, ​​ y=81.52422y'=81.52422 이다. 실제값 ​​y=98​ ​y=98 이다. 오차는 약 ​ 16.4757816.47578 이다. 추후 모델의 예측 성능을 측정방법을 통한 비교 연구가 남아있다.

[ Reference ]

https://johannesmehlem.com/blog/exponential-smoothing-time-series-forecasting-r/

Last updated