예측모델 HW#2

2019021166 이민예 Date: 2019-09-30

계절 시계열 모형의 월드컵 검색 지수 추정 및 예측 정확도 평가

1. 데이터에 대한 간단한 설명 및 기초통계량 분석 수행할 것

우리나라 사람들의 월드컵 축구대회에 대한 검색지수가 6월에 압도적으로 높은 것으로 나타났다.

2004년 1월 부터 2018년 12월까지 축적한 자료를 분석한 결과, 월드컵 검색지수가 가장 높은 달은 6월(73.333) 이었고, 다음으로 7월(23.666), 5월(12.666), 12월(10.333) 순이었다. 이는 월드컵이 6월 초부터 7월 초에 개최됨을 반영한 결과이다.

World Cup Interest는 구글 트랜드에서 "월드컵"을 검색하였을 때 산출되는 지수 데이터이다. 검색 빈도가 가장 높은 검색어의 경우 100 을 기준으로 검색 빈도가 그 절반 정도인 검색어의 경우 50, 해당 검색어에 대한 데이터가 충분하지 않은 경우 0으로 나타낸다.

기초 통계량 분석

2006년 2010년 2014년의 총 36개의 데이터를 월별 평균하여, 월의 대표성을 가지는 총 12개의 데이터를 추출하여 기초 통계량을 분석하였다. 평균은 12.61이고, 분산은 403.19, 표준편차는 20.08이다. 편차들의 평균이 대략 20 임을 알 수 있다.

데이터 전처리

월드컵 대회는 줄곧 여름에 개최되어 왔다. 따라서, 월드컵 검색지수는 여름에 강세를 보이, 봄, 가을, 겨울에는 약세를 보이는 계절 주기를 가지고 있다. 하지만, 엄밀히 말하자면, 월드컵은 4년마다 개최되기 때문에 순환 요소는 있지만, 계절성 요소가 있다고 말하기 어려울 것이다. 따라서, 계절성 요소를 이용하여 모델링 하기 위하여 월드컵 대회가 열린 해인 2006년, 2010년, 2014년도의 데이터만을 실험에 사용하였다. 이를 기준으로 2018년 데이터를 예측하고 오차를 확인하고자 한다.

월드컵 대회 트랜드 데이터에 STL(Seasonal and Trend decomposition using Loess) 분해를 적용하였고, 트랜드는 특정 주기가 있음을 알 수 있다. 하지만 2022년 월드컵은 첫 겨울 월드컵이다. 따라서 줄곧 6월에 개최되어 왔던 과거 월드컵 검색 지수 자료를 분석하여 2022년의 첫 겨울 월드컵의 검색 지수를 예측하는 데 어려움이 있을 수 있다.

2. Trigonometric 방법을 이용하여 모델링 하기

Trigonometric Model 의 2가지 방법

Trigonometric 방법은 사인, 코사인 삼각함수를 조합하여 시계열 데이터를 모델링하는 방법이며, 2가지 방법이 있다.

yt=β0+β1t+β2sin(2πt/L)+β3cos(2πt/L)+εty_t=β_0+β_1t+β_2sin(2πt/L)+β_3cos(2πt/L)+ε_t
yt=β0+β1t+β2sin(2πt/L)+β3cos(2πt/L)+β4sin(4πt/L)+β5cos(4πt/L)+εty_t=β_0+β_1t+β_2sin(2πt/L)+β_3cos(2πt/L)+β_4sin(4πt/L)+β_5cos(4πt/L)+ε_t

첫번째 모델은 비교적 단순하며, 시계열 변동이 일정한 데이터에 사용한다. 하지만 시계열 변동이 일정하지 않고, 시간에 따라 증폭되는 경향이 있으면, 설명변수 xx를 기존 모델에 2개 더 추가하여 총 5개로 추정하는 두번째 모델을 사용한다. 두 가지 모델을 월드컵 검색지수 데이터에 적용한 결과, 두번째 모델이 연도별 증폭하는 변동을 더 잘 반영하는 것을 확인하였다.

R 코드 해석

R 의 선형회귀함수 lm(Linear Model)함수는 formula 와 data를 parameter를 넣어준다. formula에 Trigonometric Model 식을 넣었다. LL 은 계절 주기를 나타내며 매 1212 기 마다 반복되는 패턴을 가진다.

Trigonometric Model 2 의 요약 및 예측

2018년 6월( ​ t=42t=42 ) 월드컵 검색 지수를 예측하고자 한다.

y=β0+β142+β2sin(2π42/12)+β3cos(2π42/12)+β4sin(4π42/12)+β5cos(4π42/12)y'=β_0+β_1*42+β_2*sin(2π*42/12)+β_3cos(2π*42/12)+β_4*sin(4π*42/12)+β_5cos(4π*42/12)
y=9.2080+0.1840420.9449sin(2π42/12)15.1604cos(2π42/12)+1.5695sin(4π42/12)+14.3716cos(4π42/12)y'=9.2080+0.1840*42-0.9449*sin(2π*42/12)-15.1604*cos(2π*42/12)+1.5695*sin(4π*42/12)+14.3716*cos(4π*42/12)

이를 계산하면, y=46.468y'=46.468이다.

Trigonometric Model 1 의 요약 및 예측

2018년 6월( ​ t=42t=42 ) 월드컵 검색 지수를 예측하고자 한다.

y=β0+β142+β2sin(2π42/12)+β3cos(2π42/12)y'=β_0+β_1*42+β_2*sin(2π*42/12)+β_3cos(2π*42/12)
y=8.1349+0.2420420.7285sin(2π42/12)15.2184cos(2π42/12)y'=8.1349+0.2420*42-0.7285*sin(2π*42/12)-15.2184cos(2π*42/12)

이를 계산하면, y=33.5173y'=33.5173이다. 실제값 y=75y=75 이다. 오차 yyy-y'41.482741.4827 이다.

3. Binary 변수 방법을 이용하여 모델링 하기

총 36개의 월드컵 대회 검색지수 데이터에 대한 월별 가변수(dummy variable)를 만들었다.

계절성 가변수

t

M1

M2

M3

....

M10

M11

Y

1

1

0

0

0

0

0

4

2

0

1

0

0

0

0

3

3

0

0

1

0

0

0

5

...

...

...

...

...

...

...

...

12

0

0

0

0

0

0

3

13

1

0

0

0

0

0

2

...

...

...

...

...

...

...

...

36

0

0

0

0

0

0

4

Dummy Variable Model

yt=β0+β1t+β2M1+β3M2+β4M3+.....+β12M11+εty_t=β_0+β_1t+β_2M_1+β_3M_2+β_4M_3+.....+β12M11+ε_t

Dummy Variable Model 의 요약 및 예측

2018년 6월( ​ t=42t=42 ) 월드컵 검색 지수를 예측하고자 한다.

y=0.4722+0.194442+69.36111y'=0.4722+0.1944*42+69.3611*1

이를 계산하면, y=77.9981y'=77.9981이다. 실제값 y=75y=75 이다. 오차 yy'2.99812.9981 이다.

R 코드 해석

R에서 시계열 데이터를 처리하기 위해 zoo 패키지를 사용한다. zoo패키지 안에 xts 기본 행렬자료구조에 시계열 정보를 인덱스로 붙여 시계열 데이터를 처으로 변경하였다. forcast 라이브러리 설치 후, tslm 함수를 사용하여 추세식 trend와 복수의 계절성을 고려하는 season을 두어 가변수 모델링을 하였다.

fit.worldcup <- tslm(ts(time_xts) ~ trend + season)

4. 위 두 방법 Testing data를 이용하여 예측성능 평가하기 (MAE, MSE, MAPE 등 이용)

본 실험에서는 2018년 월드컵 검색 지수인 관측치와 Dummy Variable Model모형, Trigonometric Model1, 그리고 Trigonometric Model2모형의 검색 지수 추정치를 비교하는 MAE(Mean Absolute Error), MSE(Mean Squared Error), RMSE(Root Mean Square Error), MAPE(Mean Absolute Percentage Error)를 이용하였다. 추정 및 예측 정확도의 척도는 다음과 같이 정의된다.

MAE=1/nΣyyMAE=1/n*Σ|y-y'|
MSE=1/nΣ(yy)2MSE = 1/n*Σ(y-y')^2
RMSE=1/nΣ(yy)2RMSE=√1/n*Σ(y-y')^2
MAPE=1/nΣ(yy)/y100MAPE=1/n*Σ|(y-y')/y|*100

평가 기준

MAE

MSE

RMSE

MAPE

Dummy Variable Model

5.074074

53.35185

7.304235

84.91959

Trigonometric Model 1

11.6181

307.2123

17.52747

197.477

Trigonometric Model 2

10.08936

203.047

14.24946

174.015

MAE, MSE, RMSE는 관측치와 모형의 추정치 간 어느 정도 오차를 가졌는지 나타내는 값으로 0에 가까울수록 두 값은 서로 유사하다는 것을 의미한다. 세 모형 중 MAE, MSE, RMSE는 Dummy Variable Model에서 가장 낮은 값을 보여주고 있다. 따라서 Dummy Variable Model(5.074)이 가장 낮은 비용을 가져 가장 높은 정확도를 가지며, 다음으로 Trigonometric Model 2(10.089), Trigonometric Model1(11.618) 순으로 정확하다.

[ Reference ]

https://otexts.com/fppkr/useful-predictors.html

Last updated