예측모델 중간고사 족보

회귀 분석

독립변수 (= 설명변수, 통제변수)에 기초하여, 종속변수라 불리우는 다른 한 변수의 값을 설명하고 예측하는 것이 예측하는 추측통계이다. 독립변수는 확정변수로 가정하고, 종속변수는 확률변수라 가정한다. 독립변수가 1개일 떄, 단순 회귀 분석이며, 여러개일 때는 다중 회귀 분석이다.

단순회귀모형 (simple linear regression model)

Yi=α+βXi+εtY_i = α+βX_i+ε_t
  • α+βXiα+βX_i : XiX_i 는 특정한 값 하나로 확정된 확정변수이며, α,βα,β 는 각각 미지의 절편과 기울기 모수인 상수이기 때문에 α+βXiα+βX_i 는 상수이다.

  • εtε_t : 소득 XiX_i 를 8000만으로 정해놓았을 때 지출 YiY_i 는 각 세대마다 가계인원수, 성향 등 다양한 요인에 의해 변화하는 확률변수이다. εtε_t 오차항은 이러한 변화를 반영하는 확률변수이다.

    • 가정1: εtε_t 의 기대치는 0 이다. => E(εi)=0E(ε_i) = 0

      • E(α+βXi+εi)=α+βXi+E(εi)=α+βXiE(α+βX_i+ε_i) = α+βX_i + E(ε_i) = α+βX_i

    • 가정2: εiε_i 의 분산이 일정하다. => Var(εi)=σ2Var(ε_i) = σ^2

      • Var(α+βXi+εi)=Var(εi)=σ2Var(α+βX_i+ε_i) = Var(ε_i) = σ^2

      • Var(εi)=E(εi2)[E(εi)]2=E(εi2)0=E(εi2)Var(ε_i) = E(ε_i^2) - [E(ε_i)]^2 = E(ε_i^2) - 0 = E(ε_i^2)

      • E(εi2)=σ2E(ε_i^2) = σ^2

    • 가정3: εi,εjε_i, ε_j 는 서로 상관이 없다 => Cov(εi,εj)=0Cov(ε_i, ε_j)=0

      • Corr(εi,εj)=Cov(εi,εj)/σiσj=0Corr(ε_i, ε_j)=Cov(ε_i, ε_j) / σ_i*σ_j = 0 이어야 하므로,

      • Cov(εi,εj)=0Cov(ε_i, ε_j) = 0 공분산은 0 어야 한다.

      • Cov(εi,εj)=E(εiεj)E(εi)E(εj)Cov(ε_i, ε_j) = E(ε_i*ε_j)-E(ε_i)*E(ε_j)

      • Cov(εi,εj)=E(εiεj)=0Cov(ε_i, ε_j) = E(ε_i*ε_j) =0

      • E(εiεj)=E(εi)E(εj)E(ε_i*ε_j)=E(ε_i)*E(ε_j) 이라는 결론이 나온다. 따라서, εi,εjε_i,ε_j서로 독립이다.

    • 가정4: XiX_i 는 확률변수가 아니고, Xi,εiX_i, ε_i 는 서로 상관이 없다 => Cov(Xi,εi)=0Cov(X_i,ε_i)=0

      • XiX_i 는 고정되므로, YYεiε_i 에 의해 확률변수가 된다.

    • 가정5: εiε_i 는 정규분포 N(0,σ2)N(0, σ^2 ) 을 따른다.

      • YY ~ N(α+βXi,σ2)N(α+βX_i , σ^2 )

확률 과정이란 시간 첨자를 갖는 확률 변수의 집합이다. 예를 들어 달리는 차가 있다고 가정하자. 이 차를 확률 변수라는 함수에 집어넣으면 값이 나오는데, 시간에 대한 확률 변수인 것이다. 시간 t시점에 대해서 달리는 차를 속도라는 확률 변수 함수에 넣으면, t 시점의 차의 속도가 나온다. 이를 YtY_t 라 한다. 즉, 이것은 확률과정인 것이고, 시계열 과정 또는 시계열 모형으로 추정한 것 yt를 실현값이라고 한다.

확률과정의 예

백색잡음과정 (white noise process)

  • 추세와 분산이 커지는 시계열

  • Zt=εtZ_t = ε_t 이다. 확률 과정 { εtε_t }에 대해 다음 3가지 조건을 만족할 때, 시계열 { εtε_t }를 백색잡과정이라한다.

    • E(εt)=0E(ε_t) = 0

      • t 에 어떤 값을 넣더라도 평균은 0이어야 한다!

    • r0=Var(Zt)=Var(εt)=E(εt2)=σ2r_0 = Var(Z_t) = Var(ε_t) = E(ε_t^2) = σ^2

    • rk=Cov(Zt,Zt+k)=Cov(εt,εt+k)=0r_k = Cov(Z_t,Z_t+k) = Cov(ε_t,ε_t+k) = 0

  • 시간 t 에 무관하므로, 정상확률과정임.

E(X(t))=0,E(X(t)2)=σ2,E(X(t)X(h))=0E(X(t))=0,E(X(t)^2)=σ^2 , E(X(t)X(h))=0 forthfor t≠h

  • 즉, 평균이 0이고, 분산이 시간 t에 상관없이 일정하며, 시차 h가 1이든, 2이든 어떠한 수이든 시차 h에 대하여 상관관계가 없을 때 이 시계열을 백색 잡음 시계열이라고 한다. 굴곡이 있으면 안된다. 따라서, "IT IS NOT PRIDICTED!"

  • 이 백색잡음이 중요 이유는 여러 시계열 모형에 백색잡음이 들어간다. 백색잡음은 실제값 - 추정치인데, 이 남은 잔차를 잘 추정할 수록 만든 모델이 정확하다는 것을 입증할 수 있다.

  • 백색잡음을 확인할 수 있는 방법

    • 그래프를 눈으로 확인한다.

    • 평균과 분산을 계산한다. 모든 시간에 대하여 또는 윈도우 방식으로 -> 전역/지역 체크

    • 자기공분산함수를 계산해서 0에 가까움을 확인한다. -> 백색잡음과정은 lag h에 관하여 자기 상관관계가 없다!!

  • 내 모델을 만들고, 그 잔차가 위 세가지 테스트를 통과한다면 좋은 모델을 만든것이라 생각할 수 있다.

확률보행과정(random walk process)

  • 분산이 변화하는 시계열

이동평균과정(moving average process)

자기회귀과정(autoregressive process)

  • 자기회귀모형은 시계열 { yt=Ytμy_t = Y_t-μ } 은 자기 자신의 과거값 { yt1,yt2,yt3,...y_t-1, y_t-2,y_t-3,... }으로 회귀시킨 모형으로, Yule이 제안하였으며, p차 ARAR 모형은 다음과 같다.

  • yt=φ1yt1+φ2yt2+.....+φpytp+εty_t = φ_1y_t-1+φ_2y_t-2+.....+φ_py_t-p+ε_t => AR(p)AR(p)

  • 여기서, εtε_t 는 백색잡음과정이다.

  • AR(1):AR(1) : yt=φ1yt1+εty_t = φ_1y_t-1+ε_t

  • AR(2):AR(2) : yt=φ1yt1+φ2yt2+εty_t = φ_1y_t-1+φ_2y_t-2+ε_t

Stationary Process 의 정의

정상성(Stationary)이란 시계열의 확률적인 성질들이 시간의 흐름에 따라 불변 (time-invariant)하는 것을 이야기 한다. 정상성 데이터의 특징은 다음과 같다.

  • 뚜렷한 추세가 없다. 즉, 시계열의 평균이 시간 축에 평행하다.

  • 시계열의 진폭(변동)이 시간의 흐름에 따라 일정하다.

정상 시계열 vs 비정상 시계열

다음 3가지의 조건을 약한 정상성 또는 공분산 정상성이라고 하고, 이들 조건을 모두 만족하는 시계열을 정상시계열이라고 한다.

  1. 시계열 Yt 모든 시점 t에 대해 평균이 μ로 같다. E(Yt)=μE(Y_t) = μ

  2. 시계열 Yt 모든 시점 t에 대해 분산이 σ2로 같다. (Yt)=σ2(Y_t) = σ^2

  3. 공분산은 시간 t에 의존하지 않고 오직 시차(k)에만 의존한다. Cov(Yt.Yt+k)=YkCov(Y_t. Y_t+k) = Y_k

    1. 예를 들어, 6단위 만큼 시점차이가 나는 경우, Cov(Y1,Y7)=Cov(Y11,Y17)Cov(Y_1,Y_7)=Cov(Y_11,Y_17)

    2. 규칙적이다. 자글자글해졌다가 느슨해졌다가 하면 안된다.

어떠한 시계열 모형의 정상성을 판단하기 위해서, 평균, 분산, 자기공분산은 시간 t 에 의존하지 않아야 한다.

정상성으로 바꾸는 방법

  • 로그변환

  • 차분

  • 계절차분

자기 공분산함수, 자기 상관함수 (auto covariance ACVF, auto correlation ACF )

공분산은 다른 두 확률변수간의 상관 관계를 파악할 때 사용한다. 그러면 자기 공분산이란, 자기 자신의 공분산은 분산이므로, 자기 자신은 아니고, 자기 자신보다 t시점 전의 자기와의 상관 관계를 파악할 때 사용하는 것이다. 즉, 자기 공분산을 구하면, 상관 관계가 증가 추세인지, 하향 추세인지, 중립 추세인지 등을 알 수 있다. 자기 상관은 이를 표준화해준 것이라 생각하며, 상관 관계 변화 폭이 얼마나 되는 지 알 수 있다.

기댓값, 분산의 성질

  • 기댓값 : 상수건, 확률변수건 자기 자신의 기댓값은 자기자신이 된다.

  • 분산 : 상수항의 분산은 없다.

PACF

오늘의 주가가 하루 전 날의 주가에 영향을 받을 수 있다. 또는 indirectly하게 이틀 전날의 주가와 더불어 어제의 주가가 오늘의 주가 영향을 줄 수 있다. 하지만 나는 정확하게 이틀 전 날의 주가가 오늘과 어떤 상관이 있는지 보고싶다. 어제의 주가의 영향은 제거하고 말이다. 이것이 PACF이다.

자동회귀모형

자동이라는 말은 자기 자신에게 영향을 준다는 의미이다.

AR(1)

xt=φ1xt1+εtx_t = φ_1x_t-1+ε_t

정상 시계열 여부

xt=φ1xt1+εtx_t = φ_1x_t-1+ε_t

  • 평균 , 분산, 자기 공분산 시점 t 에 대해 의존하지 않으므로 정상시계열이다.

AR(2)

Example

MA(2)

Summary

WN

AR(1)

AR(2)

MA(1)

MA(2)

평균

0

0

0

분산

σ2σ^2

σ2/1φ12σ^2 /1-φ_1^2

(1+φ12)σ2(1+φ_1^2)σ^2

(1+φ12+φ22)σ2(1+φ_1^2+φ_2^2)σ^2

자기공분산

0

φ1σ2/1φ12φ_1*σ^2 /1-φ_1^2

φ1rx(h1)+φ2rx(h2)+σ2φ_1*r_x(h-1)+φ_2*r_x(h-2)+ σ^2 (h=0)

자기상관관계

시험!!

*MA 모델은 정상성이 되기 위한 theta1, theta2에 대해 다음 조건이 만족해야함.

ARMA(1,1) - 자기회귀이동평균모형

Box Jenkins

ARIMA

I가 여기에 왜 있을까? 여기서 I라는 말은 우리에게 주어진 시계열 그 자체를 예측하기 보단, 새로운 시계열을 만드는 것이다. 내가 선장이라고 생각하자. 그래서 얼마나 핸들을 팔까? 그리고 트랜드를 파악했다. 그런데 우리가 여태까지 알던 AR, MA, ARMA 모델을 사용할 수 없다. 비정상 시계열이기 때문이다. 평균은 증가하는 추세를 가지었다. 근데 만약 증가하는 추세만 없앤다면, 우리는 다른 모델들을 사용할 수 있다. 정상성에 다른 조건들은 충족하기 때문에. 그럼 이 추세가 계속 증사하니깐 t+1시점에서 t시점을 빼주면 일정한 값이 나오지 않을까? 에서 생각한 것이

신뢰구간

모평균의 추정이란, 모집단 즉 모든 원소들에 대한 평균이다. 하지만, 그 모든 사람들을 전부 다 조사하는 것은 불가능하기 때문에, 표본을 추출해서 표본들의 측정치를 가지고 수학적인 근거에 의해서 전체 고등학생의 평균 키는 이정도 될 것이다. 구간 추정이란 모평균이 a에서 b 안에 있다라고 하면, 점 추정보다 이 안에 있을 확률이 높다!!!

따라서, a와 b 를 결정하기 위한 신뢰도가 필요하다. a<=m<=ba <=m<= b 신뢰도(95%, 99%, )가 높을 수록 구간의 폭이 커진다!

신뢰도 95%인 모평균의 신뢰구간

1.96은 95% 신뢰구간의 신뢰도 계수임

P(X1.96(σ/n)<=m<=X+1.96(σ/n))=0.95P(X'-1.96*(σ/√n)<=m<=X'+1.96*(σ/√n))=0.95

Q.Simple Linear Regression의 모수 y절편, 기울기를 구하시오.

Q.예측문제 관련 문제를 하나 본인이 출제하고 답을 구하시오.

Q. 단순지수 평활법, 이중지수 평활법, 삼중지수 평활법 각각의 특징과 차이점.

단순지수평활법은 현재데이터와 과거 데이터를 기반으로 미래 예측치를 계산한다. 구간 평균법이 모든 시점의 데이터에 같은 가중을 주었다면, 단순 지수 평활법은 알파계수를 사용하여, 각 시점별로 지수분포 모양의 가중을 준다. 즉, 과거로 갈수록 적은 가중치를 부여한다. 하지만 한 값으로 미래의 시점을 예측하기 때문에 트랜드가 있거나 계절성이 있는 데이터에 적합하지 못하다.

이중지수평활법은 시계열이 선형 추세에 따라 증가하는 시계열 모형이다. 단순지수평활법과 마찬가지로, 시점별로 가중을 다르게 주었으며, 한 예측치로 예측하였던 한계점을 극복하였다.

삼중지수평활법은 시계열이 계절성분과 같이 일정한 형태의 주기를 가지고 움직이는 시계열 모형이다. 이중지수평활법과 마찬가지로, 가중을 다르게 주었으며, 추세를 반영하였을 뿐만 아니라, 계절성을 반영하였다.

단순지수평활

이중지수평활

삼중지수평활법

지수분포모양 가중

선형 추세

주기 형태

차이

추세 x, 계절 x

추세 o, 계절성 x

추세 o, 계절성 o

교수님 성함

[ Reference ]

http://stat.snu.ac.kr/time/download/%EC%8B%9C%EA%B3%84%EC%97%B4%EB%B6%84%EC%84%9D5%EC%9E%A5%EA%B0%95%EC%9D%98.pdf

https://slidesplayer.org/slide/15848747/

https://otexts.com/fppkr/MA.html http://blog.naver.com/PostView.nhn?blogId=mindo1103&logNo=90103350914

Last updated