아파트와 상가에서 소비되는 전력수요예측(중간발표)

2019-10-31

아파트와 상가에서 소비되는 전력 수요 예측

조원 소개

이민예
김준태
노영선

발표 순서

데이터 소개 -> 전처리 -> 분석 기법 -> 향후 과제 순으로 진행.

배경

2011년 9월 15일 대한민국 대규모 정전사건이 일어났다.
피해액은 무려 610억원에 달한다.
이상기후로 인한 전력 수요의 증가는 이처럼 순환 단전 더 나아가서 블랙아웃 현상을 일으키어 큰 피해를 준다.
이러한 피해의 주요 원인 중 하나는 전력 수요 예측의 실패로 인한 예비전력 부족이다.
전력 수요 예측의 정확도를 올리는 기법 중 하나는 전력 수요는 당일의 실시간 기상상황을 반영하 예측 오차를 줄이는 것이다.
당일의 실시간 상황을 반영한 실시간 예측 분석 기법의 필요성이 대두되고 있다.

데이터

사용데이터 수집

에트리(한국전자통신연구원)는 전력기술의 고도화를 위해 지난 7월 한전과 MOU를 체결하였고,
이번 10월 에너지 빅데이터 활용 데이터 사이언스 아이디어 콘테스트를 개최하였다.

데이터 소개

저희 팀은 위 콘테스트에 참가하여 총 2개년치의 시간당 전력 사용량을 수집하였고, 예측 분석 기법을 적용하였다.

데이터 문제

하지만, 실제 전력 사용량 데이터를 확인해보니, 결측치가 많은 문제가 있었다.
결측치를 제대로 처리하지 않았을 때 예측 성능이 현저히 저하되었다.
주최측에서는 결측치의 원인은 다음 2가지라고 한다.
- 미터기 존재하지 않았음.
- 미터기 수집 특성상 이전값이 높으면 뒤에 값이 결측됨.

데이터 확정

저희 팀은 결측치 처리 이슈를 향후 과제로 남겨 두었고, 결측치가 없는 한 호수를 대상으로 예측 분석 기법을 적용하였다.

훈련, 테스트, 예측 데이터

총 2개년치의 학습 데이터로 2018년 7월부터 11월까지의 4개월 데이터를 시간대별 분석을 실행하였습니다.

기초 분석 결과

83호의 기초 분석 결과, 저녁 시간, 그리고 추운 겨울에 전력을 많이 사용하는 것이 나타났습니다.
시간당 평균 전력 사용량은 1.87 킬로와트(kWh)입니다.

정상성을 확하는 방법

기초 분석 후, 시계열 분석을 하기 전 정상성을 확인해야함.
융박스 테스트를 사용하였음.
정상성을 확인하는 방법 중 하나인데 자기상관 그래프 보다 조금 더 정확한 검증 기법이라고 할 수 있음.
융박스 테스트는 귀무가설은 자기상관이 존재하지 않는다, 백색잡음을 따른다는 것임.
실제값과 예측값의 차이인 잔차가 크면 백색잡음을 따르지 않는 것이기 때문에 귀무가설을 기각할 수 있음.
융박스 테스트를 했을 때, 저희가 가진 시계열 데이터는 p값이 유의하여 귀무가설을 기각하고 자기상관이 존재한다고 보았음.

정상성 = 평균, 분산, 자기상관등의 확률적인 성질들이 시간 t 에 따라 불변하는 것 => 예측을 쉽게 하는데 기여한다.

따라서, 정상성을 확인하기 위한 방법이 필요하며, 자기상관 그래프뿐만 아니라 융박스 테스트가 있습니다.

ACF (Auto Correlation Function)
- 자기 상관을 눈으로 확인하는 방법
- 추세를 보이지않고 자기상관이 지수적으로 0으로 감소하면 정상성으로 판단할 수 있다.
Ljung-Box test for independence
- 귀무가설 : 자기상관이 존재하지 않음, 백색잡음을 따. (정상성)
- p-value 가 유의수준보다 작아야, 귀무가설을 기각할 수 있다.
- 융박스 테스트를 사용한 결과, p-value가 0이 나왔음을 확인함.
- 인천지역 특정 아파트 X83호의 전력 사용량 데이터가 비정상성임을 확인함.

ARIMA 모형의 차수 결정

ACF 그래프를 통해서도 비정상시계열임을 확인할 수 있음.
자기상관이 있고, 주기가 존재함.
따라서, 1차 차분을 적용하여 정상화 시계열로 만듬.
첫번째 시계열 분석 기법으로 ARIMA를 사용함.
ARIMA를 사용하기 위해서는 자기 상관계수, 차분 계수, 이동 평균 모형의 차수를 정해야하는데, 총 6가지의 차수에 대하여 아카이케 정보기준을 사용하여 어떤 모델이 가장 좋은 모델인지 판단하였음.
아카이케 정보기준은 2파트로 나뉨.
- 실제 분포와 예측 분포의 차이를 나타내는 쿨백 라이블러 부분
- 모델 파라미터 갯수임.
즉 실제 분포와 예측 분포의 차이가 클수록 좋지 않고, 모델 파라미터의 갯수가 많으면 패널티를 주기 때문에 총 아카이케정보기준값이 최소가 되는 모델이 좋은 것임.
테스트 한 결과, ARIMA(1,1,1) 이 가장 좋았음.
ARIMA 요약 결과임. 요약 결과에서 AIC와 회귀 계수 확인 가능함.

아카이케 정보기준의 식은 2파트로 나누어집니다. (1) 반응 변수의 실제 분포와 모델에 지정된 분포 사이의 불일치에 대한 쿨백 라이블러 (Kullback-Leibler) 정보 측도를 기반으로 한 모델의 적합도 부분과 (2) 모델의 파라미터 수인 자유도 부문으로 나눕니다. 자유도가 높은 모형의 패널티를 가함 전체 AIC값이 최소인 모델인 ARIMA(1,1,1) 모델을 선택하였습니다.

p: 자기 상관 모형 차수
d: 차분 차수
q: 이동 평균 모형 차수

ARIMA(1,1,1)

1차 차분을 통한 정상화

쿨백 라이블러 발산

시간당 소비 전력량이 킬로와트(kWh) 단위로 측정됨.

단순선형회귀분석

두번째로 단순선형회귀분석을 사용함.
x는 시간, y는 시간당 전력 사용량
ARIMA는 관측된 데이터를 사용하지 않는 다는 점에서 MA항을 포함한다는 점에서 다항회귀와 차이점이 있음.

평가 지표

MSE는 대표적인 평가 지표임.
하지만, 크기의 의존성이 있고, 이를 극복하기 위하여 MAPE에러값을 사용함.
MAPE 특성상,
- 실제값이 0이면 계산할 수 없음 .
- 실제값이 작은경우 무한대 값
문제점이 존재함. 이를 보정한 것이 SMAPE임
이 지표로 모델 성능 비교 결과, 단순선형회귀가 더 잘나옴.

모델 결과

ARIMA가 단순선형회귀보다 더 유연한 것은 맞지만, 꼭 이론적으로 복잡한 모델만이 좋은 성능을 보이는 것은 아님.
LSTM 딥러닝도 적용하였지만, 데이터 분석에서는 열린 마음으로 다양한 기법을 시도해 볼 필요가 있음을 느낌.

향후 과제

또한 시계열 분석에서는 어쩜 모델 그 자체보다는 다양한 외부 변수를 고려하여 예측하는 것과, 결측치 처리가 성능에 많은 영향을 미침
따라서 저희 팀의 향후 과제는 결측치 처리와 다양한 기상 데이터를 활용하여 수요 예측 기법을 고도화하는 과제가 남았음.

발표 경청해주셔서 감사.

Previous은닉마르코프모델 Next예측모델 중간고사 족보

Last updated 4 years ago