아파트와 상가에서 소비되는 전력수요예측(중간발표)

2019-10-31

아파트와 상가에서 소비되는 전력 수요 예측

조원 소개

  • 이민예

  • 김준태

  • 노영선

발표 순서

  • 데이터 소개 -> 전처리 -> 분석 기법 -> 향후 과제 순으로 진행.

배경

  • 2011년 9월 15일 대한민국 대규모 정전사건이 일어났다.

  • 피해액은 무려 610억원에 달한다.

  • 이상기후로 인한 전력 수요의 증가는 이처럼 순환 단전 더 나아가서 블랙아웃 현상을 일으키어 큰 피해를 준다.

  • 이러한 피해 주요 원인 중 하나는 전력 수요 예측의 실패로 인한 예비전력 부족이다.

  • 전력 수요 예측의 정확도를 올리는 기법 중 하나는 전력 수요는 당일의 실시간 기상상황을 반영하 예측 오차를 줄이는 것이다.

  • 당일의 실시간 상황을 반영한 실시간 예측 분석 기법의 필요성이 대두되고 있다.

데이터

사용데이터 수집

  • 에트리(한국전자통신연구원)는 전력기술의 고도화를 위해 지난 7월 한전과 MOU를 체결하였고,

  • 이번 10월 에너지 빅데이터 활용 데이터 사이언스 아이디어 콘테스트를 개최하였다.

데이터 소개

  • 저희 팀은 위 콘테스트에 참가하여 총 2개년치의 시간당 전력 사용량을 수집하였고, 예측 분석 기법을 적용하였다.

데이터 문제

  • 하지만, 실제 전력 사용량 데이터를 확인해보니, 결측치가 많은 문제가 있었다.

  • 결측치를 제대로 처리하지 않았을 때 예측 성능이 현저히 저하되었다.

  • 주최측에서는 결측치의 원인은 다음 2가지라고 한다.

    • 미터기 존재하지 않았음.

    • 미터기 수집 특성상 이전값이 높으면 뒤에 값이 결측됨.

데이터 확정

  • 저희 팀은 결측치 처리 이슈를 향후 과제로 남겨 두었고, 결측치가 없는 한 호수를 대상으로 예측 분석 기법을 적용하였다.

훈련, 테스트, 예측 데이터

총 2개년치의 학습 데이터로 2018년 7월부터 11월까지의 4개월 데이터를 시간대별 분석을 실행하였습니다.

기초 분석 결과

  • 83호의 기초 분석 결과, 저녁 시간, 그리고 추운 겨울에 전력을 많이 사용하는 것이 나타났습니다.

  • 시간당 평균 전력 사용량은 1.87 킬로와트(kWh)입니다.

정상성을 확하는 방법

  • 기초 분석 후, 시계열 분석을 하기 전 정상성을 확인해야함.

  • 융박스 테스트를 사용하였음.

  • 정상성을 확인하는 방법 중 하나인데 자기상관 그래프 보다 조금 더 정확한 검증 기법이라고 할 수 있음.

  • 융박스 테스트는 귀무가설은 자기상관이 존재하지 않는다, 백색잡음을 따른다는 것임.

  • 실제값과 예측값의 차이인 잔차가 크면 백색잡음을 따르지 않는 것이기 때문에 귀무가설을 기각할 수 있음.

  • 융박스 테스트를 했을 때, 저희가 가진 시계열 데이터는 p값이 유의하여 귀무가설을 기각하고 자기상관이 존재한다고 보았음.

정상성 = 평균, 분산, 자기상관등의 확률적인 성질들이 시간 t 에 따라 불변하는 것 => 예측을 쉽게 하는데 기여한다.

따라서, 정상성을 확인하기 위한 방법이 필요하며, 자기상관 그래프뿐만 아니라 융박스 테스트가 있습니다.

  • ACF (Auto Correlation Function)

    • 자기 상관을 눈으로 확인하는 방법

    • 추세를 보이지않고 자기상관이 지수적으로 0으로 감소하면 정상성으로 판단할 수 있다.

  • Ljung-Box test for independence

    • 귀무가설 : 자기상관이 존재하지 않음, 백색잡음을 따. (정상성)

    • p-value 가 유의수준보다 작아야, 귀무가설을 기각할 수 있다.

    • 융박스 테스트를 사용한 결과, p-value가 0이 나왔음을 확인함.

    • 인천지역 특정 아파트 X83호의 전력 사용량 데이터가 비정상성임을 확인함.

ARIMA 모형의 차수 결정

  • ACF 그래프를 통해서도 비정상시계열임을 확인할 수 있음.

  • 자기상관이 있고, 주기가 존재함.

  • 따라서, 1차 차분을 적용하여 정상화 시계열로 만듬.

  • 첫번째 시계열 분석 기법으로 ARIMA를 사용함.

  • ARIMA를 사용하기 위해서는 자기 상관계수, 차분 계수, 이동 평균 모형의 차수를 정해야하는데, 총 6가지의 차수에 대하여 아카이케 정보기준을 사용하여 어떤 모델이 가장 좋은 모델인지 판단하였음.

  • 아카이케 정보기준은 2파트로 나뉨.

    • 실제 분포와 예측 분포의 차이를 나타내는 쿨백 라이블러 부분

    • 모델 파라미터 갯수임.

  • 즉 실제 분포와 예측 분포의 차이가 클수록 좋지 않고, 모델 파라미터의 갯수가 많으면 패널티를 주기 때문에 총 아카이케정보기준값이 최소가 되는 모델이 좋은 것임.

  • 테스트 한 결과, ARIMA(1,1,1) 이 가장 좋았음.

  • ARIMA 요약 결과임. 요약 결과에서 AIC와 회귀 계수 확인 가능함.

아카이케 정보기준의 식은 2파트로 나누어집니다. (1) 반응 변수의 실제 분포와 모델에 지정된 분포 사이의 불일치에 대한 쿨백 라이블러 (Kullback-Leibler) 정보 측도를 기반으로 한 모델의 적합도 부분과 (2) 모델의 파라미터 수인 자유도 부문으로 나눕니다. 자유도가 높은 모형의 패널티를 가함 전체 AIC값이 최소인 모델인 ARIMA(1,1,1) 모델을 선택하였습니다.

  • p: 자기 상관 모형 차수

  • d: 차분 차수

  • q: 이동 평균 모형 차수

ARIMA(1,1,1)

1차 차분을 통한 정상화

쿨백 라이블러 발산

시간당 소비 전력량이 킬로와트(kWh) 단위로 측정됨.

단순선형회귀분석

  • 두번째로 단순선형회귀분석을 사용함.

  • x는 시간, y는 시간당 전력 사용량

  • ARIMA는 관측된 데이터를 사용하지 않는 다는 점에서 MA항을 포함한다는 점에서 다항회귀와 차이점이 있음.

평가 지표

  • MSE는 대표적인 평가 지표임.

  • 하지만, 크기의 의존성이 있고, 이를 극복하기 위하여 MAPE에러값을 사용함.

  • MAPE 특성상,

    • 실제값이 0이면 계산할 수 없음 .

    • 실제값이 작은경우 무한대 값

  • 문제점이 존재함. 이를 보정한 것이 SMAPE임

  • 이 지표로 모델 성능 비교 결과, 단순선형회귀가 더 잘나옴.

모델 결과

  • ARIMA가 단순선형회귀보다 더 유연한 것은 맞지만, 꼭 이론적으로 복잡한 모델만이 좋은 성능을 보이는 것은 아님.

  • LSTM 딥러닝도 적용하였지만, 데이터 분석에서는 열린 마음으로 다양한 기법을 시도해 볼 필요가 있음을 느낌.

향후 과제

  • 또한 시계열 분석에서는 어쩜 모델 그 자체보다는 다양한 외부 변수를 고려하여 예측하는 것과, 결측치 처리가 성능에 많은 영향을 미침

  • 따라서 저희 팀의 향후 과제는 결측치 처리와 다양한 기상 데이터를 활용하여 수요 예측 기법을 고도화하는 과제가 남았음.

발표 경청해주셔서 감사.

Last updated