[4-1] Ensemble Overview

MSE Decomposition

F(x)F^*(x) 가 타겟함수일때, MSE 를 분해해보도록 하겠습니다.

y=F(x)+ϵy = F^*(x) + \epsilon
  • F(x):F^*(x) : 모델의 참값

  • F^(x):\hat{F}(x) : 모델의 예측값

  • Fˉ(x):\bar{F}(x): 모델의 평균값

분산은 평균과 예측값의 차이를 의미하며, 바이어스는 True 값과 예측값 평균의 차이를 나타낸다.

  • 분산 : 평균과 예측값의 차이 "개별적인 모델링이 평균과 얼만큼 차이"

  • 바이어스 : 참값과 예측값 평균의 차이 "모델의 평균적인 결과과 정답과 얼마나 가까운가"

가운데 원점이 참값 F(x)F^*(x) 이므로, 참값과 개별 모델의 평균이 멀리 떨어져 있는 3번의 케이스는 바이어스가 크다. 반면, 모델의 평균과 각 개별 모델의 예측치가 멀리 떨어져 있는 2번의 케이스는 높은 분산을 가지고 있습니다.

앙상블 모델이 좋은 이유,

다음은 각 모델 에러의 평균 EavgE_{avg}EensembelE_{ensembel} 을 표현한 값입니다.

에러의 평균이 0이고, 에러들이 서로 독립이라는 비현실적인 가정을 할 때도 앙상블의 오차는 평균의 오차의 1/M 까지 줄어드는 것을 확인할 수 있습니다.

또한 이런 가정이 없을 때도 코시 부등식에 ((ri))2(ri)2(\sum(r_i))^2\leq\sum(r_i)^2 의하여 기본적인 모델 에러의 평균값이 앙상블 오차의 상한이 됨을 알 수 있습니다.

Last updated