[4-1] Ensemble Overview

MSE Decomposition

$F^*(x)$ 가 타겟함수일때, MSE 를 분해해보도록 하겠습니다.

y = F^*(x) + \epsilon

분산은 평균과 예측값의 차이를 의미하며, 바이어스는 True 값과 예측값 평균의 차이를 나타낸다.

가운데 원점이 참값 $F^*(x)$ 이므로, 참값과 개별 모델의 평균이 멀리 떨어져 있는 3번의 케이스는 바이어스가 크다. 반면, 모델의 평균과 각 개별 모델의 예측치가 멀리 떨어져 있는 2번의 케이스는 높은 분산을 가지고 있습니다.

다음은 각 모델 에러의 평균 $E_{avg}$ 과 $E_{ensembel}$ 을 표현한 값입니다.

에러의 평균이 0이고, 에러들이 서로 독립이라는 비현실적인 가정을 할 때도 앙상블의 오차는 평균의 오차의 1/M 까지 줄어드는 것을 확인할 수 있습니다.

또한 이런 가정이 없을 때도 코시 부등식에 $(\sum(r_i))^2\leq\sum(r_i)^2$ 의하여 기본적인 모델 에러의 평균값이 앙상블 오차의 상한이 됨을 알 수 있습니다.

Last updated 3 years ago