[4-1] Ensemble Overview
MSE Decomposition
가 타겟함수일때, MSE 를 분해해보도록 하겠습니다.
모델의 참값
모델의 예측값
모델의 평균값
분산은 평균과 예측값의 차이를 의미하며, 바이어스는 True 값과 예측값 평균의 차이를 나타낸다.
분산 : 평균과 예측값의 차이 "개별적인 모델링이 평균과 얼만큼 차이"
바이어스 : 참값과 예측값 평균의 차이 "모델의 평균적인 결과과 정답과 얼마나 가까운가"
가운데 원점이 참값 이므로, 참값과 개별 모델의 평균이 멀리 떨어져 있는 3번의 케이스는 바이어스가 크다. 반면, 모델의 평균과 각 개별 모델의 예측치가 멀리 떨어져 있는 2번의 케이스는 높은 분산을 가지고 있습니다.
앙상블 모델이 좋은 이유,
다음은 각 모델 에러의 평균 과 을 표현한 값입니다.
에러의 평균이 0이고, 에러들이 서로 독립이라는 비현실적인 가정을 할 때도 앙상블의 오차는 평균의 오차의 1/M 까지 줄어드는 것을 확인할 수 있습니다.
또한 이런 가정이 없을 때도 코시 부등식에 의하여 기본적인 모델 에러의 평균값이 앙상블 오차의 상한이 됨을 알 수 있습니다.
Last updated