[3-4] Isolation Forest

Isolation Forest

Isolation Forest 의 가정은 이상치가 소수의 객체들이라는 것과 그 데이터의 특성은 정상 데이터와 다를것이다라는 가정을 가집니다.

Isolation Forest 는 Split 하기 위해 많은 구분이 필요할 것이라고 말합니다. 즉, 파란색 x1 을 분리하기 위해서는 수많은 선들이 필요하지만, 빨간색 x0는 4번 만으로 분류가 가능합니다. Split 을 하는 기준은 임의의 변수와 임의의 값으로 구분합니다.

Isolation Tree 의 정의는 다음과 같습니다.

Path length & Novelty Score

Path length 란 Split 한 횟수를 의미합니다. Novelty Score 는 이상치를 분리하기 위한 Path Length 가 평균보다 큰지 작은지에 따라 이상치 점수를 환산합니다. 즉 Path length 가 0일 수록 이상치 스코어는 1이 됩니다.

Last updated