Lee, MinYe

[3-1] Gaussian Density Estimation

밀도 기반의 이상치 탐지 기법

Gaussian Density Estimation

이상치 탐지 기법으로 밀도 기반의 이상치 탐지 기법과 모델 기반의 이상치 탐지 기법이 있습니다.

밀도 기반의 이상치 탐지 기법은 정상 범주의 속할 확률을 구하여서 낮을 경우 이상치라고 판단합니다. 모델 기반의 이상치 탐지 기법은 정상과 이상치를 구분하는 경계면의 함수를 찾는다는 점에서 다른 접근 방법입니다.

밀도 기반의 이상치 탐지 기법이고 데이터의 분포를 가우시안 분포를 가정한 후, Inference 시 확률이 낮은 객체를 이상치라고 정의합니다.

밀도기반의 이상치 탐지 기법은 다음 3개와 같습니다. Gaussian Density Estimation 은 모델의 갯수가 한개, 혼합 가우시안 모델은 한개 이상입니다. 그리고 Kernel Density Estimation 은 학습 데이터에 포함되는 정상 데이터의 갯수가 모델의 갯수가 갖습니다.

Gaussian Density Estimation

Gaussian Density Estimatoin 은 데이터는 하나의 가우시안 분포를 따른다는 가정을 갖습니다. 데이터로부터 추정해야 하는 미지수는 평균과, 공분산 행렬입니다. 식을 정리해주면 다음과 같습니다.

Gaussian Density Estimatoin 은 공분산 행렬을 사용하므로 데이터 변수의 범위에 민감하지 않다는 것이 장점입니다.

Mixture of Gaussian Density Estimation

하나의 모델을 사용하는 것은 현실적이지 않습니다. 조금 더 정확한 추정을 위해 다수의 모델을 사용하는 혼합 가우시안 기법이 나왔습니다. 위에서는 미지수가 두개 였지만, 각 모델마다 2개의 미지수가 있으므로, 추정해야 하는 미지수가 늘어납니다.

어떤 객체가 정상 분포에 속할 확률은 $p(x|\lambda)$ 입니다. 개별적인 가우시안 분포에다 가중치를 곱하여 수식화합니다.

최적화 방법론 중 가장 많이 사용되는 E-M 알고리즘을 사용합니다.

Expectation 에서 x 와 가우시안 분포가 주어졌을 때 m 번째 분포에 속할 확률을 추정합니다. Maximization 에서 $p(m|x_i, \lambda)$ 고정 후 미지수 $w, \mu, \sigma^2$ 을 추정합니다.

Previous[2-4] KFDA & KPCA Next[3-2] LOF

Last updated 3 years ago