[1-2] Dimension Reduction : Supervised

Supervised Selection : 지도학습 기반의 변수 선택 기법

이론적으로, 변수의 갯수가 많아질수록, 모델의 성능은 높아지지만, 현실적으로 모델의 성능은 감소할 수 있습니다. 그 이유는 변수간의 상관성이 존재하거나 노이즈가 증가할 수 이기 때문입니다. 따라서, 모델의 적합한 변수 집합을 찾음으로써 변수간의 상관성을 없애고, 변수의 독립성을 가정하는 여러 통계적 모델을 사용하면서 성능을 향상시킬 수 있습니다.

이러한 이유로 변수의 수를 줄이는 것이 필요한데, 이를 차원 축소라 하고, 있는 변수 그대로 줄이는 Variable Selection, 그리고 새로운 변수를 만들어 줄이는 Variable Extraction 방법이 있습니다.

  • Variable Selection

  • Variable Extraction

Variable Selection

모든 가능한 변수 조합에 대해 고려하는 것으로, 3개의 변수 x,y,zx, y, z 가 있을 경우, 231=72^3 -1=7 ( x,y,z,xy,xz,yz,xyzx, y, z, xy, xz, yz, xyz )가지의 경우의 수가 존재합니다. 선형 회귀 모델의 경우, AIC, BIC,.. 등의 모델 측정 지표를 활용하여 성능을 검증하게 됩니다. 하지만 전역 탐색 기법은 모든 가능한 변수의 집합을 고려하는 만큼 전역 최저점을 찾을 수 있으나, 시간이 굉장히 오래 걸리어, 현실적으로 적용하기 어려운 방법입니다.

따라서, 성능을 조금 낮추더라도, 시간을 단축시킬 수 있는 기법들이 소개됩니다.

2) Forward Selection

x,y,zx, y, z 변수 중 하나 선택하고 그 중 Adjusted R2 합이 가장 높은 것을 택하고, xx 변수 선택된 모델 성능이 가장 높았을때, 이를 고정시킨 상태로, 다른 변수들을 추가해나갑니다. 이를 반복하면서, 더 이상 성능 향상이 이뤄지지 않을때, 변수 선택이 중지됩니다. 앞에 선택된 변수는 이후에 제거되지 못하는 것이 특징이며, 이를 보완한 방법은 Stepwise Selection 기법입니다.

전역 탐색 기법보다 더 적은 변수의 집합을 테스트 합니다. 즉, 시간은 크게 줄었으나, 성능은 낮아질 수 있습니다. 아래는 변수가 10개일경우 전역 탐색 기법과 전진 선택기법이 총 탐색하게 되는 변수 집합 수를 의미합니다.

  • ES : 2101=10232^{10}-1 = 1023

  • FS : 10+9+8+...+1=5510+9+8+...+1 = 55

3) Backward Elimination

모든 변수를 사용한 모델에서 중요하지 않는 변수를 제거해나갑니다. 변수를 제거했음에도 성능 저하가 없거나, 성능 저하가 미미할 경우 종료합니다. Forward Selection 과 마찬가지로 변수가 한 번 제거되면, 다시 선택되지 않는 특징이 있습니다.

4) Step Wise Selection

전진선택법과 후방소거법을 번갈아 가면서 사용합니다. Forward Selection 과 Backward Elimination 에서 찾지 못하는 변수 집합을 탐색 가능합니다. 변수가 제거 또는 추가가 되었을 지라도 다음 차례에서 다시 추가되거나 제거 될 수 있기 때문입니다. 따라서 약간의 시간이 더 소요되지만, 더 높은 확률로 더 우수한 성능을 가질 수 있습니다.

다음 장에서는 이 장에서 설명드린 Feature Selection 기법보다 더 성능이 우수한 유전 알고리즘 (Genetic Algorithm)을 설명드리겠습니다.

Last updated