9_RandomForest, Ridge, Lasso Regression

2019-09-25 이민예

선행공부

선형회귀에서 훈련 데이터의 포인트와 추정된 직선 사이의 오차 제곱의 합 (MSE) 가 가장 작도록 훈련이 된다. 하지만, 2개의 Train Data 를 가지고 있는 상황을 살펴보자. 2 점을 이어 MSE 는 0이 되었지만, 보이지 않는 테스트 데이터가 계산이 되면, 오차가 커진다. 즉, High Variance 한 상황이고, 머신러닝에서는 OVERFIT 되었다고 이야기 한다.

Ridge Regression 에서는 잔차만을 최소화 하는 것이 아니라, 잔차 + λslope2\lambda * slope ^2 한 값을 최소화하려고 훈련된다. 즉, 기울기가 클수록 패널티를 주는 것인데, 왜 기울기가 크면 안좋은 것일까? 기울기가 클수록 더 민감하기 때문이다.

모델을 구축할때, 어떤 피처를 사용할 것인가는 무척 중요하다. 특히나, 고차원적인 모델에서는 중요하다. 전통적인 변수 선택 방식은 Stepwise selection 이 있다. 변수를 하나씩 빼보면서, 혹은 더해보면서 검증을 하는 것인데, 이는 비효율적이고, 불완전하다. 대안으로는 몇개의 계수를 0으로 만든다거나, 패널티를 주는 방법이 있다.

β^=argminβCn(β){\hat{\beta}} = argmin_{\beta}C_n(\beta)
Cn(β)=i=1n(yixiβ)2/2n+λj=1pJλ(βj)C_n(\beta) = \sum_{i=1}^n(y_i-x_i^{'}\beta)^{2} / 2n + \lambda\sum_{j=1}^pJ_{\lambda}(|\beta_j|)

패널티 함수 J 에 대해서,

  • bridge regression J(β)=βq,q>0J(\beta) = \beta^q, q>0 ->non-convex

  • Lasso J(β)=βJ(\beta) = \beta -> convex

  • SCAD -> non-convex

Non Convex 는 모델이 UnderFit(=unbiasedness) 하지 않게 하게끔한다. bridge와 SCAD 와 같은 패널티함수는 오라클 속석을 가지고 있다. 하지만, 지역최저점이 주어졌을 때는 확인하기 어렵다.

Soft-thresholding

Ridge Regression, Lasso Regression 은 선형회귀에서 MSE 목적함수 (Cost Function) 에 규제 항을 추가한 목적함수를 여기서 규제항을 L2 norm을 사용하면 리지 회귀이고, L1 norm을 사용하면 라쏘 회귀이다. 규제 항은 매개변수를 작은 값으로 유지하므로 모델의 용량을 제한하는 역할을 한다.

리지 회귀는 가중치 감쇠를 보여주는 대표적인 예로 사용되며, 가중치 감쇠 개념을 딥러닝에도 적용할 수 있다.

Ridge Regression

Lasso Regression

https://en.wikipedia.org/wiki/Regularized_least_squares

Random Forest

  1. Classification Error : Error 를 기준으로 classification boundary 를 결정한다 .

  2. Entropy : 한 영역안에 얼마나 골고루 섞여 있느냐를 판단한다.

  3. Gini Index

Last updated