The Adaptive Lasso and Its Oracle Properties

High Dimensional Regression

High Dimensional Regression 이란 Least Squares 문 minβRpi=1n(yixiTβ)2min_{\beta \in R^p}\sum_{i=1}^n (y_i-x^T_i \beta)^2 에서 predictor matrix xRnpx \in R^{n*p} 에서 p가 n 보다 큰 상황을 말한다. 속성의 수가 데이터의 수보다 많을 때 (미지수의 개수가 방정식의 개수보다 더 많을 때), 두가지 문제점이 있다. (참고)

  • 예측력이 떨어진다

  • 해석력이 없어진다.

p>n 일 경우, 왜 예측력이 떨어질까?

β=(XTX)1XTY\beta' = (X^TX)^{-1}X^TY

위의 식이 정의 되기 위해서는 X 의 전치행렬과 X 행렬의 곱의 역행렬이 존재하여야 한다. 즉, 역행렬이 존재한다는 것은 X의 열벡터가 선형독립이라는 것이다. Ax=0Ax = 0 에서 xx 가 0 벡터가 아닌 다른 해가 존재하면 선형종속임. 하지만 역행렬이 존재할 경우 A1Ax=A10A^{-1}Ax = A^{-1}0 x=0x = 0 이됨. 따라서, 역행렬이 존재하면 열벡터가 선형 독립임. 하지만, p>n 이라는 조건일 때, Free Variable* 이 존재한다는 것이고 이는 선형 종속임.

따라서, p > n 인경우, 선형 종속이 되어서 역행렬을 가지지 않게 되고, 위 식을 풀 수 없다.

따라서, 유의미한 속성값들만 사용하기 위해서 3가지 방법을 고안할 수 있다. (참고, 참고2)

  • Subset Selection : 가능한 모든 속성을 테스트 해보고 최적의 모델을 찾는 기법이다. (ex stepwise selection)

    • Backward

    • Forward

  • Shrinkage Methods : 모든 변수를 사용하되 특정 계수들을 0으로 줄여주는 규제화를 한다.

    • Ridge

    • Lasso = Sparse Model

  • Dimension Reduction

내가 좋은 모델을 추정(Model Estimation)하고 맞는 변수를 선택(Variable Selection)을 하려면, 회귀계수가 다음을 만족해야하는데 이것을 , 오라클 속성 (Theoretical Statistics 9.14참고) 이라고 한다.

  1. Consistency in variable selection : 모델을 정확하게 표현하는 회귀계수 best subset k개를 찾았다.

    모델에 대해서 변수를 선택했는데, 실제 시스템에 있는 원래 맞는 변수인가?

    -Prediction Oracle Solution

    minE(E(Y)iβiXi)2minE(E(Y)-\sum_i\beta_i'X_i)^2 둘의 평균치가 있고 라쏘도 그것을 만족함.

  2. Asymptotic Normality : 추정한 회귀계수와 진짜 회귀계수의 차이에 루트 n 을 곱한 값이 정규분포를 따른다.

하지만, 라쏘는 위 오라클 속성을 만족하지 못한다. 그리고 다중공정성 문제도 가지고 있다.

다음 Proposition 은 Lasso 가 inconsitent 하다고 말한다.

λn/n>λ0>0,thenlimsupnP(An=A)<c<1,\lambda_n/ \sqrt{n} -> \lambda_0 > 0, then lim sup_nP(A_n=A)<c<1,

where c is a constant depending on the true model.

라쏘는 모델을 추정함과 동시에 변수를 선택하는 역할을 하여 Least Absolute Shrinkage 또는 Selection Operator 라고도 한다. 따라서 라쏘의 목표는 0이 아닌 회귀계수들의 집합, Active Set를 구하는 것이다. 회귀계수가 0이 되면 자연히 변수를 선택하지 않게 된다. 0 이 아닌 변수들만 간선을 이어준다(Neighborhood selection)

Adaptive Lasso 는 Oracle Property 를 만족한다.

argminβyj=1pxjβj2+λj=1pwjβjargmin_{\beta}|| y-\sum_{j=1}^px_j\beta_j||^2 + \lambda\sum_{j=1}^pw_j|\beta_j|

LARS Algorithm

Linear Regression Model Construction

현실세계의 모델의 참값 M(θ)M^*(\theta^*) 과 우리가 만든 모델의 추정치값 M(θ)M(\theta)가 존재함.

  • Model Selection : 이 확률변수 중에서 모델을 추정할 때 필요한 변수를 선택하는 것 => 과연 이 변수가 실제 시스템에 있는 원래 맞는 변수인가????

    • Y=β1X1+β2X2+....+β100X100Y = \beta_1X_1 + \beta_2X_2 +....+\beta_{100}X_{100}

  • Parameter Estimation : 변수 앞 회귀계수를 추정하는 것

    • Y=β1X1+β2X2+....+β100X100Y = \beta_1'X_1 + \beta_2'X_2 +....+\beta_{100}'X_{100}

  • Prediction : 실제 값을 넣어서 예측하는 것

    • y=β1x1+β2x2+....+β100x100y' = \beta_1'x_1 + \beta_2'x_2 +....+\beta_{100}'x_{100}

Experiments

  • 네트워크 추정시, 초기람다=0.1, 감마=0.15에서 아답티브 라쏘가 더 좋은 결과를 보였음.

  • 하지만, 아답티드 라쏘도 노드가 많아지면, 다중공정성 문제가 생김. Zou and Zhang, 2009 =>Elastic-net 이 제안된 배경

Variable Selection

Lasso

Variance 를 높이고, Bias 를 낮춘다.

Reference

https://daeson.tistory.com/218

Last updated