[2-2] SVM Soft margin

이번 장에서는 SVM Soft margin 과 비선형 데이터 셋을 분류하는 커널 SVM 기법을 설명드리도록 하겠습니다.

SVM Soft Margin

Soft margin 은 Hard margin 과는 다르게 마진을 넘어가는 경우를 허용합니다. Soft Margin 의 목적식은 두개의 Term 으로 구성되어 있는데, 첫번째 Term은 앞장에서 설명드린 Hard Margin 과 동일합니다. 이 두가지 Term 의 역할을 알아보도록 하겠습니다.

  • Large Margin : 마진을 최대화 하여 일반화 성능을 높입니다.

  • Flexible : 마진을 벗어날 수 있는 범위를 허용함으로써 모델의 유연성을 높입니다.

하지만,

여기서 C 는 Regularization cost 로 마진을 넘어가는 것을 허용하지만 최대한 넘어가지는 않도록 Panelty 를 부여합니다. C 가 클수록 마진을 벗어나는 객체를 허용하지 않습니다.

이를 풀이하면 다음과 같습니다.

제약식에 라그랑지안 승수를 곱해 목적식에 합쳐 라그랑지안 Primal 문제로 바꾸면 다음과 같습니다. KKT 조건에서는 Lp를 미지수로 각각 편미분한 식이 0이 되는 지점에서 Lp가 최소값을 갖습니다. 다음과 같습니다.

위 식을 L에 넣어 정리하면 라그랑지안 Primal 문제가 Dual 문제로 바뀝니다. aia_i 에 관한 문제로 단순해졌고, 미지수 최고차항 계수가 음수여서 최대화 문제로 바뀌었습니다. 이는 기존 SVM의 Dual 식과도 일치합니다.

라그랑지안 승수가 0과 같을 때, 그리고, 0과 C 사이 일 때, 그리고 C 와 같을 때 총 3가지 케이스로 분류할 수 있습니다.

Non-Linear Case

선형 SVM 분류기가 효율적이고 많은 경우에 아주 잘 작동하지만, 선형적으로 분류할 수 없는 데이터셋이 더 많습니다.

비선형 데이터셋을 다루는 한 가지 방법은 다항 특성과 같은 특성을 더 추가하는 것입니다. 이렇게 하면 선형적으로 구분되는 데이터셋이 만들어질 수 있습니다. 데이터의 차원 수를 증가시키는 것입니다. 풀이는 Soft margin 과 유사합니다. 제약식에 있는 x 를 고차원의 ϕ\phi 로 변경합니다.

이를 풀이하면, 두 고차원의 내적이 필요한데, 즉 고차원으로 매핑시키는 함수를 알아낼 필요없이 특정 함수가 두 고차원의 내적을 표현할 수 있다면 함수로 대체할 수 있습니다.

x=(x1,x2)x = (x_1, x_2)

일때, 이에 대한 내적은 다음과 같다.

이를 함수로 나타낼 수 있는데, 22 라는 차이가 있지만, 나타내는 것이 가능하다.

이러한 커널함수를 Polynomial Kernel 이라고 합니다. d 와 Q 가 커질수록 표현할 수 있는 원소의 수가 커집니다.

이를 무한정 확장하였을 때, 가우시안 커널이 됩니다.

가우시안 커널은 Taylor 정리를 활용하면 무한차원에서 매핑된 상태를 계산할 수 있습니다. 따라서, VC Dimension 은 N차원 +1 이므로 무한을 가질 수 있습니다. 하지만, RBF Kernel SVM 의 VC Dimension 이 무한인 것은 아닙니다. 마진을 최대화하면서 제약적인 VC Dimension 을 갖기 때문입니다.

각각의 그래프를 살펴보면 𝛾를 증가시키면 종 모양 그래프가 좁아져서 각 샘플의 영향 범위가 작아집니다. 결정 경계가 조금 더 불규칙해지고 각 샘플을 따라 구불구불하게 휘어집니다. 반대로 작은 𝛾의 값은 넓은 종 모양 그래프를 만들며 샘플이 넓은 범위에 걸쳐 영향을 주므로 결정 경계가 더 부드러워집니다. 결국 하이퍼파라미터 𝛾가 규제의 역할을 합니다. 모델이 과대적합일 경우엔 감소시켜야하고 과소적합인 경우엔 증가시켜야 합니다.

Last updated