예측모델 HW#4 (SVM)

2019021166 이민예 Date: 2019-11-18

분류용 데이터와 예측용 데이터 하나씩 찾고 각 데이터에 대해 다음을 수행하시오.

1. SVM (분류), SVR (예측) 모델을 하이퍼파라미터를 다양하게 바꾸어서 구축하시오 (kernel function, C, ...)

DATASET for SVM

101개의 동물에 대해 16개의 특징 (털의 여부, 치아의 여부, 다리의 갯수 등)으로 7개의 종(1-포유류, 2-새, 3-파충류, 4-물고기, 5-양서류, 6-곤충, 7-무척추 동물)으로 분류하는 문제이다.

DATASET for SVR

1-1. SVM (분류) 모델

Kernel Function

Kernel SVM 의 핵심 아이디어는 선형 불가능한 인풋 공간을 선형 분류가 가능한 고차원 공간으로 매핑시켜주는 것이다. 위와 같은 경우 총 16개의 input에 대해 다른 종류의 커널함수를 적용할 수 있으며, 직선, 곡선, 시그모이드 형태, 곡선 형태의 한 종류인 가우시안으로 분류할 수 있다.

Linear Kernel

Polynomial Kernel

Sigmoid Kernel

Gaussian Kernel (=Radial Base Kernel)

Tuning Parameter C (Sigmoid Kernel)

C값을 변경하였을때 기존보다 더 잘 나옴을 확인할 수 있다.

C=100

1-2. SVR(예측) 모델

2. Training set과 Testing set으로 나누고 다양한 평가 척도를 이용하여 예측성능을 평가하시오.

2-1. SVM (분류) 모델

Kernel Function

Linear Kernel 은 Gaussian Kernel 과 동일하게 0.96%의 정확도를 보였다. Polynomial Kernel 은 89%의 정확도를 보였으며, Sigmoid Kernel 은 92%의 정확도를 보였다.

Linear Kernel

Polynomial Kernel

Sigmoid Kernel

Radial Kernel

Tunning Parameter C

2-2. SVR(예측) 모델

3. 다른 분류모델과 비교하여 SVM만의 특징을 기술하시오.

SVM 은 1992년 밥닉(Vapnik)에 의해 처음으로 소개되었고, 적당한 데이터 사이즈를 가지고도 좋은 분류 결과를 제공함으로써 유명해졌다. SVM 은 다른 분류 모델과 비교하여 마진(Margin)의 개념을 가지는 것이 큰 특징이라고 할 수 있다. 분류하는 두 클래스들을 분류선으로부터 가장 멀리 떨어져있도록 결정 경계선을 찾아야 하며, 결정 경계선에 가장 가까이 있는 클래스의 데이터 점을 서포트 벡터라 부른다.

선형회귀, 로지스틱회귀, 결정트리, 랜덤포러스트, 신경망, 선형회귀, 나이브베이즈

Reference

Last updated