3_모델선택

20190909 이민예

How to Select Model ( 3가지 방법 )

Validation Set 을 사용함
Validation Set을 가지고, 훈련된 모델의 정확도를 검증함. 모델 집합 중 Validation Set의 정확도가 가장 높은 모델을 채택하고, Test Set 을 가지고, 정확도를 측정함.
Cross Validation
Cost로 인한 Validation Set 이 없을 경우, 훈련 데이터 중 일부를 K-fold 로 나누어서 검증한다. 검증한 결과 정확도가 가장 높음 모델을 채택하고, Test Set을 가지고 정확도를 측정함.
Bootstrap

How to Select Hyper-Parameters (# of Hidden Layers, Activation Function, Momentum Factor)?

데이터량보다 파라미터 수가 더 많으면 오버피팅이 된다. 즉, 모델이 너무 복잡할경우

단점 : 일반화할 수 없음.
장점 : 현실 데이터에 맞출 수 있음.

Goodfellow는 데이터 분석이란, 원목을 둥근 원형에 끼워맞추는 것이라고 설명하였다.

“To some extent, we are always trying to fit a square peg (the data generating process) into a round hole (our model family).” [Goodfellow, 2016 (p.222)]

Wavelet-RKHS(Reproducing Kernal Hilbert Space)-based function

Spline 의 종류

Spline 은 부드러운 곡선의 모양을 다항식으로 표현한 것임.

Cubic Spline
B-Spline
Kernal, Gaussian Kernal

RKHS

Reproducing Kernel Hilbert Space 를 이해하기 위해선, Hilbert Space 가 무엇인지에 대해서 이해해야함. 여기서 말하는 Space란 물리적 정의가 아닌 수학적 정의임. 또한, Hilbert Space에 대해서 알기 위해선, 벡터 공간에 대해서 알아야함.

Vector Space
Inner Product Space
Hilbert Space ( = Complete Inner Product Space)

선형성
- Superposition : $f(x+y)= f(x)+f(y)$
- Homogeneity : $f(ax) = a(f(x))$
Vector Space (벡터공간) 이란 무엇일까?
- 벡터 공간에 대해서 이야기 할 때에는 가장 중요한 것은, "어떤 수집합 (field) 위에 정의하는 벡터공간" 이라는 점이다. 우리가 흔히, 실수 집합, 또는 복소수 집합 만을 따지기 때문에 이점을 쉽게 간과될 수 있으며, 실수 집합 위에서 정의하는 벡터공간 을 유클리드 공간(Euclidean Space)이라고 한다.
- <Vector,(연산) Vector> = Value
- 가장 일반적인 Vector Space는 유클리디안 Vector Space 임.
- 함수도 벡터가 될 수 있음. 만약, 벡터가 유클리디안이 아니라 함수이면,
- <f1, f2> = integral of f1*f2 (적분으로 나타냄)

사영
- 2차원에 사는 외계인이 3차원 공간을 보도록 하려면 ? 사영을 한다.
- 사영을 하면, 외계인이 볼 수 있는 2차원이 되고, (x1,x2) 만 볼 수 있다.

Bases
- Linear Combination 으로 나타낼 수 있는데, Linearly 독립적인 벡터이면서 Linear Combination 을 bases라고 함.

Hilbert Space
- Complete Inner Product Space 라고도 함.
- 여기서 Complete 의미란 Compact 하고는 다른 의미임. 벡터가 무한대로 가도 현 IPS 에 속하면 "Complete" 하다 라고 말함.
- 무리수의 측정은 1, 유리수의 측정은 0이라 한다. 따라서 Hilbert Space는 실용적이지 않다.
- Vector Space랑 Inner Product Space 가 실용적인 정의라면, Hilbert Space 는 이론적인 수학적인 정의임.
Non Parameter 에 나오는 개념
- Kernel
- Waveling
- Spline

최근 머신러닝 트랜드

예전 : Variable Selection
최근 : 모든 변수를 다 넣은 후 , 즉 모든 기저를 다 넣은 후 L1 norm, L2 norm 가진 패널티를 넣는 방식으로 감. (충분히 큰 Capacity)

Labeling 의 고충의 해결책

Data Augmentation

Discriminative vs Generative

Discriminative :
- 분류에 초점 , p(y) or p(y|x)
Generative :
- Style Transformation.
- Generative 모델을 설명한 것, 기계가 새로운 화음을 만들어 낼수 있다는 것을 Ada 가 1843년도에 말함.

“Analytical Engines will be able to process more than just numbers … that the fundamental relations of pitched sounds in the science of harmony and of musical composition were susceptible of such expression and adaptations, the engine might compose elaborate and scientific pieces of music of any degree of complexity of extent.” [Ada, 1843]

Deterministic vs Stocastic

Deterministic : 같은 데이터를 주었을 때, 같은 아웃풋
Stocastic : 같은 데이터를 주었을 때 다른 아웃풋

Previous4_딥러닝의 역사와 선형대수 Next2_딥러닝과 최적화 개요

Last updated 4 years ago