7_Matrix Decomposition

2019-09-18 이민예

행렬을 분해하는 이유는 (1) 계산의 편리함 (2) 분석의 용이성

고유값 분해 분석

부분 공간 (Subspace)

$R^n$ 에서 n개의 벡터가 모인 벡터 집합 $v$ 이 있다. $v$ 는 $R^n$ 의 subset이다. 하지만, 다음 3가지 조건을 만족하면, $v$ 는 $R^n$ 의 부분 공간 ( subspace ) 가 된다.

$v$ 는 영벡터를 포함한다.
$v$ 안에 있는 $x$ 벡터에 어떠한 스칼라 값을 곱하여도, $v$ 밖에 있는 벡터가 나오지 않는다. (곱셈에 대하여 닫혀있음)
$v$ 안에 있는 $a$ 벡터와 $v$ 안에 있는 $b$ 벡터를 더하여도, $a+b$ 는 $v$ 안에 갇혀 있다. (덧셈에 대하여 닫혀있음)

영 공간 (Null Space)

$Ax=0$ 에서 $x$ 해들이 이루고 있는 공간은 $A$ 의 영 공간이다.

고유분해 이유

특이값 분해 분석

A=UΣV^T

고유값 분해가 $n*n$ 의 정방 행렬에서만 정의되었다면, 특이값 분해는 $n*m$ 의 직사각 행렬에 대해 정의 가능하다. 하지만, 행렬 $V$ 행렬 $A$ 의 고유 벡터 $x_1, x_2$ 를 열벡터로 가지는 행렬의 전치행렬이다. 하지만, 정방 행렬에 대해서만, 고유값 분해를 할 수 있기 때문에, $AA^T$ 로 정방행렬로 변환시키어, 정규화한다. $A$ 행렬을 사용하여 선형 변환한 결과인 $Ax_1, Ax_2$ 에 대하여 각각의 크기를 1로 정규화한 벡터 $u_1, u_2$ 를 열벡터로 가지는 행렬 $U$ 와 singular value(=scaling factor)의 대각행렬 (diagonal matrix) $Σ$ 의 곱으로 이루어진다.

$A:$ $m*n$ 의 직사각 행렬
$U:$ $m*m$ 의 직교 행렬 $(AA^T=UΣΣ^TU^T)$
$Σ:$ $m*n$ 의 대각 행렬
$V:$ $n*n$ 의 직교 행렬 $(A^TA=VΣ^TΣV^T)$

직교행렬 (orthogonal matrix)

U^TU = UU^T = I

직교하는 두 벡터 $x_1, x_2$ 에 $A$ 행렬을 사용하여 선형 변환한 결과 $Ax_1, Ax_2$ 는 같다. 여기서 주목할 것은 2가지 이다.

$Ax_1, Ax_2$ 가 직교하게 되는 경우는, 단 한번만 있는 것이 아니다.
$Ax_1, Ax_2$ 는 기존 벡터 $x_1, x_2$ 에서 길이가 변하였다. 길이의 변화를 singular value 라고 한다.

특이값 분해 유도

[1] $U(Left singular vector)$ 를 구한다.

[1.1] $AA^T$ 를 구한다.

[1.2] $AA^T$ 의 고유값, 고유벡터를 구한다. (고유값 $λ$ 은 각각 12 와 10이 나왔으며, 고유값이 큰 순서대로 해당하는 고유벡터를 열벡터로 나열한다.)

[1.3] $AA^T$ 를 정규화 하면, $U$ 는 다음과 같다. (각 벡터의 성분을 벡터의 길이로 나누며, 벡터의 길이는 벡터의 성분들의 제곱의 합의 루트이다.)

[2] $V^T(right singular vector)$ 를 구한다.

[2.1] $A^TA$ 를 구한다.

[2.2] $A^TA$ 의 고유값, 고유벡터를 구한다. (고유값 $λ$ 은 각각 12 ,10, 0이 나왔으며, 고유값이 큰 순서대로 해당하는 고유벡터를 열벡터로 나열한다.)

[2.3] $A^TA$ 를 정규화 한후, 전치행렬로 변환시키면 $V$ 는 다음과 같다.

[3] $Σ$ 를 구한다.

[3.1] 나온 고유값들의 루트값을 취한 $m*n$ 의 대각 행렬을 구하면, $Σ$ 이며, 각 행렬의 원소들을 행렬 $A$ 의 특이값이라고 한다.

특이값 분해 이유

선형 근사
행렬 근사 (데이터 압축)

확률과 통계

결합확률 (Joint Probability) 은 사건 A 와 사건 B가 동시에 나올 확률이며, 조건부 확률의 곱셈 공식을 사용하여 다음과 같이 표현할 수 있다.

P(y=1, x=White) = P(x=White| y=1) * P(y=1)

흰 공을 뽑을 확률은 아래의 항목을 합한 것과 같다.

1번 공을 뽑을 확률 * 1번을 뽑았을 때, 흰 공이 나올 확률
2번 공을 뽑을 확률 * 2번을 뽑았을 때, 흰 공이 나올 확률
3번 공을 뽑을 확률 * 3번을 뽑았을 때, 흰 공이 나올 확률

조건부 확률의 전확률 공식을 사용하여 다음과 같이 표현할 수 있다.

P(White) = P(White| 1) * P(1) + P(White| 2) * P(2) + P(White| 3) * P(3)

Bayes 정리

확률을 나누는 여러가지 방법 중 크게 빈도주의적 접근 (Frequentist) 과 베이즈 접근 (Bayesian) 으로 구분할 수 있다. 빈도주의적 접근은 하나의 특정 참값을 가지는 반면, 베이즈 접근은 모수 (mother nature) 가 신만이 알 수 있고, 이를 확률 분포를 통해 추정한다. 조건부 확률의 곱셈 공식을 유도하여 베이즈 정리를 도출 할 수 있다.

$p(y) :$ 사전 확률 (ex. $p(y=1)$ )
$p(x|y)/p(x) :$ 우도 (ex. $p(x=white|y=1)/p(x=white)$ )
$p(x) :$ 사후 확률 (ex. $p(x=white)$ )

P(y=1, x=White) = P(x=White| y=1) * P(y=1) = P(x=White, y=1) = P(y=1| x=White) * P(x=White)

P(y=1|x=White ) = P(x=White| y=1) * P(y=1)/P(x=White)

“We know that we have a white ball(사후 확률), but we do not know which jar the ball came out from(우도). -> Estimate which jar it is(사전 확률).”

베이지안 이론을 머신러닝에 적용할 수 있다. Raw Data의 사진을 꽃잎 길이, 너비, 꽃받침의 길이, 너비와 같이 특징 추출을 한다.

Maximum Likelihood Estimation

$p_1, p_2:$ 주머니에서 1번공이 나올 확률, 주머니에서 2번공이 나올 확률을 모름
$q_3 :$ 3번째 통에서 흰공이 나올 확률을 모름
$p_1, p_2, p_3, q_1, q_2, q_3:$ 아무것도 모르는 상태임.

빨간 점이 다음과 같이 분포되어 있을 때, 빨간 점이 나올 확률은 얼마일까? 연속선상에서 빨간 점이 나올 확률은 $1/∞$ 이다. 그러면, 빨간 점에 대한 해석은 할 수 없는 것인가? 그러기에는 아쉽다. 아래 그림을 통해, 빨간 점이 평균이 0일 때, 나올 가능성이 높으며, 평균이 10일 때 나올 가능성은 낮다. 따라서 우리는 가능도라는 개념을 도입할 수 있다.

$q_3$ 이 어떨 때, X 가 나올 확률이 가장 크나 ?