7_Matrix Decomposition

2019-09-18 이민예

행렬을 분해하는 이유는 (1) 계산의 편리함 (2) 분석의 용이성

고유값 분해 분석

관련 자료 : 예측모델 HW#1

A=QΛQA = QΛQ'
Λ=QAQΛ = Q'AQ

고유값의 정 Ax=λxAx =λx 에서 AA 를 위와 같이 고유벡터와 고유값을 사용한 분해가 가능하다. 이를 고유값 분해 혹은 대각화 분해라고 한다. AA 행렬은 고유벡터를 열벡터로 가지는 행렬 QQ 와 고유값의 대각행렬 (diagonal matrix) ΛΛQQ 의 역행렬의 곱으로 이루어진다.

  • 행렬 AA 는 대각화가능(diagonalize)함.

  • 행렬 QQ 는 행렬 AA 대각화함.

부분 공간 (Subspace)

RnR^n 에서 n개의 벡터가 모인 벡터 집합 vv 이 있다. vvRnR^n 의 subset이다. 하지만, 다음 3가지 조건을 만족하면, vvRnR^n부분 공간 ( subspace ) 가 된다.

  • vv 는 영벡터를 포함한다.

  • vv 안에 있는 xx 벡터에 어떠한 스칼라 값을 곱하여도, vv 밖에 있는 벡터가 나오지 않는다. (곱셈에 대하여 닫혀있음)

  • vv 안에 있는 aa 벡터와 vv 안에 있는 bb 벡터를 더하여도, a+ba+bvv 안에 갇혀 있다. (덧셈에 대하여 닫혀있음)

영 공간 (Null Space)

Ax=0Ax=0 에서 xx 해들이 이루고 있는 공간은 AA 의 영 공간이다.

고유분해 이유

특이값 분해 분석

A=UΣVTA=UΣV^T

고유값 분해가 nnn*n 의 정방 행렬에서만 정의되었다면, 특이값 분해는 nmn*m 의 직사각 행렬에 대해 정의 가능하다. 하지만, 행렬 VV 행렬 AA 의 고유 벡터 x1,x2x_1, x_2 를 열벡터로 가지는 행렬의 전치행렬이다. 하지만, 정방 행렬에 대해서만, 고유값 분해를 할 수 있기 때문에, AATAA^T 로 정방행렬로 변환시키어, 정규화한다. AA 행렬을 사용하여 선형 변환한 결과인Ax1,Ax2Ax_1, Ax_2 에 대하여 각각의 크기를 1로 정규화한 벡터 u1,u2u_1, u_2 를 열벡터로 가지는 행렬 UU 와 singular value(=scaling factor)의 대각행렬 (diagonal matrix) ΣΣ 의 곱으로 이루어진다.

  • A:A: mnm*n 의 직사각 행렬

  • U:U: mmm*m 의 직교 행렬 (AAT=UΣΣTUT)(AA^T=UΣΣ^TU^T)

  • Σ:Σ: mnm*n 의 대각 행렬

  • V:V: nnn*n 의 직교 행렬 (ATA=VΣTΣVT)(A^TA=VΣ^TΣV^T)

직교행렬 (orthogonal matrix)

UTU=UUT=IU^TU = UU^T = I

직교하는 두 벡터 x1,x2x_1, x_2 AA 행렬을 사용하여 선형 변환한 결과 Ax1,Ax2Ax_1, Ax_2 는 같다. 여기서 주목할 것은 2가지 이다.

  • Ax1,Ax2Ax_1, Ax_2 가 직교하게 되는 경우는, 단 한번만 있는 것이 아니다.

  • Ax1,Ax2Ax_1, Ax_2 는 기존 벡터 x1,x2x_1, x_2 에서 길이가 변하였다. 길이의 변화를 singular value 라고 한다.

특이값 분해 유도

[1] U(Leftsingularvector)U(Left singular vector) 를 구한다.

[1.1]AATAA^T 를 구한다.

[1.2] AATAA^T 의 고유값, 고유벡터를 구한다. (고유값 λλ 은 각각 12 와 10이 나왔으며, 고유값이 큰 순서대로 해당하는 고유벡터를 열벡터로 나열한다.)

[1.3] AATAA^T 를 정규화 하면, UU는 다음과 같다. (각 벡터의 성분을 벡터의 길이로 나누며, 벡터의 길이는 벡터의 성분들의 제곱의 합의 루트이다.)

[2]VT(rightsingularvector)V^T(right singular vector)를 구한다.

[2.1] ATAA^TA 를 구한다.

[2.2] ATAA^TA 의 고유값, 고유벡터를 구한다. (고유값 λλ 은 각각 12 ,10, 0이 나왔으며, 고유값이 큰 순서대로 해당하는 고유벡터를 열벡터로 나열한다.)

[2.3] ATAA^TA 를 정규화 한후, 전치행렬로 변환시키면 VV는 다음과 같다.

[3] ΣΣ 를 구한다.

[3.1] 나온 고유값들의 루트값을 취한 mnm*n 의 대각 행렬을 구하면, ΣΣ 이며, 각 행렬의 원소들을 행렬 AA 의 특이값이라고 한다.

특이값 분해 이유

  • 선형 근사

  • 행렬 근사 (데이터 압축)

확률과 통계

결합확률 (Joint Probability) 은 사건 A 와 사건 B가 동시에 나올 확률이며, 조건부 확률의 곱셈 공식을 사용하여 다음과 같이 표현할 수 있다.

P(y=1,x=White)=P(x=Whitey=1)P(y=1)P(y=1, x=White) = P(x=White| y=1) * P(y=1)

흰 공을 뽑을 확률은 아래의 항목을 합한 것과 같다.

  • 1번 공을 뽑을 확률 * 1번을 뽑았을 때, 흰 공이 나올 확률

  • 2번 공을 뽑을 확률 * 2번을 뽑았을 때, 흰 공이 나올 확률

  • 3번 공을 뽑을 확률 * 3번을 뽑았을 때, 흰 공이 나올 확률

조건부 확률의 전확률 공식을 사용하여 다음과 같이 표현할 수 있다.

P(White)=P(White1)P(1)+P(White2)P(2)+P(White3)P(3)P(White) = P(White| 1) * P(1) + P(White| 2) * P(2) + P(White| 3) * P(3)

Bayes 정리

확률을 나누는 여러가지 방법 중 크게 빈도주의적 접근 (Frequentist) 과 베이즈 접근 (Bayesian) 으로 구분할 수 있다. 빈도주의적 접근은 하나의 특정 참값을 가지는 반면, 베이즈 접근은 모수 (mother nature) 가 신만이 알 수 있고, 이를 확률 분포를 통해 추정한다. 조건부 확률의 곱셈 공식을 유도하여 베이즈 정리를 도출 할 수 있다.

  • p(y):p(y) : 사전 확률 (ex. p(y=1)p(y=1) )

  • p(xy)/p(x):p(x|y)/p(x) : 우도 (ex. p(x=whitey=1)/p(x=white)p(x=white|y=1)/p(x=white) )

  • p(x):p(x) : 사후 확률 (ex. p(x=white)p(x=white) )

P(y=1,x=White)=P(x=Whitey=1)P(y=1)=P(x=White,y=1)=P(y=1x=White)P(x=White)P(y=1, x=White) = P(x=White| y=1) * P(y=1) = P(x=White, y=1) = P(y=1| x=White) * P(x=White)
P(y=1x=White)=P(x=Whitey=1)P(y=1)/P(x=White)P(y=1|x=White ) = P(x=White| y=1) * P(y=1)/P(x=White)

“We know that we have a white ball(사후 확률), but we do not know which jar the ball came out from(우도). -> Estimate which jar it is(사전 확률).”

베이지안 이론을 머신러닝에 적용할 수 있다. Raw Data의 사진을 꽃잎 길이, 너비, 꽃받침의 길이, 너비와 같이 특징 추출을 한다.

Maximum Likelihood Estimation

  • p1,p2:p_1, p_2: 주머니에서 1번공이 나올 확률, 주머니에서 2번공이 나올 확률을 모름

  • q3:q_3 : 3번째 통에서 흰공이 나올 확률을 모름

  • p1,p2,p3,q1,q2,q3:p_1, p_2, p_3, q_1, q_2, q_3: 아무것도 모르는 상태임.

빨간 점이 다음과 같이 분포되어 있을 때, 빨간 점이 나올 확률은 얼마일까? 연속선상에서 빨간 점이 나올 확률은 1/1/∞ 이다. 그러면, 빨간 점에 대한 해석은 할 수 없는 것인가? 그러기에는 아쉽다. 아래 그림을 통해, 빨간 점이 평균이 0일 때, 나올 가능성이 높으며, 평균이 10일 때 나올 가능성은 낮다. 따라서 우리는 가능도라는 개념을 도입할 수 있다.

q3q_3 이 어떨 때, X 가 나올 확률이 가장 크나 ?

Mean

Variance

Covariance

Gaussian Distribution

전자공학에서는 가우시안 분포라고하며, 통계학에서는 정규분포라 한다. 이렇게 달리 부르는 이유는 무엇일까?

[Reference]

http://blog.daum.net/_blog/BlogTypeView.do?blogid=0KeYQ&articleno=8878318&categoryId=833802&regdt=20110603175544

http://www.qihub.scot.nhs.uk/media/530008/questmentalhealth%20spc%20chart%20interpretation.pdf

Last updated