예측모델 HW#1

2019021166 이민예 Date: 2019-09-16

1. 조건부 확률

사건 A 가 일어났다는 전제하에서 사건 B가 일어날 가능성을 생각하는 확률을 조건부 확률이며, 다음과 같이 정의한다.

P(BA)=P(AB)/P(A)P(B|A) = P(A∩B)/P(A)

조건부 확률의 성질

복잡한 사건의 확률을 구할 때, 다음과 같은 조건부 확률의 성질을 이용하면 편리하다.

  1. 곱셈공식

    P(A)>0,P(B)>0P(A) >0, P(B) >0 이면,

    P(AB)=P(BA)P(A)=P(AB)P(B)P(A∩B) = P(B|A)*P(A) = P(A|B)*P(B)

  2. 전확률공식

    표본공간 S를 사건 A1,A2,..A^1, A^2, .. 에 대하여 공통부분이 없게 분할할 때,

    P(B)=P(BA1)P(A1)+P(BA2)P(A2)+...P(B) = P(B|A^1)*P(A^1) + P(B|A^2)*P(A^2) + ...

Bayes' theorem

2. 결합확률분포(Joint probability distribution), 주변확률분포(Marginal probability distribution), 조건부확률분포 (Conditional probability distribution)

확률분포

결합확률분포를 알아보기 전에, 확률분포를 먼저 알아본다. 확률변수(ex. 주행거리)가 가질 수 있는 값들의 집합(ex. 19,700 31,460, ...)을 각각의 값에 그 값을 가질 확률을 대응시키는 함수 확률밀도함수라고 하며, 확률변수 X 에 관한 확률이 실직선위에 어떻게 분포되는가를 나타내는 것이 X 의 확률분포라 함.

No

MODEL

주행거리

마력

용량

가격

1

Toyota Corolla 2.0

46,986

90

2,000

13,500

2

Toyota Corolla 1800

19,700

192

1,800

21,500

3

Toyota Corolla 1.9

71,138

69

1,900

12,950

4

Toyota Corolla 1.8

31,461

192

1,800

20,950

5

Toyota Corolla 1.816

43,610

192

1,800

19,950

결합확률분포

일반적으로, 실험 대상의 확률변수는 여러개이다. (ex. 주행거리, 마력, 용량, 가격..) 두 확률변수 X, Y 가 주어질 경우, 이들의 순서쌍 (X,Y) 의 분포를 결합확률분포라고 한다.

두 확률변수 X, Y의 결합확률분포표

X, Y 는 각각 A회사와 B 회사에 투자한 금액 (단위: 백만원)

Y/X

1

2

3

4

1

0.02

0.04

0.08

0.15

2

0.04

0.05

0.06

0.10

3

0.08

0.06

0.05

0.01

4

0.15

0.10

0.01

0.00

  • A 회사와 B 회사에 100만원씩 투자할 확률 P(X=1, Y=1) = 0.02

  • A 회사에 300만원 B 회사에 200만원씩 투자할 확률 P(X=3, Y=2) = 0.06

결합확률분포의 성질

  • 확률분포표 안에 모든 확률을 더한 값은 11 이다.

  • XXYY 의 특정 범위에 대한 확률은 범위 내에 있는 확률을 시그마 또는 적분을 사용하여 더해주면 된다.

주변확률분포

순서쌍 (X,Y)의 결합확률분포로부터 X의 분포, Y의 분포를 나타내는 주변확률분포를 구할 수 있다.

조건부확률분포

3. 독립확률변수(Independent random variable)

한 사건의 관측 여부가 다른 사건이 일어날 가능성에 아무런 영향을 주지 않는 경우와 같이, 확률변수 X가 어떠한 범위의 값을 갖든 확률변수 Y에 관한 사건의 가능성에 아무런 영향을 주지 않는 경우,

즉, a, b, c, d의 값에 관계 없이, 다음 식이 성립하는 경우로서, X에 관한 어떠한 사건도 Y에 관한 사건과 서로 독립인 경우이다.

P(c<=Y<=da<=X<=b)=P(c<=Y<=d)P(c<=Y<=d|a<=X<=b) = P(c<=Y<=d)

이와 같이, 두 확률변수 X,YX,Y 에 대하여,

P(a<=X<=b,c<=Y<=d)=P(a<=X<=b)P(c<=Y<=d)P(a<=X<=b, c<=Y<=d) = P(a<=X<=b)P(c<=Y<=d)

가 성립할 때, 확률변수 XXYY 가 서로 독립(mutually independent)이라고 한다. 즉 위의 예제에서는 0.02=0.290.290.02 = 0.29*0.29 가 성립하지 않으므로, 독립확률변수가 아니며, XXYY 가 서로 독립이 되기 위해서는 모든 (x,y)(x,y) 대해서 P(x,y)=P(x)P(y) P(x,y)=P(x)*P(y) 이 성립함을 보여야 한다.

4. 상관계수(Correlation), 자기상관계수(Autocorrelation)

공분산의 정의

(공분산) 확률변수 XX 의 평균과 표준편차를 각각 μ1,σ1μ_1, σ_1 , YY 평균과 표준편차를 각각 μ2,σ2μ_2, σ_2 이라고 할 때, (Xμ1)(Yμ2)(X-μ_1)(Y-μ_2) 의 기댓값을 XXYY 의 공분산(Covariance)이라 하고 기호로는 Cov(X,Y)Cov(X,Y) 또는 간략히 σσ 나타낸다. 즉,

Cov(X,Y)=E[(Xμ1)(Yμ2)]Cov(X,Y) = E[(X-μ_1)(Y-μ_2)]

수식을 통해 공분산의 의미를 이해해보자. 평균을 기준으로 1,3사분면에 있으면 직사각형의 너비가 양의 부호이고, 2,4 사분면에 있으면 직사각형의 너비가 음의 부호이다. 양의 부호라는 것은 X,Y가 같은 방향으로 움직임을 알수 있다. 따라서 공분산은 직사각형 너비의 평균이고, 이를 통해 두 확률변수가 같은 방향으로 움직이는지, 다른 방향으로 움직이는지 알수 있다. 아래와 같은 경우 공분산이 양수가 나왔으므로 같은 방향으로 움직인다는 것이다. 하지만 공분산을 통해 말할 수 있는 것은 방향성 뿐이다. 즉,

  • Cov(X,Y)>0Cov(X,Y)>0 : X가 증가할 때 Y도 증가

  • Cov(X,Y)<0Cov(X,Y)<0 : X가 증가할 때 Y 감소

  • Cov(X,Y)=0Cov(X,Y)=0 : X, Y 의 선형 관계에 대한 의존성이 없다. 하지만, 두 변수가 독립이라는 것은 아니다. 독립 관계는 두 변수의 모든 관계가 없다는 상위개념이기 때문이다.

확률변수 X, Y가 서로 독립이면 Cov(X,Y)=0Cov(X,Y)=0 이다.

공분산의 성질과 계산공식

(a) Cov(X,Y)=Cov(Y,X)Cov(X,Y) = Cov(Y,X) , Cov(X,X)=Var(X)Cov(X,X) = Var(X)

(b) Cov(aX+b,cY+d)=acCov(X,Y)Cov(aX+b, cY+d) = acCov(X,Y)

(c) Cov(X,Y)=E(XY)[E(X)][E(Y)]Cov(X,Y) = E(XY)-[E(X)][E(Y)]

상관계수의 정의

(상관계수) 두 확률변수 X,YX, Y 의 표준편차 σ1,σ2σ_1, σ_2 가 0이 아닐때, XXYY 의 공분산을 두 표준편차의 곱으로 나눈 수를 XXYY 의 상관계수(correlation coefficient)라고 하며 기호로는 Corr(X,Y)Corr(X,Y) 로 나타낸다. 즉,

Corr(X,Y)=Cov(X,Y)/Var(X)Var(Y)Corr(X,Y) = Cov(X,Y) /√Var(X) * √Var(Y)

공분산은 두 변수가 관계를 가지는 방향성만 말해주지 강도의 크기는 말해주지 않는다.

변동계수를 구할 때 표준편차의 값을 평균으로 나눈 것 cv=σ/xcv = σ/x' 처럼 상관계수 pp 는 각 변량의 표준편차의 곱으로 나눈다. 이렇게 표준편차의 곱으로 나누면 공분산이 표현되는 정보구간이 축소되는 효과를 가진다. 즉, 백분위를 구할 때 (특정 범위/전체 범위)에서 전체 범위를 어떻게 잡느냐로 정보구간을 축소하는 것 처럼 상관계수도 공분산이 표현되는 범위를 표준편차를 통해 축소한 것 이다.

  • p=1p=-1 : 완전한 음의 선형관계

  • p=1p=1 : 완전한 양의 선형관계

  • p=0p=0 : 선형관계가 존재하지 않음

p=0.4p=-0.4 를 어떻게 해석 할 수 있는가?

1. p<0p<0 이므로 두 변수 사이엔 음의 선형관계가 존재함. 2. pp 가 -1보다는 0에 좀 더 가깝기 때문에 선형관계가 약하다고 판단함.

이 숫자가 독립변수 X가 1 변화할 때 종속변수 Y가 -0.4 만큼 감소한다고 해석 할 수 없으며, X가 변할 때 Y가 감소하는 강도가 0.4라고 해석할 수도 없다. 다만, 상관계수는 공분산에선 대략적으로도 알 수 없었던 선형관계를 대략적으로 알려주는 역할을 한다.

상관계수의 성질

(a) Var(((Yμ2)/σ2)p((Xμ1)/σ1))=1p2Var(((Y-μ_2)/σ_2)-p((X-μ_1)/σ_1)) = 1-p^2

(b) 1<=p<=1-1<= p <=1

(c) p=1<=>P(((Yμ2)/σ2)=((Xμ1)/σ1)))=1p=1 <=> P(((Y-μ_2)/σ_2)=((X-μ_1)/σ_1))) = 1 and p=1<=>P(((Yμ2)/σ2)=((Xμ1)/σ1)))=1p=-1 <=> P(((Y-μ_2)/σ_2)=-((X-μ_1)/σ_1))) = 1

자기상관계수의 정의

확률변수 YY 에 대한 서로 다른 시점에서의 관측 YtY_tYtkY_t-k 를 고려하자. 여기서 k>0k>0 인 값이다.

(자기상관계수) 두 확률변수 Yt,YtkY_t, Y_t-k 사이의 자기상관계수는 다음과 같고, a=ba = bkk 차 자기상관계수라고 한다.

p(Yt,Ytk)=Cov(Yt,Ytk)/Var(Yt)Var(Ytk)p(Y_t,Y_t-k) = Cov(Y_t,Y_t-k) /√Var(Y_t) * √Var(Y_t-k)

자기상관계수의 성질

(a) 1<=p(k)<=1-1<= p(k) <=1

(b) p(k)=p(k)p(-k) = p(k)

(c) p(0)=1p(0) = 1

5. 고유값(EigenValue), 고유벡터(EigenVector)

Ax=λxAx =λx

행렬 AA 는 어떤 벡터 xx 에 선형변환을 가하는 선형연산자. 즉, 회전 변환과 확대/축소 변환을 가하는 연산자. 그러나, 해당 벡터 xx 에 대해서 회전 변환은 가하지 않고, 확대/축소 변환만을 가한다면, 벡터 xx 는 A의 고유벡터. 그리고, 이런 경우 확대/축소의 양을 나타내는 스칼라를 따로 분리할 수 있게 되는데 이 스칼라 값을 고유값 λ .

입력벡터는 A라는 행렬 (선형변환 연산)에 의해 또 다른 벡터인 출력벡터로 변환된다. 즉 선형변환 연산 후 생성된 출력벡터는 기본적으로 입력벡터와 다르다. 그러나 특정한 벡터와 행렬은 선형변환 후에도 방향은 그대로이며, 크기만 람다배로 바뀌는데, 이 벡터와 상수값을 det(AλI)=0d e t ( A − λ I ) = 0 성질을 이용하여 찾을 수 있다.

(AλI)x=0(A-λI)x =0 을 만족하는 0이 아닌 고유 벡터 xx 를 찾을 수 있다면, 그 행렬은 역행렬이 존재하지 않는다. 어떠한 선형 시스템 AλIA-λI 을 0이 아닌 xx벡터에 곱하여, 0으로 만들었다. 그러면, AλIA-λI 의 역행렬이 존재한다면, 0에 역행렬을 곱하여, 다시 xx 벡터로 되돌려야 하는데, 0을 다시 곱하여 값으로 변환시킬 수 있는 시스템은 존재하지 않는다. 따라서,

  • AλIA-λI 는 역행렬이 존재하지 않으며 (Not invertible, Singular), det(AλI)=0d e t ( A − λ I ) = 0 이다.

고유벡터가 기저를 이루어 생성하는 고유벡터공간에서의 선형변환

어떤 선형연산자로써의 행렬이 있을 때, 이 행렬로부터 고유값과 고유벡터를 계산해 냄으로써, 이 행렬이 벡터에 가하는 변환을 고유벡터들이 기저를 이루는 고유공간에서의 변환으로 해석함으로써, 회전 변환은 배제하고 확대/축소 변환만으로 이해하고 응용할 수 있음. 아래 행렬 A가 벡터 x = (x1, x2) 에 변환을 가할 때, 이 변환을 고유벡터 v1, v2가 기저를 이루어 생성하는 고유벡터 공간에서 이해를 하면, v1 방향으로는 3배, v2 방향으로는 -1배한 벡터들의 합으로 변환이 가해진다는 것을 알 수 있다.

6. 양의 정부호 행렬 (Positive definiate matrix), 양의 준정부호 행렬(Positive semidefinate matrix)

양의 정부호 행렬

먼저 용어에 대한 정의를 해보면, y=(x+2)2+4y = (x+2)^2+4 에서 x=2x = -2 일 때, 4 를 갖는다. x=2x=-2 인 지점을 정류점, 또는 임계점이라고 하며, 이때 4를 극소값이라고 한다. 1차 미분을 하였을때 정류점을 할 수 있고, 이 때 얻어지는 값이 극소인지, 극대인지를 알기위해서는 2차미분을 하여야 한다.

정류점 이외의 모든 함수값들이 양수이면, 양의 정부호이다. 따라서, (0,0)은 극소점이면서 최저점인데, 양의 정부호일때는 극소점을 갖는다는 것을 기억하자!

어떤 A 행렬의 모든 고유값이 양수를 가지면, A 는 양의 정부호 행렬이다.

행렬 ACmA ∈C^mA=AA=A^∗ 즉, 에르미트 행렬일 때 임의의 벡터 x0x≠0 에 대해 xAx>0x^∗Ax>0AA양의 정부호라고 부르고 A>0A>0 로 쓴다.

행렬 ARmA∈R^m 에 대해서는 A=ATA=A^T 즉, 대칭행렬이고 x0 x≠0 에 대해 xTAx>0 x^TAx>0 일 때 A>0A>0 로 정의한다.

양의 준정부호 행렬

어떤 A 행렬의 모든 고유값들이 0보다 같거나 양수이면, A 는 양의 준정부호 행렬이다. 모든 고유값이 음수인 경우는 양의 음의 정부호 행렬, 이렇게 개념을 줄 수 없는 양수, 음수 둘다 가진 행렬을 부정부호 행렬이라고 한다.

[ Reference ]

https://slidesplayer.org/slide/14779690/

https://m.blog.naver.com/yunjh7024/220819816790

https://lifeisforu.tistory.com/36

Last updated