베타 분포(Beta Distribution)와 디리클레 분포(Dirichlet Distribution)

13 Dec 2020 | Statistics

이 게시물은 부산대학교 김충락 교수님의 수리통계학 강의를 참고하여 작성하였습니다.

Beta & Dirichlet Distribution

이번 게시물에서는 베타 분포(Beta distribution)와 디리클레 분포(Dirichlet distribution)에 대해서 알아보겠습니다.

Beta Distribution

베타 분포의 확률 밀도 함수는 아래와 같이 나타나며 $X \sim \text{Beta}(\alpha, \beta)$ 로 나타냅니다.

[f_X(x) = \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)} x^{\alpha-1}(1-x)^{\beta-1} \quad I(0<x<1)]

확률 밀도 함수로부터 적률 생성 함수를 구해낼 수 있습니다.

[M_X(t) = \int_0^1 e^{tx} \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)} x^{\alpha-1}(1-x)^{\beta-1}dx]

위 함수의 해는 닫혀있지 않으므로 구할 수 없습니다. 따라서 베타 분포의 기댓값과 분산은 기댓값과 분산의 정의를 통해서만 구할 수 있습니다. 먼저 기댓값을 구해보겠습니다.

[\begin{aligned} E(X) &= \int_0^1 x \cdot \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)} x^{\alpha-1}(1-x)^{\beta-1}dx
&= \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)} \cdot \int_0^1 x^{\alpha}(1-x)^{\beta-1}dx
&= \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)} \cdot \frac{\Gamma(\alpha+1)}{\Gamma(\alpha+\beta+1)} \cdot \int_0^1 \frac{\Gamma(\alpha+\beta+1)}{\Gamma(\alpha+1)\Gamma(\beta)} x^{\alpha}(1-x)^{\beta-1}dx
&= \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)} \cdot \frac{\Gamma(\alpha+1)}{\Gamma(\alpha+\beta+1)}
&= \frac{\alpha}{\alpha+\beta} \end{aligned}]

분산은 위 과정과 비슷한 과정을 반복하여 $E(X^2)$ 를 구한 뒤 그 식에서 기댓값의 제곱을 빼주어 구할 수 있습니다. 이렇게 구한 분산의 값은 다음과 같습니다.

[Var(X) = \frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}]

Derivation from Gamma distribution

감마 분포로부터 베타 분포를 유도할 수 있습니다. 서로 독립이며 감마 분포를 이루는 2개의 확률 변수 $X_1 \sim \Gamma(\alpha,1), X_2 \sim \Gamma(\beta,1)$ 가 있다고 해보겠습니다. 이 때 $Y_2 = X_1/(X_1 + X_2)$ 는 $Y_2 \sim \text{Beta}(\alpha, \beta)$ 인 베타 분포를 따릅니다. 다변량 분포에서의 확률 분포 치환을 통해서 어떻게 이렇게 유도가 되는 지를 알아보겠습니다. 일단 치환할 각각의 확률 변수 $Y_1, Y_2$ 는 다음과 같이 나타냅니다.

[Y_1 = X_1 + X_2 , \quad Y_2 = \frac{X_1}{X_1 + X_2}]

이를 $X_1, X_2$ 에 관한 함수로 나타내면 아래와 같게 되며 $Y_1, Y_2$ 가 가질 수 있는 범위도 구할 수 있습니다.

[X_1 = Y_1Y_2, \quad X_2 = Y_1(1-Y_2)
\mathbf{S} = {(x_1,x_2):0<x_1<\infty, 0<x_2<\infty}
\mathbf{T} = {(y_1,y_2):0<y_1<\infty, 0<y_2<1}]

그리고 치환에 사용하기 위해서 역함수로부터 야코비안 행렬의 행렬식을 구해야 합니다.

[\begin{aligned} J &= \left\vert\begin{array}{cc} y_2 & y_1 \ 1-y_2 & -y_1 \end{array} \right\vert
&= -y_1y_2 - y_1(1-y_2)
&= -y_1 \end{aligned}]

두 확률 변수가 독립이므로 두 확률 변수 $X_1, X_2$ 결합 확률 밀도 함수는 다음과 같습니다.

[\begin{aligned} f_{X_1,X_2}(x_1,x_2) &= f_{X_1}(x_1)f_{X_2}(x_2) \quad (\because \text{independent})
&=\frac{x_1^{\alpha-1}e^{-x_1}}{\Gamma(\alpha)} \cdot \frac{x_2^{\beta-1}e^{-x_2}}{\Gamma(\beta)}
&= \frac{x_1^{\alpha-1}x_2^{\beta-1}e^{-(x_1+x_2)}}{\Gamma(\alpha)\Gamma(\beta)} \end{aligned}]

이를 사용하여 $Y_1, Y_2$ 의 결합 확률 밀도 함수를 구할 수 있습니다.

[\begin{aligned} g_{Y_1,Y_2}(y_1,y_2) &= f_{X_1,X_2}(x_1,x_2) \cdot \vert J \vert
&= \frac{x_1^{\alpha-1}x_2^{\beta-1}e^{-(x_1+x_2)}}{\Gamma(\alpha)\Gamma(\beta)} \cdot \vert J \vert
&= \frac{(y_1y_2)^{\alpha-1}(y_1(1-y_2))^{\beta-1}e^{-y_1}}{\Gamma(\alpha)\Gamma(\beta)} \cdot y_1
&= -\frac{y_1^{\alpha+\beta-1}y_2^{\alpha-1}(1-y_2)^{\beta-1}e^{-y_1}}{\Gamma(\alpha)\Gamma(\beta)}
&= \frac{y_1^{\alpha+\beta-1}e^{-y_1}}{\Gamma(\alpha+\beta)} \cdot \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)} y_2^{\alpha-1}(1-y_2)^{\beta-1} \end{aligned}]

결합 확률 밀도 함수가 각 확률 변수에 대한 함수의 곱 $g_{Y_1,Y_2}(y_1,y_2) = h_1(y_1)h_2(y_2)$ 으로 이루어졌기 때문에 두 확률 변수가 독립임을 알 수 있습니다. 확률 변수 $Y_1, Y_2$ 가 각각 감마 분포 $Y_1 \sim \Gamma(\alpha+\beta,1)$ 와 베타 분포 $Y_2 \sim \text{Beta}(\alpha, \beta)$ 를 따르는 것을 알 수 있습니다.

Dirichlet Distribution

디리클레 분포는 베타 분포를 항이 여러 개인 경우로 확대한 것입니다. 서로 독립이며 각각이 감마 분포를 이루는 두 확률 변수 $X_1, X_2$ 로부터 베타 분포를 유도한 것처럼 감마 분포를 이루며 서로 독립인 $k+1$ 개의 확률 변수 $X_1, \cdots, X_{k+1}$ 을 활용하여 디리클레 분포를 유도할 수 있습니다. 각각의 확률 변수를 다음과 같이 치환합니다.

[Y_1 = \frac{X_1}{\sum^{k+1}{i=1}X_i}, Y_2 = \frac{X_2}{\sum^{k+1}{i=1}X_i}, \cdots , Y_k = \frac{X_k}{\sum^{k+1}{i=1}X_i}, Y{k+1} = \sum^{k+1}_{i=1}X_i]

이를 베타 분포에서 했던 것과 같은 과정을 거쳐 $Y_1, \cdots, Y_{k+1}$ 의 결합 확률 분포 함수를 구한 뒤 이를 적분하여 확률변수 $Y_1, \cdots, Y_k$ 의 결합 확률 분포 함수 $g_{Y_1,\cdots,Y_k}(y_1,\cdots,y_k)$ 를 구할 수 있습니다. 이 때 $Y_1, \cdots, Y_k$ 가 이루는 분포를 $k$ 차원 디리클레 분포라 하며 $Y_1, \cdots, Y_k \sim \text{Dirichlet}(\alpha_1,\cdots,\alpha_k, \alpha_{k+1})$ 로 나타냅니다. 디리클레 분포의 수식은 아래와 같고 $k=1$ 일 때 베타 분포와 동일한 식을 가지게 됩니다.

[g_{Y_1,\cdots,Y_k}(y_1,\cdots,y_k) = \frac{\Gamma(\sum^{k+1}{i=1}\alpha_i)}{\prod^{k+1}{i=1}\Gamma(\alpha_i)} \prod^{k+1}{i=1} y_i^{\alpha_i-1}
(y{k+1} = 1 - \sum^k_{i=1}y_i)]

Comment Read more

감마 분포(Gamma Distribution)와 카이제곱 분포(Chi-squared Distribution)

03 Dec 2020 | Statistics

이 게시물은 부산대학교 김충락 교수님의 수리통계학 강의를 참고하여 작성하였습니다.

Gamma & Chi-squared Distribution

이번에는 연속 확률 변수의 특수한 분포인 감마 분포(Gamma distribution)에 대해서 알아보겠습니다.

Gamma Function

감마 분포에 대해서 알아보기 전에 감마 함수(Gamma function)에 대해서 짚고 넘어가도록 하겠습니다. 감마 함수 $\Gamma(x)$ 란 아래와 같은 형태의 함수를 나타냅니다.

[\Gamma(\alpha) = \int_0^\infty y^{\alpha-1}e^{-y}dy, \qquad \alpha >0]

Property

감마 함수는 특정한 성질을 가지고 있습니다. 그 중 하나는 아래와 같습니다.

[\text{if} \quad \alpha>1, \Gamma(\alpha) = (\alpha-1)\Gamma(\alpha-1)]

아래와 같이 감마 함수를 부분 적분하여 위 성질을 증명할 수 있습니다. 식은 다음과 같습니다.

[\begin{align} \Gamma(\alpha) &= \int_0^\infty y^{\alpha-1}e^{-y}dy
&= \bigg[y^{\alpha-1}\cdot (-e^{-y})\bigg]^\infty_0 - \int_0^\infty (\alpha-1)\cdot y^{\alpha-2} \cdot (-e^{-y})dy
&= (\alpha-1)\cdot \int_0^\infty y^{\alpha-2} \cdot e^{-y}dy
&= (\alpha-1)\Gamma(\alpha-1) \end{align}]

위 성질을 활용하면 특정한 경우에 대해서 감마 함수의 값을 구할 수 있습니다. $\alpha$ 가 양의 정수일 때에는 위 성질을 사용하면 아래와 같이 값을 확정할 수 있습니다.

[\Gamma(\alpha) = (\alpha-1)!]

그리고 감마 함수는 $\alpha = 1/2$ 일 때 특정한 값 $\Gamma(\frac{1}{2}) = \sqrt{\pi}$ 을 가집니다. 어떻게 이 값을 가지는지 알아보겠습니다.

[\Gamma(\frac{1}{2}) = \int_0^\infty y^{-1/2}e^{-y}dy]

위 식에서 $y = x^2/2$ 로 치환합니다. $\int_0^\infty e^{-x^2/2}dx = \sqrt{\pi/2}$ 를 증명하는 과정은 이곳 을 참고하면 좋습니다. 나중에 비슷한 과정을 정규 분포에서 다시 보도록 하겠습니다.

[\begin{align} \Gamma(\frac{1}{2}) &= \int_0^\infty \frac{\sqrt{2}}{x} \cdot e^{-x^2/2} \cdot x dx
&= \sqrt{2} \int_0^\infty e^{-x^2/2}dx
&= \sqrt{2} \cdot \sqrt{\frac{\pi}{2}} = \sqrt{\pi} \end{align}]

이 성질을 활용하면 $\alpha = 1/2$ 뿐만 아니라 $\alpha = n + 1/2$ 일 때의 감마 함수의 값을 모두 구할 수 있습니다.

Gamma Distribution

이제 감마 분포를 알아보도록 하겠습니다. 확률 변수 $X$ 에 대한 감마 분포의 확률 밀도 함수는 $\alpha, \beta > 0$ 인 파라미터에 대하여 다음과 같고 $X \sim \Gamma(\alpha, \beta)$ 로 나타냅니다.

[f_X(x) = \frac{x^{\alpha-1} e^{-x/\beta}}{\Gamma(\alpha) \beta^\alpha}]

감마 함수로부터 위 함수의 적분값이 1임을 알 수 있습니다. 감마 함수에서 $y = x/\beta$ 로 치환하면 아래와 같이 식을 변형할 수 있습니다.

[\begin{align} \Gamma(\alpha) &= \int_0^\infty y^{\alpha-1}e^{-y}dy
&= \int_0^\infty (x/\beta)^{\alpha-1}e^{-x/\beta}\cdot \frac{1}{\beta}dx
&= \int_0^\infty (x/\beta)^{\alpha-1}e^{-x/\beta}\cdot \frac{1}{\beta}dx
&= \int_0^\infty \frac{x^{\alpha-1}e^{-x/\beta}}{\beta^\alpha}dx
\therefore 1 &= \int_0^\infty \frac{x^{\alpha-1} e^{-x/\beta}}{\Gamma(\alpha) \beta^\alpha}dx \end{align}]

감마 함수의 적률 생성 함수를 알아보겠습니다. 식을 변형하는 과정이 꽤 복잡하지만 감마 분포의 형태를 다시 만들기 위함이라고 생각하면 될 것 같습니다.

[\begin{align} M_X(t) &= \int_0^\infty e^{tx} \cdot \frac{x^{\alpha-1} e^{-x/\beta}}{\Gamma(\alpha)\beta^\alpha} dx
&= \int_0^\infty \frac{x^{\alpha-1} \exp[-x({\frac{1}{\beta}-t})]}{\Gamma(\alpha)\beta^\alpha} dx
&= \int_0^\infty (1-\beta t)^{-\alpha} \cdot \frac{x^{\alpha-1} \exp[-x({\frac{1}{\beta}-t})]}{\Gamma(\alpha)\beta^\alpha(1-\beta t)^{-\alpha}} dx
&= \int_0^\infty (1-\beta t)^{-\alpha} \cdot \frac{x^{\alpha-1} \exp[-x({\frac{1}{\beta}-t})]}{\Gamma(\alpha)\beta^\alpha(1-\beta t)^{-\alpha}} dx
&= \int_0^\infty (1-\beta t)^{-\alpha} \cdot \frac{x^{\alpha-1} \exp[-x/({\frac{\beta}{1-\beta t}})]}{\Gamma(\alpha)\big(\frac{\beta}{1-\beta t}\big)^\alpha} dx
&= (1-\beta t)^{-\alpha} \int_0^\infty \frac{x^{\alpha-1} \exp[-x/({\frac{\beta}{1-\beta t}})]}{\Gamma(\alpha)\big(\frac{\beta}{1-\beta t}\big)^\alpha} dx
&= (1-\beta t)^{-\alpha} \int_0^\infty\Gamma(\alpha, \frac{\beta}{1-\beta t}) dx
&= (1-\beta t)^{-\alpha} \end{align}]

적률 생성 함수를 사용하여 감마 분포의 평균과 분산을 구할 수 있습니다.

[\begin{align} M_X^\prime(0) &= \alpha\beta = E(X)
M_X^{\prime\prime}(0) &= \alpha(\alpha+1)\beta^2 = E(X^2)
Var(X) &= E(X^2) - E(X)^2 = \alpha(\alpha+1)\beta^2 - (\alpha\beta)^2 = \alpha\beta^2 \end{align}]

Chi-squared Distribution

카이 제곱 분포(Chi-squared distribution, $\chi^2-$distribution)는 감마 분포의 특수한 형태입니다. 감마 분포에서 $\alpha = r/2, \beta = 2$ 인 분포, 즉 $\Gamma(r/2,2)$ 를 카이 제곱 분포라고 합니다. 카이 제곱 분포의 식은 아래와 같으며 $\beta$ 가 고정되었기 때문에 파라미터가 1개로 고정됩니다. 자유도가 $r$ 인 카이 제곱 분포이며 $X \sim \chi^2(r)$ 로 나타냅니다.

[f_X(x) = \frac{x^{(r/2-1)}e^{-x/2}}{\Gamma(\frac{r}{2}) \cdot 2^{r/2}}]

카이 제곱 분포의 적률 생성 함수와 평균, 분산 역시 감마 분포의 적률 생성 함수 및 평균, 분산에 특정 조건에 해당하는 값을 넣어주면 쉽게 구할 수 있습니다.

[\begin{align} M_X(t) &= (1-2t)^{-r/2}
E(X) &= \frac{r}{2} \cdot 2 = r
Var(X) &= \frac{r}{2} \cdot 2^2 = 2r \end{align}]

Comment Read more

이항 확률 분포(Binomial Distribution)와 친구들

28 Nov 2020 | Statistics

이 게시물은 부산대학교 김충락 교수님의 수리통계학 강의를 참고하여 작성하였습니다.

Binomial Distribution

이번 시간에는 이항 분포(Binomial distribution)와 그와 관련된 분포들에 대해서 알아보도록 하겠습니다. 아래 이미지에서 빨간색 박스가 쳐진 4가지 분포에 대해서 알아보겠습니다.

Bernoulli Trial

먼저 베르누이 시행(Bernoulli trial)에 대해서 알아보겠습니다. 베르누이 시행이란 다음의 세 가지 조건을 만족하는 실험입니다.

베르누이 시행의 결과는 성공(Success)과 실패(Failure) ${S,F}$ 의 두 가지로 나타납니다.

두 번째로 각 시행은 서로 독립(independent)입니다.

성공 확률 $P(S)$ 이 일정(Constant)합니다.

예를 들면, 동전을 던져서 앞면이 나오는 경우를 성공이라고 하는 경우가 있습니다. 성공과 실패 이외에 다른 결과가 나오지 않고 매 시행이 독립이며 성공 확률이 변하지 않으므로 베르누이 시도입니다. 비슷한 예시로, 주사위를 던져서 3이상의 눈이 나오는 경우를 성공이라고 정의한다면 베르누이 시행이 됩니다.

한 번의 베르누이 시행은 $B(1,p)$ 로 나타냅니다. 괄호 안의 숫자 중 앞에 있는 것은 베르누이 시행의 횟수이며 뒤에 해당하는 $p$ 는 성공 확률 $P(S)$ 입니다. 베르누이 시행에서 성공과 실패를 나타내는 확률 변수 $X$ 에 대한 확률 질량 함수는 다음과 같습니다.

[P_X(x) = p^x(1-p)^{1-x} \qquad I(x = 0,1)]

확률 질량 함수로부터 베르누이 시행의 기댓값과 분산을 구할 수 있습니다.

[\begin{align} E(X) &= \sum_{x=0}^1 x \cdot P_X(x)
&= \sum_{x=0}^1 x \cdot p^x(1-p)^{1-x}
&= 0 \cdot p^0 \cdot (1-p)^1 + 1 \cdot p^1 \cdot (1-p)^0 = p \end{align}]

분산은 $Var(X) = E(X^2) - [E(X)]^2$ 를 활용하여 구할 수 있습니다.

[\begin{align} Var(X) &= E(X^2) - [E(X)]^2
&= \sum_{x=0}^1 x^2 \cdot p^x(1-p)^{1-x} - p^2
&= \sum_{x=0}^1 x^2 \cdot p^x(1-p)^{1-x} - p^2
&= 0 \cdot p^0(1-p)^1 + 1 \cdot p^1(1-p)^0 - p^2
&= p - p^2 = p(1-p) \end{align}]

Binomial Distribution

다음으로 이항 분포에 대해서 알아보겠습니다. 이항 분포는 베르누이 시행을 여러 번 진행했을 때 성공 횟수를 나타내는 확률 변수에 대한 분포입니다. 각 베르누이 시행을 $Y_1, \cdots, Y_n \quad (Y = 0,1)$ 이라 두고 성공 횟수의 합을 확률 변수 $X$, 즉 $X := \sum^n_{i=1} Y_i$ 이라 하고 $X$ 의 확률 질량 함수를 구해보겠습니다.

[P_X(x) = \left(\begin{array}{ccc} n \ x\end{array} \right) p^x(1-p)^{n-x}]

이항 분포는 $X \sim B(n,p)$ 로 표기할 수 있으며 확률 질량 함수를 알았으니, 이를 활용하여 적률 생성 함수를 구할 수 있습니다.

[\begin{align} M_X(t) &= E(e^{tX})
&= \sum^n_{x=0} e^{tx} \cdot P_X(x)
&= \sum^n_{x=0} e^{tx} \cdot \left(\begin{array}{ccc} n \ x\end{array} \right) p^x(1-p)^{n-x}
&= \sum^n_{x=0} \left(\begin{array}{ccc} n \ x\end{array} \right) (p\cdot e^t)^x(1-p)^{n-x}
&= [(1-p) + p\cdot e^t]^n \end{align}]

적률 생성 함수를 활용하여 이항 분포의 기댓값과 분산도 구해볼 수 있습니다. 먼저 기댓값 $E(X)$ 은 1차 모멘트와 같고, 이는 적률 생성 함수를 한 번 미분한 함수에 $0$ 을 대입하여 구할 수 있으므로 아래와 같습니다. 계산 과정은 생략하겠습니다.

[\begin{align} M^\prime(t) &= np\cdot e^t \cdot [(1-p) + p\cdot e^t]^{n-1}
\therefore M^\prime(0) &= np = E(X) \end{align}]

분산을 구하기 위해서는 2차 모멘트 $E(X^2)$ 를 알아야 합니다. 2차 모멘트는 적률 생성 함수를 2번 미분한 함수에 $0$ 을 대입하여 구할 수 있습니다.

[\begin{align} M^{\prime\prime}(t) &= np\cdot e^t \cdot [(1-p) + p\cdot e^t]^{n-2}(np\cdot e^t+1-p)
M^{\prime\prime}(0) &= np(np+1-p) = E(X^2) \end{align}]

분산 $Var(X)$ 는 1,2차 모멘트의 결합인 $Var(X) = E(X^2) - E(X)^2$ 로 나타낼 수 있으므로 아래와 같이 구해집니다.

[\begin{align} Var(X) &= E(X^2) - E(X)^2
&= np(np+1-p) - (np)^2
&= np(1-p) \end{align}]

Theorem

다음은 이항 분포에서 성립하는 정리에 대해서 알아보겠습니다. 이항 분포를 만족하는 확률 변수 $Y$ 에 대해서 다음의 식이 만족합니다.

[\text{if} \quad n \rightarrow \infty, \quad P\bigg[\bigg\vert \frac{Y}{n} - p \bigg\vert \geq \varepsilon \bigg] \rightarrow 0]

위 식에서 $Y$ 는 $n$ 번의 베르누이 시행 중에서 성공한 횟수이므로 $\frac{Y}{n}$ 은 표본 사건의 성공 비율이라고 할 수 있습니다. $p$ 는 모집단에서 베르누이 시행의 성공 확률입니다. 따라서 위 정리는 표본의 개수가 많아질 때 표본 사건의 성공 비율과 모집단의 성공 비율의 차이가 $0$ 에 가까워진다는 것이지요. 위 정리를 약대수의 법칙(Weak Law of Large Numbers, WLLN) 이라고 합니다. 그리고 아래와 같이 체비쇼프 부등식(Chebyshev inequality)으로부터 증명할 수 있습니다.

체비쇼프 부등식은 $E(X) = \mu, Var(X) = \sigma^2$ 인 확률 변수 $X$ 에 대하여 아래와 같습니다.

[P(\vert X - \mu \vert \geq k \cdot \sigma) \leq \frac{1}{k^2}]

정리에서 나타나는 식을 체비쇼프 부등식의 형태로 변형시켜 보겠습니다. $E(Y) = np, Var(Y) = np(1-p)$ 이므로 아래와 같이 식을 변형하여 $k$ 를 구할 수 있습니다.

[\begin{align} P\bigg[\bigg\vert \frac{Y}{n} - p \bigg\vert \geq \varepsilon \bigg] &= P\bigg[\bigg\vert Y - np \bigg\vert \geq n\varepsilon \bigg]
&= P\bigg[\bigg\vert Y - np \bigg\vert \geq \frac{n\varepsilon}{\sqrt{np(1-p)}} \cdot \sqrt{np(1-p)} \bigg]
\therefore k &= \sqrt{\frac{n}{p(1-p)}} \cdot \varepsilon \end{align}]

$k$ 를 구했으니 체비쇼프 부등식을 활용하여 확률의 범위를 제한할 수 있습니다.

[P\bigg[\bigg\vert \frac{Y}{n} - p \bigg\vert \geq \varepsilon \bigg] \leq \frac{p(1-p)}{n\varepsilon^2}]

위 식에서 $p, \varepsilon$ 은 상수이므로 $n$ 이 커질수록 확률 $P$ 는 0으로 수렴하게 됩니다.

Negative Binomial Distribution

이번에는 이항 분포와 같이 여러 번의 베르누이 시행에서 도출할 수 있는 음이항 분포(Negative binomial distribution)에 대해 알아보겠습니다. 음이항 분포란 연속적인 베르누이 시행에서 $r$ 번의 성공을 달성하기 까지 몇 번의 실패가 있어야 하는 지에 대한 분포입니다. 일반적인 이항 분포에서는 성공 횟수를 다루었다면 음이항 분포는 실패 횟수를 다룬다는 차이점이 있습니다.

중요한 것은 $r$ 번째의 성공은 가장 마지막에 위치해야 한다는 점입니다. 따라서 확률 질량 함수를 구하기 위해서 $y+r-1$ 번의 시도 중 실패 횟수가 $y$ 이고 성공 횟수가 $r-1$ 인 이항 분포를 구한 뒤, 마지막으로 성공한 베르누이 시행을 곱합니다. 확률 질량 함수는 아래와 같이 구할 수 있습니다. $Y \sim NB(r,p)$ 로 표기합니다.

[\begin{align} P_Y(y) &= \left(\begin{array}{ccc} y+r-1 \ y\end{array} \right) p^{r-1}(1-p)^y \cdot p
\therefore P_Y(y) &= \left(\begin{array}{ccc} y+r-1 \ y\end{array} \right) p^r(1-p)^y \end{align}]

확률 질량 함수를 구했으니 적률 생성 함수를 구할 수 있습니다. 이항 분포와 달리 음이항 분포는 횟수가 정해진 것이 아니므로, 실패 횟수를 나타내는 확률 변수 $Y$ 가 가질 수 있는 범위는 $Y = 0,1,2, \cdots$ 라는 점에 유의합니다.

[\begin{align} M_Y(t) &= E[e^{tY}]
&= \sum^\infty_{y=0} e^{ty} \cdot \left(\begin{array}{ccc} y+r-1 \ y\end{array} \right) p^r(1-p)^y
&= p^r \cdot \sum^\infty_{y=0} \left(\begin{array}{ccc} y+r-1 \ y\end{array} \right) [(1-p)e^t]^y
&= p^r \cdot \sum^\infty_{y=0} \frac{(y+r-1)!}{y!(r-1)!} [(1-p)e^t]^y
&= p^r \cdot \bigg(1 + r \cdot [(1-p)e^t] + \frac{r(r+1)}{2}[(1-p)e^t]^2 + \cdots \bigg)
&= p^r \cdot \bigg(1 + r \cdot T + \frac{r(r+1)}{2}T^2 + \cdots \bigg) \quad T := (1-p)e^t \end{align}]

식이 상당히 복잡합니다. 식을 간단하게 정리하기 위해서 $g(t) = (1-t)^{-r}$ 이라는 함수를 생각해보겠습니다. 이 함수를 테일러 급수를 이용하여 전개하면 위와 동일한 형태의 식이 나오게 됩니다.

[\begin{align} g(t) &= g(0) + g^\prime(0) \cdot t + \frac{g^{\prime\prime}(0)}{2} \cdot t^2 + \cdots
&= 1 + r \cdot t + \frac{r(r+1)}{2} \cdot t^2 + \cdots \end{align}]

이를 이용하면 적률 생성 함수를 간단히 정리할 수 있게 됩니다.

[M_Y(t) = p^r \cdot [1-(1-p)e^t]^{-r}]

이를 활용하여 음이항 분포 $NB(r,p)$ 의 기댓값과 분산을 구하면 아래와 같습니다.

[\begin{align} E(Y) &= M_Y^\prime(0) = \frac{r(1-p)}{p}
Var(Y) &= M_Y^{\prime\prime}(0) - M_Y^\prime(0)^2 = \frac{r(1-p)}{p^2} \end{align}]

Geometric Distribution

기하 분포(Geometric distribution)는 음이항 분포의 특수한 형태입니다. 첫 번째 성공이 있을 때까지 몇 번의 실패가 있을 지를 구하는 문제이지요. 음이항 분포에서 성공 횟수를 나타내는 $r$ 이 1인 형태, 즉 $NB(1,p)$ 라고 할 수 있겠습니다. $r$ 이 1로 고정되기 때문에 파라미터는 오직 $p$ 하나가 됩니다. 따라서, 기하 분포는 $G(p)$ 또는 $Geo(p)$ 로 나타낼 수 있습니다.

확률 질량 함수와 적률 생성 함수도 음이항 분포의 것을 활용하여 구할 수 있습니다.

[\begin{aligned} P_Y(y) &= p\cdot (1-p)^y
M_Y(t) &= \frac{p}{1-(1-p)e^t} \end{aligned}]

Comment Read more

공분산(Covariance)과 상관계수(Correlation Coefficient)

20 Nov 2020 | Statistics

이 게시물은 부산대학교 김충락 교수님의 수리통계학 강의를 참고하여 작성하였습니다.

Covariance & Correlation

확률 변수가 2개 이상인 경우 그들끼리의 공분산(Covariance)를 구할 수 있고, 공분산을 활용하면 변수끼리의 상관성을 나타내는 상관계수(Correlation coefficient)를 구할 수 있습니다.

Covariance

먼저 공분산에 대해서 알아보겠습니다. 두 확률변수 $X_1, X_2$ 의 공분산 $\text{Cov}(X_1, X_2)$ 은 다음의 식을 통해 구할 수 있습니다. 여기서 확률 변수 $X_1, X_2$ 의 기댓값 $E(X_1), E(X_2)$ 은 각각 $\mu_1, \mu_2$ 라고 하겠습니다.

[\text{Cov}(X_1, X_2) = E[(X_1-\mu_1)(X_2-\mu_2)]]

위 식을 정리하여 아래와 같이 나타낼 수도 있습니다.

[\begin{aligned} E[(X_1-\mu_1)(X_2-\mu_2)] &= E[(X_1X_2-\mu_1X_2 - \mu_2X_1 +\mu_1\mu_2)]
&= E(X_1X_2) - \mu_1E(X_2) - \mu_2E(X_1) + \mu_1\mu_2
&= E(X_1X_2) - \mu_1\mu_2 - \mu_2\mu_1 + \mu_1\mu_2
&= E(X_1X_2) - \mu_1\mu_2
&= E(X_1X_2) - E(X_1)E(X_2) \end{aligned}]

Correlation Coefficient

다음은 상관관계를 나타내는 상관 계수에 대해서 알아보도록 하겠습니다. 상관 계수는 아래 식과 같습니다.

[\rho = \frac{\text{Cov}(X_1, X_2)}{\sigma_1\sigma_2} = \frac{E[(X_1-\mu_1)(X_2-\mu_2)]}{\big{E[(X_1-\mu_1)^2]E[(X_2-\mu_2)^2]\big}^{1/2}}]

공분산은 각 확률변수에 따라 나오는 값의 범위가 크게 달라지지만 상관계수는 그 값을 각 확률 변수의 표준편차 $\sigma_1,\sigma_2$ 로 나누어 주기 때문에 범위를 $[-1,1]$ 로 좁힐 수 있습니다. 이 값이 $0$ 보다 큰 경우에는 두 확률 변수가 양의 상관관계를 가진다고 하며, 작은 경우에는 음의 상관관계를 가진다고 말합니다.

Theorem

공분산 및 상관 계수와 관련된 정리에 대해서 알아보겠습니다. 아래 두 정리(1,2)는 조건부 확률의 기댓값 $E(X_2 \vert X_1)$ 이 $X_1$ 에 대해 선형일 때, 즉 $E(X_2 \vert X_1) = a + b \cdot X_1$ 일 때 성립하는 정리입니다.

Theorem 1

첫 번째 정리는 상관계수를 통해 $E(X_2 \vert X_1)$ 값을 나타내는 정리이며, 수식으로 나타내면 아래와 같습니다.

[E(X_2 \vert X_1) = \mu_2 + \rho \cdot \frac{\sigma_2}{\sigma_1}(X-\mu_1)]

위 식이 도출되는 과정을 알아보겠습니다. 첫 번째로 아래와 같은 식이 필요합니다.

[\begin{aligned} &E[E(X_2 \vert X_1)] = a + b \cdot E(X_1) = a + b \cdot \mu_1 = \mu_2
\because &E[E(X_2 \vert X_1)] = E(X_2) \quad \text{(Double Expectation)} \end{aligned}]

두 번째로는 아래와 같은 식이 필요합니다.

[\begin{aligned} X_1 \cdot E(X_2 \vert X_1) &= E(X_1X_2 \vert X_1) = a \cdot X_1 + b \cdot {X_1}^2
\therefore E[E(X_1X_2 \vert X_1)] &= E(a \cdot X_1 + b \cdot {X_1}^2)
&= a \cdot E(X_1) + b \cdot E({X_1}^2)
&= a \cdot \mu_1 + b \cdot ({\sigma_1}^2 + {\mu_1}^2)
&= E(X_1X_2) \quad \because \text{Double Expectation} \end{aligned}]

마지막으로 아래와 같은 식이 필요합니다. 첫 번째로 도출한 식을 대입하여

[\begin{aligned} \text{Cov}(X_1, X_2) &= E(X_1X_2) - \mu_1\mu_2
\therefore E(X_1X_2) &= \rho \sigma_1\sigma_2 + \mu_1\mu_2
&= \rho \sigma_1\sigma_2 + \mu_1(a + b \cdot \mu_1)
&= a \cdot \mu_1 + b \cdot {\mu_1}^2 + \rho \sigma_1\sigma_2
\because \text{Cov}(X_1, X_2) &= \rho\sigma_1\sigma_2 \end{aligned}]

위에서 $E(X_1X_2)$ 에 해당하는 두 식을 연결하면 $b$ 를 구할 수 있습니다.

[\begin{aligned} a \cdot \mu_1 + b \cdot ({\sigma_1}^2 + {\mu_1}^2) &= a \cdot \mu_1 + b \cdot {\mu_1}^2 + \rho \sigma_1\sigma_2
b \cdot {\sigma_1}^2 &= \rho \sigma_1\sigma_2 \end{aligned}
\therefore b = \rho \cdot \frac{\sigma_2}{\sigma_1}]

그리고 이 값을 첫 번째 식에 대입하면 $a$ 도 구해낼 수 있습니다.

[\begin{aligned} \mu_2 &= a + b \cdot \mu_1
&= a + \rho \cdot \frac{\sigma_2}{\sigma_1} \cdot \mu_1
\therefore a &= \mu_2 - \rho \cdot \frac{\sigma_2}{\sigma_1} \cdot \mu_1 \end{aligned}]

두 값을 $E(X_2 \vert X_1) = a + b \cdot X_1$ 에 대입하여 정리의 식을 구해낼 수 있습니다.

[\begin{aligned} E(X_2 \vert X_1) &= a + b \cdot X_1
&= \bigg(\mu_2 - \rho \cdot \frac{\sigma_2}{\sigma_1} \cdot \mu_1\bigg) + \rho \cdot \frac{\sigma_2}{\sigma_1} \cdot X_1
\therefore E(X_2 \vert X_1)&= \mu_2 + \rho \cdot \frac{\sigma_2}{\sigma_1}(X_1-\mu_1) \end{aligned}]

Theorem 2

두 번째 정리는 조건부 확률의 분산에 대한 기댓값을 상관 계수로 나타내는 정리입니다. 다음과 같은 수식으로 나타낼 수 있습니다.

[E[Var(X_2 \vert X_1)] = {\sigma_2}^2(1 - \rho^2)]

수식은 간단하지만 증명하는 과정은 매우 복잡합니다. 그렇지만 하나하나 증명해보도록 하겠습니다. 먼저, 조건부 확률 변수의 분산의 정의에 따라서 $E[Var(X_2 \vert X_1)] = E[\big(X_2 - E(X_2 \vert X_1)\big)^2 \vert X_1]$ 이므로 이를 아래와 같이 변형할 수 있습니다.

[\begin{aligned} E[\big{X_2 - E(X_2 \vert X_1)\big}^2 \vert X_1] &= \iint \big{x_2 - \big[\mu_2 + \rho \cdot \frac{\sigma_2}{\sigma_1}(x_1-\mu_1)\big]\big}^2 f_{X_1,X_2}(x_1, x_2)dx_2dx_1
&= \iint \big{(x_2 - \mu_2) - (\rho \cdot \frac{\sigma_2}{\sigma_1}(x_1-\mu_1))\big}^2 f_{X_1,X_2}(x_1, x_2)dx_2dx_1
& = \iint \big{(x_2 - \mu_2)^2 + \rho^2 \cdot (\frac{\sigma_2}{\sigma_1})^2 \cdot (x_1-\mu_1)^2 - 2\rho \cdot \frac{\sigma_2}{\sigma_1}(x_2 - \mu_2)(x_1-\mu_1)\big} f_{X_1,X_2}(x_1, x_2)dx_2dx_1
&= {\sigma_2}^2 + \rho^2 \cdot (\frac{\sigma_2}{\sigma_1})^2 \cdot {\sigma_1}^2 - 2\rho \cdot \frac{\sigma_2}{\sigma_1} \cdot \text{Cov}(X_1, X_2)
&= {\sigma_2}^2 + \rho^2 \cdot (\frac{\sigma_2}{\sigma_1})^2 \cdot {\sigma_1}^2 - 2\rho \cdot \frac{\sigma_2}{\sigma_1} \cdot \rho\sigma_2\sigma_1
&= {\sigma_2}^2 + \rho^2 \cdot {\sigma_2}^2 - 2\rho^2 \cdot {\sigma_2}^2
&= {\sigma_2}^2 (1-\rho^2) \end{aligned}]

Comment Read more

이변수 조건부 확률 분포(Conditional Distribution on bi-r.v s)

19 Nov 2020 | Statistics

이 게시물은 부산대학교 김충락 교수님의 수리통계학 강의를 참고하여 작성하였습니다.

Conditional Distribution (multi r.v)

이변수 함수의 조건부 확률 질량 함수(Conditional p.m.f.)는 다음과 같습니다.

[P_{X_2 \vert X_1}(x_2 \vert x_1) = \frac{P_{X_1,X_2}(x_1,x_2)}{P_{X_1}(x_1)}]

만약 $X_1,X_2$ 가 연속형 변수라면 조건부 확률 분포 함수(Conditional p.d.f.)는 다음과 같습니다.

[f_{X_2 \vert X_1}(x_2 \vert x_1) = \frac{f_{X_1,X_2}(x_1,x_2)}{f_{X_1}(x_1)}]

Expected Value

조건부 확률에 대한 기댓값(Expected Value)는 어떻게 구할 수 있을까요? 기본적으로는 확률 변수가 1개일 때의 기댓값을 구하는 과정과 동일합니다. 다만 확률 분포 부분에 조건부 확률 분포를 사용합니다.

[E[u(X_2) \vert X_1] = \int u(x_2) \cdot f(x_2 \vert x_1) dx_2]

조건부 확률의 분산은 기댓값보다는 조금 더 복잡하지만 비슷하게 구할 수 있습니다. 조건부 확률의 분산은 아래와 같습니다.

[Var(X_2 \vert X_1) = E\bigg[\big{X_2 - E(X_2 \vert X_1)\big}^2 \big\vert X_1\bigg]]

확률 변수가 1개일 때, 분산을 다음과 $Var(X) = E(X^2) - E(X)^2$ 으로 나타낼 수 있었습니다. 이와 같이 조건부 확률의 분산도 식을 잘 정리하면 조금 더 간단하게 나타낼 수 있습니다.

[\begin{aligned} E\bigg[\big{X_2 - E(X_2 \vert X_1)\big}^2 \vert X_1\bigg] &= E\bigg[{X_2}^2 - 2\cdot X_2 \cdot E(X_2 \vert X_1) + \big{E(X_2 \vert X_1)\big}^2 \vert X_1\bigg]
&= E[{X_2}^2 \vert X_1] - 2 \cdot E(X_2 \vert X_1) \cdot E[X_2 \vert X_1] + E(X_2 \vert X_1)^2
&= E[{X_2}^2 \vert X_1] - E[X_2 \vert X_1]^2 \end{aligned}]

Theorem

다음으로는 조건부 확률의 기댓값에 대한 몇 가지 정리를 알아보도록 하겠습니다. 첫 번째는 이중 기댓값 정리(Double expectation theorem)입니다. 이중 기댓값 정리를 사용하면 조건부로 주어진 확률 변수의 ‘기댓값의 기댓값’을 더욱 간단하게 나타낼 수 있습니다.

[E\bigg[E[X_2 \vert X_1]\bigg] = E(X_2)]

이중 기댓값 정리는 다음과 같이 증명할 수 있습니다.

[\begin{aligned} E\bigg[E[X_2 \vert X_1]\bigg] &= \int \bigg[ \int x_2 \cdot f(x_2 \vert x_1) dx_2 \bigg] f(x_1)dx_1
&= \int \int x_2 \cdot \frac{f(x_1,x_2)}{f(x_1)} \cdot f(x_1) dx_1dx_2
&= \int x_2 \bigg(\int f(x_1,x_2) dx_1\bigg)dx_2
&= \int x_2 f(x_2)dx_2
&= E(X_2) \end{aligned}]

다음으로 알아볼 정리는 단일 확률 변수의 분산을 조건부로 주어진 확률 변수의 분산과 기댓값으로 분리하는 정리입니다. 먼저 정리의 결과부터 알아보도록 하겠습니다.

[Var(X_2) = E\big[Var(X_2 \vert X_1)\big] + Var\big[E(X_2 \vert X_1)\big]]

수식의 길이만 보면 왼쪽의 길이가 더 짧고 간단해 보입니다. 하지만 이 정리를 사용하여 식을 변환했을 때 더욱 간단하게 분산값을 구할 수 있는 경우도 있습니다. 모든 $X_2$에 대한 값을 알기는 어렵지만 특정한 조건 $X_1$ 을 부여했을 때 그 값을 더 쉬워지는 것이지요.

베이즈 정리(Bayes’ Theorem) 역시 식이 복잡해짐에도 값을 구하기 위해서 변환해주었습니다. 이처럼 단일 확률 변수에 대한 분산값을 구하기 위해서 특정한 조건을 부여하여 그 값을 구해내기도 합니다. 이제 분산에 대한 식으로부터 위 정리를 증명해보도록 하겠습니다.

[\begin{aligned} Var(X_2) &= E\bigg[{X_2 - E(X_2)}^2\bigg] \ &= E\bigg[{X_2 - E(X_2 \vert X_1) + E(X_2 \vert X_1) - E(X_2)}^2\bigg]
&= E\bigg[{(X_2 - E(X_2 \vert X_1)) + (E(X_2 \vert X_1) - E(X_2))}^2\bigg]
&= \color{red}{E\bigg[{(X_2 - E(X_2 \vert X_1)}^2\bigg]} + \color{blue}{E\bigg[{E(X_2 \vert X_1) - E(X_2)}^2\bigg]}
& \quad +2 \cdot \color{olive}{E\bigg[{(X_2 - E(X_2 \vert X_1)}\cdot{(E(X_2 \vert X_1) - E(X_2))}\bigg]} \end{aligned}]

위 식에서 먼저 빨간색으로 나타낸 식을 간단하게 변환해보겠습니다. 변환 과정에 이중 기댓값 정리를 역방향으로 적용합니다.

[\begin{aligned} \color{red}{E\bigg[{(X_2 - E(X_2 \vert X_1)}^2\bigg]} &= E\bigg[E\bigg[{X_2 - E(X_2 \vert X_1)}^2 \bigg\vert X_1 \bigg]\bigg]
& = E\bigg[Var(X_2\vert X_1)\bigg] \end{aligned}]

다음으로는 파란색으로 나타낸 식을 간단하게 변환해보겠습니다. 아래 식의 변환 과정에도 역시 이중 기댓값 정리를 역방향으로 적용합니다.

[\begin{aligned} \color{blue}{E\bigg[{E(X_2 \vert X_1) - E(X_2)}^2\bigg]} &= E\bigg[{E(X_2 \vert X_1) - E[E(X_2 \vert X_1)]}^2\bigg]
&= E\bigg[Var(X_2 \vert X_1)\bigg] \end{aligned}]

마지막으로 올리브색으로 나타낸 부분을 변환하면 아래와 같습니다.

[\begin{aligned} &\color{olive}{E\bigg[{(X_2 - E(X_2 \vert X_1)}\cdot{(E(X_2 \vert X_1) - E(X_2))}\bigg]}
=& E\bigg[(X_2 - E(X_2 \vert X_1)\bigg] \cdot {E(X_2 \vert X_1) - E(X_2))}
=& E\bigg[(X_2 - E(X_2 \vert X_1)\bigg] \cdot {E(X_2 \vert X_1) - E(X_2))}
=& \bigg[E(X_2) - E[E(X_2 \vert X_1)]\bigg] \cdot {E(X_2 \vert X_1) - E(X_2))}
=& \bigg[E(X_2) - E(X_2)\bigg]\cdot {E(X_2 \vert X_1) - E(X_2))}
=& 0 \quad \because \text{Double Expectation Theorem} \end{aligned}]

Comment Read more

Older Newer