02-03. 확률, 통계 및 트래픽 이론

DAN lab./DAN lab. Master's 1 Summer

02-03. 확률, 통계 및 트래픽 이론

김야키 2021. 7. 7. 21:47

2.2 기본적인 확률 및 통계 이론

2.2.5 몇 가지 중요한 분포함수 (이산 랜덤 변수)

일반적인 사건의 발생이 어떠한 서로 다른 분포들로 표현될 수 있는지 알아본다.
확률 함수로부터 나온 확률들의 패턴

이산 랜덤 변수

질량 함수 → 이산형 확률분포(Discrete probability distribution)

분포 종류

베르누이 분포, Bernoulli distribution
바이노미얼 분포, Binomial distribution
푸아송 분포, Poisson distribution
지오메트릭 분포, Geometric distribution
Negative Binomial distribution
Hypergeometric distribution

Bernoulli Distribution (베르누이 분포)

확률 변수 X가 두 가지 값만 가지는 단순한 확률
- 1 = "success" or 0 = "failure"

$$
\mbox{Define } p= P[success] = P[X=1] \\
p=\begin{cases}
0, & \rightarrow 1-p \\
1, & \rightarrow p
\end{cases}
$$

0과 1을 확률로 바꾸는 확률 함수가 필요하며, 아래 확률 함수를 따르는 확률 분포를 베르누이 분포라 한다.

$$
f_X(x;p) = p^x\cdot (1-p)^{1-x}, \quad x=\mbox{0 or 1}
$$

즉, 베르누이 분포는 위의 베르누이 확률 함수로부터 생성되는 확률들의 패턴을 그린 것

베르누이 확률 분포의 기대값과 분산

기대값 E[X] = p

$$
\mbox{기대값의 정의: }\quad E[X]=\sum x\cdot p^x \cdot (1-p)^{1-x} \\
\mbox{베르누이 확률 분포의 기대값: }\quad E[X] = \sum_{x=\mbox{0 or 1}}x\cdot p^x \cdot (1-p)^{1-x} = 0 + p = p
$$

분산 V[X] = p(1-p)

$$
V[X] = E[X^2] - {E[X]}^2 \\
E[X^2] = \sum_{x=\mbox{0 or 1}}x^2\cdot p^x \cdot (1-p)^{1-x} = 0+p = p \\
\therefore p-p^2 = p(1-p)
$$

예) 1
동전을 던져서 앞 또는 뒤가 나올 경우와 같은 상황에서 사용
동전을 던져서 앞은 1, 뒤는 0이라 설정, 그 상황에서 나오는 확률은 1/2로 정의

Binomial Distribution (이항 분포)

베르누이 분포로 부터 나온 분포
- 베르누이를 한 번만 던지면 베르누이 시행(Bernoulli trial)이라 부름
- 그런 베르누이 시행을 독립적으로 n번 시도한 것
  - 첫 번째 시행이 다음 시행에 영향을 주는 종속적인 관계가 아닌 것
이 때의 확률 변수 X를 정의한다.
- X는 n번 시행해서 나오는 총 성공의 횟수
- 여기서 X는 X={0, 1, 2, ... , n}으로 구성되며, 성공의 최대 횟수는 n번 모두 성공했을 때 즉, n이 된다.
- 해당 실수 값들을 확률로 변경 해야 하며, 그 확률 함수는 아래와 같음
  $$
  p(x)= \begin{pmatrix} n \\ x\end{pmatrix}p^x \cdot (1-p)^{n-x} \qquad \mbox{for }x=0, 1, \dots, n \\
  \begin{pmatrix} n \\ x\end{pmatrix}\mbox{: n 번 중에 성공한 x의 횟수 즉, n번 중에서 x개를 선택한 것} \\
  p^x\mbox{: 성공한 횟수} \\
  (1-p)^{n-x}\mbox{: 실패한 횟수}
  $$
  - Parameter n and p: 위의 확률 함수로부터 나온 확률 분포의 모양을 결정하는데 영향을 주는 변수(or 모수)들
  - Parameter에 의한 그래프 모양의 예)
  베르누이 분포
  - 위의 x들을 확률 함수에 넣으면 0~1 사이의 값으로 생성
  - 이 함수의 분포는 이산형 확률 함수가 됨
이항 확률 함수의 모든 합이 1이 되는가?
$$
\sum^n_{x=0}p(x)= \sum^n_{x=0}{\begin{pmatrix}n \\x\end{pmatrix}}p^x(1-p)^{n-x}= 1 \\
\mbox{Why?} \\
\mbox{Binomial Theorem에 의한 결과: }(x+y)^n = \sum^n_{i=0} {\begin{pmatrix}n \\i\end{pmatrix}}x^i \cdot y^{n-i} \\
\mbox{위의 식에서는 }x\mbox{가 }p\mbox{이고, }y\mbox{가 }1-p\mbox{로 표현 된 것} \\
\therefore (p+1-p)^n = 1^n = 1
$$
확률 변수가 주어지고 parameter가 주어질 때의 기대값과 분산
- 기대값 E[X]
  $$
      P\{X=k\}/P\{X=k-1\}\mbox{에서 비율을 계산 한 뒤에 어떤 k가 1보다 작거나 큰 값을 찾아 냄}\\
      \frac{P\{X=k\}}{P\{X=k-1\}}=\frac{\frac{n!}{(n-k)!k!}p^k(1-p)^{n-k}}{\frac{n!}{(n-k+1)!(k-1)!}p^{k-1}(1-k)^{n-k+1}}\\
      =\frac{(n-k+1)p}{k(1-p)} > 1\\
      \because P\{X=k\}\geq P\{X=k-1\}\\
      \therefore (n-k+1)p \geq k(1-p)
      $$
- 분산 V[X]
  $$
  E[X^2]=np[(n-1)\cdot p+1] \\
  V[X] = E[X^2] - {E[X]}^2 \\
  \therefore V[X] = np(1-p)
  $$
예) 10 = 정상, 1 = 불량10개의 부품 중 2개가 불량일 확률은?
확률변수 정의
$$
X\mbox{: 불량품의 갯수} \\
X={0, 1, 2,...,10} \\
P[X=2] = {\begin{pmatrix}10 \\2\end{pmatrix}}(0.1)^2(0.9)^{10-2}=0.1937
$$
기대값 E[X]과 분산 V[X]
$$
E[X] = (10)\cdot (0.1) = 1\mbox{, 평균적으로 1개의 불량이 나옴} \\
V[X] = (10)\cdot (0.1) \cdot (0.9) = 0.9
$$
n = 10개의 부품, p=P[불량품]=0.1
불량의 갯수 파악
예) 2
불량률이 6%인 공정에서 매주 랜덤하게 50개를 뽑음
1. 확률 변수 X는?
$$
X = {0, 1, 2, 3, ... , 50}
$$
1. 그 중에서 불량이 3개 일 때의 확률은?
$$
X\mbox{~ Bino}(50, 0.06) \\
P(X=3)={\begin{pmatrix}50 \\3\end{pmatrix}}\cdot 0.06^3 \cdot (1-0.06)^{50-3}
$$
1. P(X>3)일 확률은?
$$
1-P(X\leq3)\mbox{을 이용} \\
1-{P(X=3)+P(X=2)+P(X=1)} \\
= 1-\sum^3_{i=0}{\begin{pmatrix}n \\i\end{pmatrix}}0.06^i(1-0.06)^{50-i}
$$
Binomial Distribution Proposition
- 이산 확률 변수 X와 parameter n과 p가 있다.
- 여기서 p는 0 < p < 1을 만족한다.
- X가 가질 수 있는 값이 k라 할 때, k는 0 ~ n까지 가진다.
- P{X=k}의 값이 증가했다 감소를 하게 되는 분포 그래프가 생긴다.
- 이 때, 가장 꼭대기(가장 큰)값이 (n+1)p로 정의 된다.
- 증명
      $$
      P\{X=k\}/P\{X=k-1\}\mbox{에서 비율을 계산 한 뒤에 어떤 k가 1보다 작거나 큰 값을 찾아 냄}\\
      \frac{P\{X=k\}}{P\{X=k-1\}}=\frac{\frac{n!}{(n-k)!k!}p^k(1-p)^{n-k}}{\frac{n!}{(n-k+1)!(k-1)!}p^{k-1}(1-k)^{n-k+1}}\\
      =\frac{(n-k+1)p}{k(1-p)} > 1\\
      \because P\{X=k\}\geq P\{X=k-1\}\\
      \therefore (n-k+1)p \geq k(1-p)
      $$

Poisson distribution (푸아송 분포)

확률 변수 X={0, 1, 2, ...}와 같이 이산형 실수 값을 가지게 되며 아래의 확률 함수로부터 생성된 확률들의 패턴을 나타냄
Parameter로 λ를 사용하게 되며 이 값은 0보다 큼
- 단위 시간(or 공간) 안에 특정 사건이 몇 번 발생할 것 인지를 표현한 확률 분포

$$
P\{X=i\}=\frac{e^{-\lambda}\lambda^i}{i!}, \quad \mbox{for }\quad i=\{0, 1, 2,\dots\}, \quad \lambda>0
$$

푸아송 분포의 성질

$$
\mbox{모든 확률의 합} \\
\sum^\infty_{i=0}P(X=i)\quad = e^{-\lambda}\sum^\infty_{i=0}\frac{\lambda^i}{i!}=e^{-\lambda}\cdot e^\lambda = 1 \\
\because \sum^\infty_{i=0}\frac{\lambda^i}{i!} \mbox{의 값은 테일러 급수에 의해서 }e^\lambda \mbox{로 만들어 짐}
$$

Parameter λ에 따른 푸아송 분포의 그래프

푸아송 분포와 Binomial 분포의 관계
- p(i; n, p) ≈ p(i; λ)
- 좌측: Binomial 분포, 우측: 푸아송 분포
- n이 무한대로 커지고, p가 작아질 때, λ = np 와 같아 지게 됨
  $$
  P\{X=i\} = \frac{n!}{(n-i)!\cdot i!}p^i\cdot (1-p)^{n-i} \thickapprox e^{-\lambda} \frac{\lambda^i}{i!}
  $$
- 증명
  $$
  p = \frac{\lambda}{n} \mbox{를 이용} \\
  = \frac{n!}{(n-i)! \cdot i!}\Big(\frac{\lambda}{n}\Big)^i \cdot (1- \frac{\lambda}{n})^{n-i} \\
  = \frac{n(n-1)\cdots (n-i+1)}{n^i}\cdot\frac{\lambda^i}{i!}\cdot \frac{(1-\frac{\lambda}{n})^n}{(1-\frac{\lambda}{n})^i} \\
  $$
  - 잠시 정리
          $$
          \mbox{앞의 }\frac{n(n-1)\cdots (n-i+1)}{n^i}\cdot\frac{\lambda^i}{i!}\mbox{를 1번}\mbox{ 뒤의 분모 }(1-\frac{\lambda}{n})^i \mbox{를 2번, 분자 } (1-\frac{\lambda}{n})^n\mbox{를 3번으로 지칭} \\\\
          \mbox{1. }\lim_{n\to\infty} = 1 \\\\
          \mbox{2. }\lim_{n\to\infty}(1-\frac{\lambda}{n})^i = 1 \\\\
          \mbox{3. }\lim_{n\to\infty}(1-\frac{\lambda}{n})^n = \lim_{n\to\infty}\Big\{(1-\frac{\lambda}{n})^{\frac{n}{\lambda}}\Big\}^\lambda = (e^{-1})^\lambda = e^{-\lambda} \\\\
          $$
- 증명 이어서
  $$
  = 1 \cdot \frac{\lambda^i}{i!}\frac{e^{-\lambda}}{1}=\frac{e^{-\lambda}\cdot \lambda^i}{i!} = \mbox{푸아송 분포}
  $$
예제
- 어떤 집단에서 사람 수 n중에 100세 이상인 사람의 수
- 책의 모든 페이지에서 오타의 갯수
- 매일 전화를 걸 때, 잘못 걸을 횟수
푸아송 확률 변수의 기대값과 분산
- 결과적으로 기대값과 분산은 parameter λ와 같음
- 기대값
$$
E[X] = \sum^\infty_{i=0}i\cdot \frac{e^{-\lambda}\lambda^i}{i!} \\
= \lambda \sum^\infty_{i=1}\frac{e^{-\lambda}\lambda^{i-1}}{(i-1)!}\quad\mbox{, Let} k=i-1 \\
= \lambda \sum^\infty_{k=0}\frac{e^{-\lambda}\lambda^k}{k!} \\
= \lambda e^{-\lambda}\sum^\infty_{k=0}\frac{\lambda^k}{k!} \\
= \lambda e^{-\lambda} e^\lambda = \lambda
$$
- 분산
  $$
  E[X^2]=\lambda(\lambda+1)\\
  V[X]=E[X^2]-\{E[X]\}^2\\
  V[X]=\lambda^2+\lambda-\lambda^2 = \lambda
  $$

Geometric Distribution (기하 분포)

베르누이 시행에서부터 시작
확률 변수 X: 첫 번째 성공이 일어나기 까지 필요한 시행 횟수
- p = P[success]를 기반으로 아래 기하 확률 함수를 따름
  $$
  P\{X=n\}=(1-p)^{n-1}p \quad \mbox{, for }n=1, 2, \dots
  $$
- 예)
- 5번 시행에서 첫 번째 성공일 때를 가정
  1. Fail → (1-p)
  2. Fail → (1-p)
  3. Fail → (1-p)
  4. Fail → (1-p)
  5. Success → p
모든 확률의 합
- 첫 번째는 먼저 시행을 해야 함 즉, 시행 횟수는 1 부터 시작 됨
$$
\sum^\infty_{n=1}P\{X=n\} = p\cdot \sum^\infty_{n=1}(1-p)^{n-1}=\frac{p}{1-(1-p)} = 1
$$
X가 기하 확률 함수를 따르게 되며 기하 확률 분포는 parameter p를 가짐
기대값 E[X] = 1/p
$$
P(X=i)=\sum^\infty_{i=1} i\cdot(1-p)^{i-1}\cdot p \\
=p \sum^\infty_{i=1}i\cdot(1-p)^{i-1} \quad\mbox{, Let } 1-p = k \quad\mbox{ &}\quad p=1-k \\
=p \sum^\infty_{i=1}i\cdot k^{i-1} \\
=p \sum^\infty_{i=1}\frac{d}{dk}k^i \\
=p \cdot\frac{d}{dk}\cdot\sum^\infty_{i=1}k^i \\
=p \cdot\frac{d}{dk}\cdot\Big(\frac{k}{1-k}\Big) \\
=p \cdot\frac{1-k+k}{(1-k)^2} \\
=p \cdot\frac{1}{p^2} = \frac{1}{p}
$$
팁) i 곱하기 k의 i-1제곱은 k에 대하여 미분한 것
$$
i \cdot k^{i-1} = \frac{d}{dk}k^i
$$
분산 $$V[X] = (1-p)p^2$$
$$
E[X^2] = \frac{2-p}{p^2} \\
V[X] = \frac{2-p}{p^2} - \frac{1}{p^2} = \frac{1-p}{p^2}
$$
예)
항아리에 N개의 흰색 공과 M개의 검은색 공이 있다.
- 다음 공이 뽑힐 때는 뽑았던 공은 다시 넣는다. (복원 추출 or 독립 시행)
(a) 검은색 공이 첫 번째 뽑힐 때 까지 필요한 횟수가 n번일 확률은?
- 확률 변수 X: 검은색 공이 첫 번째 뽑힐 때 까지 필요한 시행 횟수(공 뽑기)
  $$
  P(W) = \frac{N}{N+M} \quad\mbox{, } P(B) = \frac{M}{N+M}
  $$
- n-1번째 까지는 흰색 공이 나와야 함
  $$
  P\{X=n\}=\Big(\frac{N}{N+M}\Big)^{n-1}\cdot\frac{M}{N+M} \\
  = \frac{M\cdot N^{n-1}}{(N+M)^n}
  $$
(b) 검은색 공이 뽑힐 때 까지 적어도 k번이 필요할 확률은?
- 확률 변수 X가 k를 포함한 횟수 이상을 시행
$$
P\{X \geq k\} = \frac{M}{N+M} \cdot \sum^\infty_{n=k}\Big(\frac{N}{N+M}\Big)^{n-1} \\
= \Big(\frac{M}{N+M})\cdot\Big(\frac{N}{N+M}\Big)^{k-1} \Big/\Big[1-\frac{N}{N+M}\Big] \\
= \Big(\frac{N}{N+M}\Big)^{k-1}
$$
공을 랜덤하게 선택하는데, 검은색 공이 뽑힐 때 까지 시행한다.

저작자표시 비영리 변경금지 (새창열림)

'DAN lab. > DAN lab. Master's 1 Summer' 카테고리의 다른 글

04-01. Channel Coding and Error Control (0)	2021.07.14
03-01. Mobile Radio Propagation (0)	2021.07.12
02-02. 확률, 통계 및 트래픽 이론 (0)	2021.07.07
02-01. 확률, 통계 및 트래픽 이론 (0)	2021.07.07
2021 하계 세미나 스케쥴 (0)	2021.07.07

현재글02-03. 확률, 통계 및 트래픽 이론

KimYaKi

hyperledger, DB, Hyperledger Fabric, 데이터베이스, 블록체인, 운영체제, HTML, HTTP, 페킷트레이서, Advanced SQL, 네트워크, TCP, composer, 데이터 베이스, 파이썬, fabric, Java, python, subquery, TCP/IP,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

김야키