Processing math: 9%

DAN lab./DAN lab. Master's 1 Summer

02-03. 확률, 통계 및 트래픽 이론

김야키 2021. 7. 7. 21:47

2.2 기본적인 확률 및 통계 이론


2.2.5 몇 가지 중요한 분포함수 (이산 랜덤 변수)


  • 일반적인 사건의 발생이 어떠한 서로 다른 분포들로 표현될 수 있는지 알아본다.
  • 확률 함수로부터 나온 확률들의 패턴

이산 랜덤 변수

  • 질량 함수 → 이산형 확률분포(Discrete probability distribution)
분포 종류
  • 베르누이 분포, Bernoulli distribution
  • 바이노미얼 분포, Binomial distribution
  • 푸아송 분포, Poisson distribution
  • 지오메트릭 분포, Geometric distribution
  • Negative Binomial distribution
  • Hypergeometric distribution

Bernoulli Distribution (베르누이 분포)

  • 확률 변수 X가 두 가지 값만 가지는 단순한 확률
    • 1 = "success" or 0 = "failure"

Define p=P[success]=P[X=1]p={0,1p1,p

  • 0과 1을 확률로 바꾸는 확률 함수가 필요하며, 아래 확률 함수를 따르는 확률 분포를 베르누이 분포라 한다.

fX(x;p)=px(1p)1x,x=0 or 1

  • 즉, 베르누이 분포는 위의 베르누이 확률 함수로부터 생성되는 확률들의 패턴을 그린 것
베르누이 확률 분포의 기대값과 분산
  • 기대값 E[X] = p

기대값의 정의: E[X]=xpx(1p)1x베르누이 확률 분포의 기대값: E[X]=x=0 or 1xpx(1p)1x=0+p=p

  • 분산 V[X] = p(1-p)

V[X]=E[X2]E[X]2E[X2]=x=0 or 1x2px(1p)1x=0+p=p

  • 예) 1
  • 동전을 던져서 앞 또는 뒤가 나올 경우와 같은 상황에서 사용
  • 동전을 던져서 앞은 1, 뒤는 0이라 설정, 그 상황에서 나오는 확률은 1/2로 정의

Binomial Distribution (이항 분포)

  • 베르누이 분포로 부터 나온 분포
    • 베르누이를 한 번만 던지면 베르누이 시행(Bernoulli trial)이라 부름
    • 그런 베르누이 시행을 독립적으로 n번 시도한 것
      • 첫 번째 시행이 다음 시행에 영향을 주는 종속적인 관계가 아닌 것
  • 이 때의 확률 변수 X를 정의한다.
    • X는 n번 시행해서 나오는 총 성공의 횟수
    • 여기서 X는 X={0, 1, 2, ... , n}으로 구성되며, 성공의 최대 횟수는 n번 모두 성공했을 때 즉, n이 된다.
    • 해당 실수 값들을 확률로 변경 해야 하며, 그 확률 함수는 아래와 같음
      p(x)=(nx)px(1p)nxfor x=0,1,,n(nx): n 번 중에 성공한 x의 횟수 즉, n번 중에서 x개를 선택한 것px: 성공한 횟수(1p)nx: 실패한 횟수
      • Parameter n and p: 위의 확률 함수로부터 나온 확률 분포의 모양을 결정하는데 영향을 주는 변수(or 모수)들
      • Parameter에 의한 그래프 모양의 예)
      베르누이 분포
      • 위의 x들을 확률 함수에 넣으면 0~1 사이의 값으로 생성
      • 이 함수의 분포는 이산형 확률 함수가 됨
  • 이항 확률 함수의 모든 합이 1이 되는가?
    x=0np(x)=x=0n(nx)px(1p)nx=1Why?Binomial Theorem에 의한 결과: (x+y)n=i=0n(ni)xiyni위의 식에서는 x가 p이고, y가 1p로 표현 된 것(p+1p)n=1n=1
  • 확률 변수가 주어지고 parameter가 주어질 때의 기대값과 분산
    • 기대값 E[X]
      P{X=k}/P{X=k1}에서 비율을 계산 한 뒤에 어떤 k가 1보다 작거나 큰 값을 찾아 냄P{X=k}P{X=k1}=n!(nk)!k!pk(1p)nkn!(nk+1)!(k1)!pk1(1k)nk+1=(nk+1)pk(1p)>1P{X=k}P{X=k1}(nk+1)pk(1p)
    • 분산 V[X]
      E[X2]=np[(n1)p+1]V[X]=E[X2]E[X]2V[X]=np(1p)
  • 예) 10 = 정상, 1 = 불량10개의 부품 중 2개가 불량일 확률은?
  • 확률변수 정의
    X: 불량품의 갯수X=0,1,2,...,10P[X=2]=(102)(0.1)2(0.9)102=0.1937
    기대값 E[X]과 분산 V[X]
    E[X]=(10)(0.1)=1, 평균적으로 1개의 불량이 나옴V[X]=(10)(0.1)(0.9)=0.9
  • n = 10개의 부품, p=P[불량품]=0.1
  • 불량의 갯수 파악
  • 예) 2
  • 불량률이 6%인 공정에서 매주 랜덤하게 50개를 뽑음
    1. 확률 변수 X는?
    X=0,1,2,3,...,50
    1. 그 중에서 불량이 3개 일 때의 확률은?
    X~ Bino(50,0.06)P(X=3)=(503)0.063(10.06)503
    1. P(X>3)일 확률은?
    1P(X3)을 이용1P(X=3)+P(X=2)+P(X=1)=1i=03(ni)0.06i(10.06)50i
  • Binomial Distribution Proposition
    • 이산 확률 변수 X와 parameter n과 p가 있다.
    • 여기서 p는 0 < p < 1을 만족한다.
    • X가 가질 수 있는 값이 k라 할 때, k는 0 ~ n까지 가진다.
    • P{X=k}의 값이 증가했다 감소를 하게 되는 분포 그래프가 생긴다.
    • 이 때, 가장 꼭대기(가장 큰)값이 (n+1)p로 정의 된다.
    • 증명
          P{X=k}/P{X=k1}에서 비율을 계산 한 뒤에 어떤 k가 1보다 작거나 큰 값을 찾아 냄P{X=k}P{X=k1}=n!(nk)!k!pk(1p)nkn!(nk+1)!(k1)!pk1(1k)nk+1=(nk+1)pk(1p)>1P{X=k}P{X=k1}(nk+1)pk(1p)

Poisson distribution (푸아송 분포)

  • 확률 변수 X={0, 1, 2, ...}와 같이 이산형 실수 값을 가지게 되며 아래의 확률 함수로부터 생성된 확률들의 패턴을 나타냄
  • Parameter로 λ를 사용하게 되며 이 값은 0보다 큼
    • 단위 시간(or 공간) 안에 특정 사건이 몇 번 발생할 것 인지를 표현한 확률 분포

P{X=i}=eλλii!,for i={0,1,2,},λ>0

  • 푸아송 분포의 성질

모든 확률의 합i=0P(X=i)=eλi=0λii!=eλeλ=1i=0λii!의 값은 테일러 급수에 의해서 eλ로 만들어 짐

  • Parameter λ에 따른 푸아송 분포의 그래프

푸아송 분포

  • 푸아송 분포와 Binomial 분포의 관계
    • p(i; n, p) ≈ p(i; λ)
    • 좌측: Binomial 분포, 우측: 푸아송 분포
    • n이 무한대로 커지고, p가 작아질 때, λ = np 와 같아 지게 됨
      P{X=i}=n!(ni)!i!pi(1p)nieλλii!
    • 증명
      p=λn를 이용=n!(ni)!i!(λn)i(1λn)ni=n(n1)(ni+1)niλii!(1λn)n(1λn)i
      • 잠시 정리
              앞의 n(n1)(ni+1)niλii!를 1번 뒤의 분모 (1λn)i를 2번, 분자 (1λn)n를 3번으로 지칭1. limn=12. limn(1λn)i=13. limn(1λn)n=limn{(1λn)nλ}λ=(e1)λ=eλ
    • 증명 이어서
      =1λii!eλ1=eλλii!=푸아송 분포
  • 예제
    • 어떤 집단에서 사람 수 n중에 100세 이상인 사람의 수
    • 책의 모든 페이지에서 오타의 갯수
    • 매일 전화를 걸 때, 잘못 걸을 횟수
  • 푸아송 확률 변수의 기대값과 분산
    • 결과적으로 기대값과 분산은 parameter λ와 같음
    • 기대값
    E[X]=i=0ieλλii!=λi=1eλλi1(i1)!, Letk=i1=λk=0eλλkk!=λeλk=0λkk!=λeλeλ=λ
    • 분산
      E[X2]=λ(λ+1)V[X]=E[X2]{E[X]}2V[X]=λ2+λλ2=λ

Geometric Distribution (기하 분포)

  • 베르누이 시행에서부터 시작
  • 확률 변수 X: 첫 번째 성공이 일어나기 까지 필요한 시행 횟수
    • p = P[success]를 기반으로 아래 기하 확률 함수를 따름
      P{X=n}=(1p)n1p, for n=1,2,
    • 예)
    • 5번 시행에서 첫 번째 성공일 때를 가정
      1. Fail → (1-p)
      2. Fail → (1-p)
      3. Fail → (1-p)
      4. Fail → (1-p)
      5. Success → p
  • 모든 확률의 합
    • 첫 번째는 먼저 시행을 해야 함 즉, 시행 횟수는 1 부터 시작 됨
     n=1P{X=n}=pn=1(1p)n1=p1(1p)=1
  • X가 기하 확률 함수를 따르게 되며 기하 확률 분포는 parameter p를 가짐
  • 기대값 E[X] = 1/p
    P(X=i)=i=1i(1p)i1p=pi=1i(1p)i1, Let 1p=k &p=1k=pi=1iki1=pi=1ddkki=pddki=1ki=pddk(k1k)=p1k+k(1k)2=p1p2=1p
  • 팁) i 곱하기 k의 i-1제곱은 k에 대하여 미분한 것
    iki1=ddkki
  • 분산 V[X]=(1p)p2
    E[X2]=2pp2V[X]=2pp21p2=1pp2
  • 예)
  • 항아리에 N개의 흰색 공과 M개의 검은색 공이 있다.
    • 다음 공이 뽑힐 때는 뽑았던 공은 다시 넣는다. (복원 추출 or 독립 시행)
    (a) 검은색 공이 첫 번째 뽑힐 때 까지 필요한 횟수가 n번일 확률은?
    • 확률 변수 X: 검은색 공이 첫 번째 뽑힐 때 까지 필요한 시행 횟수(공 뽑기)
      P(W)=NN+MP(B)=MN+M
    • n-1번째 까지는 흰색 공이 나와야 함
      P{X=n}=(NN+M)n1MN+M=MNn1(N+M)n
    (b) 검은색 공이 뽑힐 때 까지 적어도 k번이 필요할 확률은?
    • 확률 변수 X가 k를 포함한 횟수 이상을 시행
    P{Xk}=MN+Mn=k(NN+M)n1=(MN+M)(NN+M)k1/[1NN+M]=(NN+M)k1
  • 공을 랜덤하게 선택하는데, 검은색 공이 뽑힐 때 까지 시행한다.