본문 바로가기

정보기술의 샘터........о♡/통계학·사회조사분석사

분포의 종류

분포의 종류

 

분포(distribution)라는 단어를 확률분포함수의 약칭으로 사용해왔다. 그러나 '분포'라는 단어는 확률변수의 종류를 나타내는 용어로도 사용된다. 지수(exponential) 분포, 기하(geometric) 분포, 프와손 (Poisson) 분포, 정규(normal) 분포 등이 그 예이다.

 

분포를 크게 나누자면 (확률변수를 나누는 것과 같은 기준으로) 이산 분포와 연속 분포로 나눌 수 있다.

이산분포 : uniform, 버눌리(Bernoulli), 이항(二項; binomial), 기하, 프와손

연속분포 :  uniform, 지수, 얼랭(Erlang), 개머(gamma), 정규 분포

 

이산 uniform : 확률이 모든 경우에 다 똑같아야 한다는 것으로서 찌그러지지 않은 주사위나 동전이 이에 해당할 것이다. 범위(range)가 (n, n+a]라면 인 x에 대해서는 p(x)=1/a, 범위 밖의 x에 대해서는 p(x)=0.

 

버눌리 분포 : 성공과 실패만이 있을 때 성공확률이 p 실패확률이 q=1-p인 경우를 말하는 것이다. 동전이 대표적인데 찌그러진 동전도 찌그러지지 않은 동전도 다 해당된다. , , 0이나 1 아닌 x에 대해서는 p(x)=0.

 

기하 분포 : (윗면이 나올 확률이 p인 동전이 하나 있을 때) 윗면이 나올 때까지 동전이 던져지는 횟수별로 확률을 도시한 것이다. 로 표시되는 것을 기억할 것이다.

이항 분포는 10번 던졌을 때 동전 윗면이 나온 횟수가 얼마가 되는가에 대한 것으로 역시 횟수별로 그때의 확률을 도시한 것이다. 확률 p의 버눌리 트라이얼을 n번 수행할 때 성공횟수가 k회일 확률은 .

물론 [0,n] 밖의 k에 대해서는 p(k)=0. 여기서 확률 p로 n번 수행했으므로 성공횟수의 기대값은 np라는 것을 주의하자. 프와손 분포는 이항 분포에서 성공횟수의 기대값( )은 그대로 유지시킨 채, 구간을 무한대로 늘리고 (따라서 시행횟수를 무한대로 늘리고) 매 시행에서의 성공확률은 반대로 무한소로 줄여버린 것이다.

 

이 수식전개에 관심이 있다면 [p.106 LeonGarcia]를 보도록 하라.또 여기서 성공횟수의 기대값 를 시간으로 나눈 것을 패킷도착률 로 한다면,

 

이는 패킷도착률이 주어졌을 때 시간 t동안에 들어올 패킷의 수를 나타내게 된다. 게다가 프와손 분포의 합은 프와손 분포가 된다, 기대값 가 더해져서. (계산이 쉬워진다는 얘기다.) 이런 이유로 프와손 분포는 큐잉이론에서 매우 중요시된다.

음의 이항분포 (negative binomial)를 따르는 변수는 확률 p의 버눌리 트라이얼을 해서 r 째 성공하기까지 시도한 실패횟수를 나타내는 것이다. 시도한 총횟수는 패스컬(Pascal) 분포라고 하지만, [p100 LeonGarcia]에서는 이를 음의 이항분포라고 정의했다. (이런 불일치가 있기 때문에 이름만 외우면 곤란하다는 것이다.)

 

연속 uniform : 주택복권에서같이 뺑뺑이에 화살을 쏘았을 때 꽂힌 곳의 각도라고나 할까. 범위가 bounded되어 있고 별 뾰족한 아이디어가 없으면 기냥 uniform으로 모델링해버리라고 [p.497 Jain]에서는 말하고 있다. 이산 uniform에서 범위가 무지하게 넓다면 범위로 나눠서 [0,1] 사이의 연속 uniform을 흉내낼 수 있다. 우리가 컴퓨터에서 발생할 수 있는 난수는 죄다 이산 uniform이다. 연속/이산 uniform으로부터 다른 모든 분포에 해당하는 난수를 발생시킬 수 있다.

 

지수분포는 확률밀도가 지수속도로 감소하는 분포이다. 범위는 인데, 이 범위에서 적분해서 1이 나와야하기 때문에 다음과 같은 정의가 나오게 되었다. 밀도함수로는 , 분포함수로는. 이 지수분포는 기하분포의 정수 정의역을 실수 정의역으로 바꾼 것이다. 단위구간에서의 성공확률 p를 그대로 유지하고, 구간을 m개의 소구간으로 나눈다면 새로운 소구간에서의 성공확률은 p/m이 된다. x라는 거리는 1/m 소구간이 mx 개 들어가게 되고. 이때 얻어지는 기하분포의 질량함수를 구간크기 1/m으로 나누어 밀도함수가 되도록 만든 후 m을 무한대로 보내버리면 인 지수분포의 밀도함수가 나오게 된다. . 여기 사용된 공식은 프와손 분포의 유도 때와 같은 것이다. 지수분포는 역시 큐잉이론에서 매우 중요시되는 분포이다.

 

얼랭-n 분포는 : 독립적인 지수변수 n개를 합한 것으로서, 손상이 누적되어 고장이 나고 손상이 일어나는 주기가 지수적이라고 생각할 때 손상의 주기를 나타낼 수 있을 것이다. 큐잉이론에서는 지수분포의 서비스 시간을 갖는 서버 n개를 차례로 통과할 시간을 모델링하는 데 쓰인다.

 

개머(gamma) 분포는 얼랭-n에서 n을 임의의 양의 실수로 할 수 있도록 확장한 것이다. 용도는 얼랭-n과 유사하다. 이름이 개머인 이유는, 팩토리얼을 양의 정수 말고 양의 실수에 적용하도록 확장한 개머 함수라는 걸 썼기 때문이다. 개머 함수에 대해서는 [p.117 LeonGarcia]를 참고하라.

 

비터(beta) 분포 : [p.484 Jain]에 따르면 범위가 [0,1]이라는 이유 하나로 '재전송을 요하는 패킷의 비율', '데드라인을 넘긴 RPC 호출의 비'과 같은 걸 모델링하는 데 사용될 수 있다고 한다. 개머 변수의 비로 정의가 되는데 더 이상 알 필요는 없을 것 같다.

 

정규분포 : 거시언(Gaussian)이라고도 부르는 것으로서 여러분은 그 유명한 종 모양의 밀도함수를 기억할 것이다. 그러므로 생략한다. 다만 독립적인 많은 변수를 합치면 정규분포가 되고, 정규분포는 더해도 정규분포가 된다는 이유로, 에러항을 정규분포로 보통 모델링한다는 것은 말해두자. 보통 독립적인 같은 변수 30개가 더해지면 정규분포로 보기도 한다. uniform은 12개 정도 더하면 정규분포로 본다. 또한 정규분포는 이항분포에서 np가 25보다 클 경우에 대신 사용되기도 하며, 프와손 분포에서 가 9보다 클 때 대신 사용되기도 한다. [p.500 Jain]

로그노말(lognormal) 분포를 따르는 변수는 로그를 씌우면 정규분포가 된다. 거시언 변수를 발생시킨 후에 지수함수를 적용하면 로그노멀 변수를 얻을 수 있다. 이 변수의 특징은 서로 곱한 것이 역시 같은 로그노멀 분포를 가지며 이면의 정규분포 측면에서 보면 더한 것이 된다는 것이다. 더구나 양의 확률변수를 수많이 곱하면 개략적으로 로그노멀 변수가 된다고 한다. 그런 이유에서 에러 중에서도 많은 영향들이 곱해짐으로써 만들어지는 에러를 모델링하는 데 쓰인다고 한다. [p.492 Jain]

웨이불(Weibull) 분포는 부품의 수명을 모델링하는 데 자주 사용되며, 고장날 확률이 시간이 지나면서 높아지는 경우와 줄어드는 경우와 일정한 경우 모두 모델링할 수 있다. 고장날 확률이 시간에 따라 일정한 경우는 지수분포와 같다.

 

memoryless 성질이라는 게 있는데, 이런 성질을 갖는 분포는 기하분포와 지수분포 뿐이다. (이 둘이 동등한 것이라는 것은 앞에서 증명한 바 있다.) 이런 성질의 분포를 갖는 변수는 시간을 나타내는 변수로서, 어떤 사건이 발생하기를 손꼽아 기다릴 동안의 시간을 나타내는 것인데, 얼마를 기다렸건 상관없이 미래는 동일하다는 것이다. 오래 기다린 사람이나 방금 기다리기 시작한 사람이나 기회에 있어 평등하다는 말이기도 하다. 수식으로 표현하면, 모든 에 대해서 를 만족해야 한다는 것이다. 이것을 풀면 좌변은이고 이것이 우변과 같으려면 의 조건을 만족해야 하는 것이다. 인 함수 g(·)는 무엇일까? 그 정답은 지수함수 종류밖에 없다고 한다.

memoryless 성질은 수학적해석을 쉽게 해주기 때문에 (단지 계산이 용이하다는 이유 때문에 뜬금없이) 지수분포 및 기하분포가 광범위하게 사용되게 되었다.

 

 

분포들의 용도는 그 원래 의미보다는 평균과 분산의 크기 등에 의해 좌우되는 경우가 있다. 사실 이런 것이 정당화될 수 있는 이유는 어차피 (모델링을 위해 그 분포를 선택한 데 대하여 의미 면에서 정당성을 부여하는) 독립성 가정 같은 것은 실제사정을 꼼꼼히 살펴보지 않은 채 추측에 의해 마구 해버리는 것이므로, 관측과 통계에 의해 틀리다 싶으면 그런 가정은 과감하게 버려야 하기 때문이다.

이항분포의 분산은 언제나 평균보다 작으므로, 이항분포를 써야할 것 같은 경우에도, 분산이 평균보다 클 때에는 음의 이항분포를, 분산과 평균이 같을 때는 프와손 분포를 대신 쓴다고 한다. [p.486 Jain]

지수분포는 표준편차와 평균이 같으므로, 지수분포를 써야할 것 같은 경우에라도 표준편차가 평균보다 작다면 얼랭 분포를 대신 쓴다고 한다. [p.487 Jain]

 

출처  http://mmlab.snu.ac.kr/~shlee/prob/Dists.html 재구성