이산 확률 분포의 이해
목차
이산 확률 분포란?
이산 확률 분포는 확률변수 (X)가 셀 수 있는(countable) 분리된 값(예: 정수)만을 취할 때 정의된다. 확률분포가 이산(discrete)이라는 것은 (X)가取할 수 있는 값의 목록이 개별적이며 셀 수 있다는 의미다. 반면 연속분포에서는 (X)가 연속구간의 임의 실수값을 취할 수 있다 (www.dummies.com) (www.investopedia.com). 예를 들어, 동전 던지기나 주사위 눈금은 이산 분포로 다루지만, 사람의 키나 온도는 연속 분포로 다룬다. 이산 분포에서는 확률밀도함수가 아닌 확률질량함수(PMF)를 사용한다. PMF (p(x))는 변수 (X)가 특정 이산값 (x)를 가질 확률 (P(X=x))를 직접 나타내며, 가능한 모든 (x)에 대해 확률의 총합이 1이 된다 (www.cuemath.com). 직관적으로, 이산 분포는 “떨어진 계단을 차례대로 오르는” 모양의 계단함수 형태로 표현된다. 예를 들어 (F(x))라는 누적분포함수(CDF)를 이산 변수에 대해 그려보면, 정수 위치별로 뚝뚝 끊긴 계단형 그래프가 나타난다 (CDF에 대해서는 아래에서 자세히 다룬다 (bookdown.org)).
이처럼 이산값은 간격 없이 뚝뚝 떨어져 있으므로 각 값에 대한 확률을 직접 계산할 수 있다. 예를 들어, 주사위 던지기의 확률분포는 1부터 6까지 나올 확률을 각각 (1/6)로 할당한 이산분포다. 확률변수가 불연속적으로 개수를 셀 수 있는 값으로 한정되면 이산분포의 모델이 적절하다. 따라서 이산 확률 분포는 확률변수 값의 집합이 유한하거나 가산 무한일 때 사용하는 분포 개념으로 정의된다 (www.dummies.com) (www.investopedia.com).
주요 이산 확률 분포
이산 확률분포 중에서는 특정 상황에 잘 맞게 고전화된 분포들이 있다. 사업·공학·통계 등 여러 분야에서 자주 쓰이는 대표적인 이산 분포로는 이항분포, 푸아송분포, 기하분포, 초기하분포, 음이항분포 등이 있다. 이들 분포는 모두 이산변수의 분포를 나타내며, 구체적인 조건과 해석이 다르다. 이항분포, 기하분포, 푸아송분포는 독립 시행 기반 이산 확률분포로 자주 거론되고, 초기하와 음이항은 표본추출 및 성공횟수 모델링 등 특정 상황에 쓰인다.
이항분포: 베르누이 시행의 확장
이항분포(Binomial distribution)는 성공/실패 두 가지 결과만 가능한 베르누이 시행을 일정 횟수 (n) 반복할 때 “성공 횟수” (X)의 분포다. 즉, 독립적으로 반복되는 (n)회 실험(each with success prob. (p))에서 성공이 나오는 횟수를 확률변수로 취급할 때 적용된다 (www.investopedia.com). 예를 들어 동전 던지기 (n)회를 하여 앞면(성공)이 등장한 횟수를 구하거나, 공장에서 불량품이 나올 확률이 (p)인 공정을 (n)번 반복했을 때 불량품 개수 분포를 모델링할 때 이항분포를 쓴다.
이항분포의 확률질량함수는 다음 식으로 주어진다:
[
P(X=k)=\binom{n}{k}p^k(1-p)^{\,n-k},\quad k=0,1,\dots,n,
]
여기서 (\binom{n}{k})는 이항계수이며, (n)회 중 (k)회 성공할 확률을 계산한다 (각 시행이 성공 확률 (p), 실패 확률 (q=1-p)를 갖고 독립이다). 이 식의 의미는 “(n)회 중 (k)회의 특정 위치에 성공이 오고, 나머지는 실패”인 모든 조합 확률을 합산한 결과다. 이항분포의 기댓값과 분산은 각각 (\mu=np)와 (\sigma^2=np(1-p))로 주어진다 (stats.libretexts.org). 예를 들어 (n=10), (p=0.5)이면 기댓값 (\mu=5)이고 분산 (\sigma^2=2.5)이다. 특히 (p=0.5)일 때 이항분포는 대칭형이고, (p<0.5)일 경우 오른쪽 꼬리가 좀 더 길어지는(오른쪽으로 왜도가 있음) 분포가 된다.
이항분포는 쉽게 이해할 수 있는 현상에 자주 응용된다. 동전 던지기, 설문 응답 중 찬반 비율, 제조 공정의 결함 발생 횟수 등이 대표적이다. 예를 들어, 품질 관리에서 작업자가 10개의 제품을 추출검사하여 그 중 불량품이 나올 확률을 이항분포로 계산할 수 있다. 이처럼 배경에 성공/실패 두 가지밖에 없는 이산 실험이 반복되는 상황에서 이항분포를 사용한다 (www.investopedia.com).
푸아송 분포: 드문 사건의 확률 모형
푸아송분포(Poisson distribution)는 주어진 시간 또는 공간 구간 내에 사건이 독립적으로 발생하는 횟수를 모델링하는 확률분포다. 예를 들어 일정 시간 동안 도착하는 전화 건수나 일정한 시간에 발생하는 사고 건수처럼 “평균 발생률 (\lambda)을 가진 드문 사건”의 빈도를 다룰 때 쓰인다 (www.investopedia.com). 푸아송 분포의 매개변수 (\lambda)는 단위 구간당 기대 발생 횟수(평균)를 나타낸다. 확률질량함수는
[
P(X=k)=\frac{\lambda^k e^{-\lambda}}{k!},\quad k=0,1,2,\dots
]
로 주어진다. 여기서 (e)는 자연상수이며, (\lambda)가 클수록 평균 발생 횟수가 많아진다. 푸아송분포는 평균과 분산이 동일하게 (\lambda)가 되며 (www.investopedia.com) (www.investopedia.com), 특히 사건 간의 상호간섭이 없고 발생률이 일정하다는 가정을 가진다.
실제 응용에서 푸아송분포는 독립적으로 일어나는 희귀 사건 빈도를 예측할 때 유용하다. 예를 들어, 은행 지점에 1시간 동안 고객이 몇 명 방문할지, 병원 응급실에 하루에 응급환자가 몇 명 발생할지, 웹사이트에 분당 접속자 수가 몇 명일지 등에 적용된다. 통계학적으로도 다양한 분야에서 일정 시간 내에 이벤트가 (\lambda) 평균으로 발생할 때 그 횟수 분포를 추정하는 데 사용된다 (www.investopedia.com). (특히 건설 현장 낙하물 수나 방사성 붕괴 수 등 과학 분야에서도 흔히 등장한다.) 푸아송분포는 이산변수 분포답게 (X)는 0,1,2,… 의 정수 값을 갖고, 큰 (\lambda)에서는 정규분포와 비슷한 종모양을 띄지만, 일반적으로는 한쪽 꼬리가 좀 더 긴 형태를 보인다.
기하분포: 첫 성공까지의 시행 수
기하분포(Geometric distribution)는 베르누이 시행에서 첫 성공(success)이 나올 때까지 시행 횟수를 다룬다. 구체적으로, 성공 확률이 (p)인 독립 시행을 반복할 때 첫 성공까지 이루어진 총 시행 횟수를 확률변수 (X)라 한다. 이때 (X)가 (k)일 확률(첫 성공이 (k)번째에서 일어날 확률)은
[
P(X=k)=(1-p)^{\,k-1}p,\quad k=1,2,\dots
]
로 표현된다. 즉 처음 (k-1)회 실패((1-p))가 연속되고, (k)번째에 첫 성공((p))이 오는 경우다. 기하분포의 특징 중 하나는 기억 무효성(memoryless) 속성을 갖는다는 점이다. 즉 현재까지 실패했어도 앞으로 성공이 일어날 분포는 새롭게 시행을 시작한 것과 똑같다. 기하분포의 기댓값은 (1/p), 분산은 ((1-p)/p^2)이다. 예를 들어 동전 던지기에서 앞면이 나올 확률 (p=0.5)일 때, 첫 앞면이 나올 평균 시도 횟수는 (2)회이다.
실생활로는 게임에서 승리할 때까지 반복해야 하는 시도 횟수나, 컴퓨터 네트워크에서 오류가 발생할 때까지 패킷 전송 횟수 등을 기하분포로 분석한다. 불량품 생산 공정에서 정상 제품이 생산될 때까지의 생산 수 역시 기하분포로 모델링할 수 있다. 특히 드문 성공 사건을 다룰 때 “첫 성공까지의 기다림”에 적합한 분포다 (www.cuemath.com).
초기하분포: 모집단의 비복원 추출
초기하분포(Hypergeometric distribution)는 유한 모집단에서 비복원(돌려놓지 않고) 샘플링할 때 사용되는 분포다. 예를 들어 총 (N)개의 항목 중 성공군(흥미로운 것) (K)개와 실패군 (N-K)개가 있을 때, 이중에서 (n)개를 무작위로 비복원 추출할 때 성공군의 개수 (X)의 분포를 나타낸다. 확률질량함수는 조합(combination)으로 주어지며, (k)개의 성공이 나올 확률은
[
P(X=k) = \frac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}},
\quad \max(0,n-(N-K)) \le k \le \min(n,K).
]
즉, 전체에서 (K)개 중 (k)개를 뽑고, 나머지 (N-K)개 중 (n-k)개를 뽑는 조합 수를 전체 (N) 중 (n)개를 뽑는 조합 수로 나눈 값이다. 이 분포의 기댓값은
[
\mu = \frac{nK}{N},
]
또한 분산은 (\sigma^2 = \frac{nK(N-K)(N-n)}{N^2(N-1)})로 주어진다 (stats.libretexts.org). (위 예에서 모집단 크기 (N=K+(N-K))이며, 시료 크기 (n), 성공군 크기 (K)이다.) 초기하분포는 한 번 추출하면 모집단 구성이 변하기 때문에 실패 확률이 계속 달라지는 샘플링 상황에 적합하다.
예를 들어, 100개의 제품 중 20개가 불량품일 때 10개를 무작위로 뽑아 몇 개가 불량품일지를 계산하면 초기하분포에 따른다. 유사한 사례로 도박 예측이나 제비뽑기(복권) 결과도 임의로 뽑는 개념이므로 초기하분포로 해석할 수 있다. 모집단의 크기가 커지거나 복원추출과 유사해지면(모집단 크기→∞, 비복원 효과 무시) 이항분포로 근사되기도 한다.
음이항분포: 성공 횟수에 따른 시행 수
음이항분포(Negative Binomial distribution)는 기하분포를 확장하여 “(r)번째 성공이 발생할 때까지의 시행 횟수”을 모델링한다. 즉 독립 베르누이 시행을 반복하다가 총 성공 횟수가 (r)이 될 때까지 시도한 횟수 (X)를 확률변수로 본다. 예를 들어, 동전을 던져 앞면이 3번 나올 때까지 총 몇 번 던져야 하는지와 같은 문제다. 음이항분포의 확률질량함수는
[
P(X = k) = \binom{k-1}{r-1} p^r (1-p)^{\,k-r},\quad k=r,r+1,\dots,
]
여기서 (p)는 성공 확률, (r)은 목표 성공 횟수다. 이 식은 첫 (r-1)번 성공을 이루고 (r)번째 성공이 (k)번째 시행에서 일어나는 경우를 계산하며, (\binom{k-1}{r-1})은 위치를 지정하는 조합 수이다. 음이항분포는 기하분포와 밀접하여, 기댓값은 (\mu = \frac{r}{p}), 분산은 (\sigma^2 = \frac{r(1-p)}{p^2})임이 알려져 있다 (bookdown.org).
응용면에서 음이항분포는 여러 성공이 나올 때까지의 기다림을 나타낸다. 예를 들어, 상품홍보에서 (r)번째 구매가 일어날 때까지 배너 광고를 몇 번 보여줘야 하는지, 공장 생산에서 (r)번째 양품이 나오는 데 필요한 검사 횟수, 또는 전염병 전파 과정을 모델링할 때 흔히 사용된다 (bookdown.org). 특히 (r=1)인 경우는 기하분포로 환원되므로, 음이항분포를 기하분포의 일반화로 볼 수도 있다.
이산 확률 분포의 성질
이산 분포마다 고유한 특성이 있지만, 전반적으로 공통되는 통계량으로 기댓값(평균), 분산, 왜도(skewness), 첨도(kurtosis) 등을 들 수 있다. 기댓값은 분포의 중심 위치(위치 모수)를 나타내고, 분산은 확률값이 평균에서 얼마나 퍼져 있는지(산포도)를 나타낸다. 이 값들은 확률질량함수(PMF) 정의에 따라 다음과 같이 계산된다:
[
\mu = E[X] = \sum_x x p(x),
\quad
\sigma^2 = \mathrm{Var}(X) = \sum_x (x-\mu)^2 p(x).
]
각 분포별로 주요 값은 앞서 언급한 공식에서 직접 도출된다. 예를 들어, 이항분포 (B(n,p))는 (\mu=np, \sigma^2=np(1-p))이다 (stats.libretexts.org). 푸아송분포 (\mu=\sigma^2=\lambda)로 평균과 분산이 같다 (www.investopedia.com) (www.investopedia.com). 기하분포는 (E[X]=1/p), (Var(X)=(1-p)/p^2) (첫 성공까지의 시도 횟수 해석). 음이항분포에서는 (E[X]=r/p) (성공 (r)개까지 시행한 횟수) (bookdown.org), 초기하분포는 임의복원 없는 표본 추출이므로 (E[X]=n\frac{K}{N}), (Var(X)=\frac{nK(N-K)(N-n)}{N^2(N-1)})이다 (stats.libretexts.org). 기댓값과 분산은 분포의 평균적인 위치와 변동성을 정량화하여, 분포를 비교하거나 이상치를 판정할 때 기본 수치로 활용된다.
추가로 분포의 모양을 설명하는 측도로 왜도(skewness)와 첨도(kurtosis)가 있다. 왜도는 분포의 비대칭 정도로, 좌우 꼬리 길이의 차이를 반영한다 (www.investopedia.com). 만약 분포의 오른쪽(큰 값 쪽) 꼬리가 더 길면 양의 왜도(오른쪽 편향), 왼쪽 꼬리가 길면 음의 왜도(왼쪽 편향)라 한다. 예를 들어, 이항분포는 (p=0.5)일 때 대칭(왜도 0)이지만, (p<0.5)이면 대부분의 확률이 낮은 값 쪽에 몰려 오른쪽 꼬리가 길어지는 경향이 있다. 푸아송도 평균 (\lambda)가 작으면 오른쪽으로 치우치지만, (\lambda)가 커지면 심하게 치우치지 않고 정규분포 모양에 가까워진다. 기하분포와 음이항분포는 항상 양의 왜도를 가지는데, 이는 성공이 늦게 나타나는 경우가 간혹 발생하여 오른쪽 꼬리가 길기 때문이다. 이처럼 왜도는 분포의 꼬리 비대칭을 설명하며, 왜도가 0인 정규분포와 대비하여 데이터의 편향 여부를 파악할 수 있다.
첨도는 분포의 뾰족함이나 꼬리 두터움을 설명하는 지표다. 흔히 오해되는 것과 달리 첨도는 피크의 높낮이보다는 꼬리의 두터움을 주로 나타낸다 (www.investopedia.com). 높은 첨도(초첨도 분포, leptokurtic)를 가지는 분포는 평균 근처에 데이타가 몰리면서도 꼬리에 극단값이 많이 생긴다. 낮은 첨도(저첨도, platykurtic)는 꼬리가 얇아 극단값이 적다. 예를 들어 정규분포는 중간단계인 중첨도(정규 기준 첨도 3)인데, 푸아송분포는 복원추출을 가정하므로 꼬리의 두께는 정규에 가까운 반면(첨도 ≈3), 기하분포나 음이항분포는 꼬리가 더 두터워 첨도가 높은 편이다. 첨도와 왜도의 개념은 분포를 정규분포와 비교하여 얼마나 균형잡혔는지(왜도)와 극단값 발생 가능성(첨도)을 보는 데 유용하다.
누적분포함수와 생존 함수
확률분포를 설명할 때 누적분포함수(CDF)와 생존함수(Survival function)도 중요한 개념이다. 이산 확률변수 (X)의 CDF (F(x))는 (P(X \le x))를 나타내며, 연속 변수의 CDF와 유사하지만 이산 변수에서는 계단 함수(step function) 형태를 가진다 (bookdown.org). 즉, (X)가 취할 수 있는 각 값에서 함수 값이 껑충껑충 뛰며 증가한다. 예를 들어 주사위 던지기라면 (F(3)=P(X\le3))는 ‘3이하가 나올 확률’로 표현된다. 누적분포함수는 특정 값 이하의 확률을 한눈에 보여주므로, 예를 들어 “값이 (k) 이하일 확률은”과 같이 묻는 경우에 자주 활용된다.
생존함수 (S(x))는 누적분포의 보완(complementary CDF)으로, (S(x)=P(X>x)=1-F(x))이다. 이를 ‘어떤 시점 또는 값까지 생존할 확률’이라고 부른다 (profilbaru.com). 예를 들어 장비의 고장까지 걸리는 횟수나 환자의 생존 기간처럼 “어떤 시점 이전에 이벤트가 발생하지 않을 확률”을 의미한다. 누적분포함수와 생존함수는 서로 뒤집힌 관계이므로, (F(x))와 (S(x))를 함께 이용하여 분포의 특성을 더 잘 이해할 수 있다. 특히 생존 함수는 신뢰도 분석이나 생존분석에서 자주 사용된다.
실제 활용 예로는 생존 분석이나 신뢰성 공학이 있다. 예를 들어 기계가 언제 고장날지, 환자가 얼마나 생존할지 등 시간-사건(time-to-event)을 예측할 때 생존함수를 사용한다. 생존함수는 일정 시간 후에도 이벤트 없이 남아 있을 확률이므로, 이항/기하 등 이산 분포를 사용하면 이벤트 발생(예: 고장)이 정한 횟수 이내에 일어날 확률을 계산할 수 있다. 결국 CDF와 생존함수는 확률분포의 누적적 특징을 보여주는 도구로 활용되어, 데이터 분석 시 확률이 누적되는 방법을 이해하는 데 도움을 준다.
이산 확률 분포의 응용
이산 확률 분포는 통계적 모델링 및 시뮬레이션에서 매우 광범위하게 쓰인다. 실생활 사례를 통해 주요 응용 분야를 예로 들면 다음과 같다. 품질 관리(QA) 분야에서는 이항분포나 초기하분포를 이용하여 공정 품질을 평가한다. 예를 들어 공장에서 샘플링 검사를 할 때, 불량품이 나올 확률(이항분포)이나, 모집단 중 불량품 비율이 알려진 상황에서 비복원 추출로 뽑은 샘플에 포함된 불량품 수(초기하분포)를 계산할 수 있다. 통신/교통 분야에서는 한 시간 동안 버스 정류장에 도착하는 승객 수나, 일정 지역의 교통사고 발생 건수에 푸아송분포를 활용하여 예측한다. 금융·보험 분야에서는 드문 사건의 발생 횟수를 통계화할 때 푸아송이나 음이항분포를 쓸 수 있다. 예를 들어, 특정 주식의 하루 거래량 변화 횟수를 포아송으로, 일정 수준 이상의 손실이 여러 번 발생하는 횟수를 음이항으로 모델링할 수 있다. 의료/사회과학에서는 동전 던지기나 설문 조사처럼 성공/실패가 두 개뿐인 사건에 이항분포를 사용한다. 예를 들어 어떤 보조제 복용자 중 효과를 본 사람의 비율, 유전자 실험에서 특정 변형을 보인 개체 수 등을 이항분포로 설명한다. 또한 자연 과학 분야에서 땅거미에 숨어있는 곤충을 잡는 생태학적 표본추출에 초기하분포가 쓰이기도 한다 (예: 포획 후 마킹된 동물이 재포획되는 경우의 수) (www.numberanalytics.com). 실제로 한 블로그 자료는 “초기하분포가 생태학에서 마킹한 동물의 재포획 개수 예측이나 금융 데이터 희귀 이벤트 모델링에 사용된다”고 소개하고 있다 (www.numberanalytics.com).
또한 시뮬레이션 분야에서는 Monte Carlo 방법 등을 통해 이산분포를 활용하여 문제를 해결한다. 복잡한 시스템을 모의실험할 때, 특정 사건 발생 횟수를 난수로 생성해야 하는 경우가 많은데 이때 이항·푸아송·기하 분포 난수를 사용한다. 예를 들어, 게임 시뮬레이션에서 동전 던지기 결과(이항분포), 손님 도착 시뮬레이션(푸아송 분포), 제조결함 발생 시뮬레이션(기하분포) 등을 난수로 반복 생성해 통계량을 추정한다. 통계 소프트웨어나 프로그래밍 언어(R, Python 등)은 이산분포를 따르는 난수 생성 함수를 제공하므로, 실제 문제에서 프로젝트 예측이나 위험 분석을 할 때 모의실험에 자주 쓰인다. 이처럼 이산 확률분포는 현상의 모형화와 예측에 폭넓게 응용되며, 데이터 분석과 문제 해결에서 중요한 역할을 한다.
참고 자료
- Alan Anderson, Differentiate Between Discrete and Continuous Probability Distributions, Dummies.com. (확인일 2025)
- Ellen Lindner, Discrete Distribution: Overview and Examples, Investopedia. (확인일 2025)
- Eliana Rodgers, Binomial Distribution: Definition, Formula, Analysis, and Example, Investopedia. (확인일 2025)
- Joules Garcia, Poisson Distribution: Formula and Meaning in Finance, Investopedia. (확인일 2025)
- OpenStax Business Statistics, Binomial Distribution, Section 4.3, LibreTexts.
- OpenStax Business Statistics, Hypergeometric Distribution, Section 4.6, LibreTexts.
- Kevin D. Davis, An Introduction to Probability and Simulation (bookdown.org), Sections on CDF and Negative Binomial distributions.
- Cuemath, Probability Mass Function – Definition, Formula, Examples. (확인일 2025)
- Cuemath, Geometric Distribution – Formula, Mean, Variance. (확인일 2025)
- Investopedia, What Is Skewness?, Investopedia. (확인일 2025)
- Investopedia, Kurtosis: Definition, Types, and Importance, Investopedia. (확인일 2025)
- profilbaru.com, Survival function. (확인일 2025)
- Sarah Lee, Hypergeometric Distribution in Sampling, NumberAnalytics (blog), 2025.
© 2025 TechMore. All rights reserved. 무단 전재 및 재배포 금지.
기사 제보
제보하실 내용이 있으시면 techmore.main@gmail.com으로 연락주세요.

