超几何分布是统计学上一种离散概率分布,用于描述从有限总体中不放回抽取样本时,特定类型元素出现的次数的概率。其概率质量函数(PMF)为:
\[ P(X=k) = \frac{\binom{M}{k} \binom{N-M}{n-k}}{\binom{N}{n}} \]
其中:
\( N \) 是总体中元素的总数。
\( M \) 是总体中特定类型元素的数量。
\( n \) 是抽取的样本大小。
\( k \) 是样本中特定类型元素的数量。
\( \binom{a}{b} \) 表示组合数,即从 \( a \) 个元素中选取 \( b \) 个元素的方式数,计算公式为 \( \binom{a}{b} = \frac{a!}{b!(a-b)!} \)。
超几何分布的主要特点是:
不放回抽样:
每次抽取一个元素后,该元素不再放回总体中,因此每次抽取都会改变剩余总体的组成。
有限总体:
总体中的元素数量是有限的,且 \( n \leq N \)。
特定类型元素:
关注在有限次抽取中特定类型元素出现的次数。
超几何分布在多个领域有广泛应用,例如:
产品质量抽检:在产品抽样检查中,若总体中有 \( M \) 件次品,抽检 \( n \) 件时所得次品数 \( X \) 的概率。
流行病学:在总体中随机抽取一定数量的样本,其中恰有 \( X \) 例阳性的概率。
计算机科学:在高并发访问的场景中,用于模拟数据分布。
需要注意的是,当 \( N \) 趋近于无穷大时,超几何分布可以近似为二项分布。在实际应用中,如果 \( N \geq 10n \),则可以用二项分布来近似描述不合格品个数。