卡方检验(Chi-square test)是一种统计方法,主要用于检验两个分类变量之间是否存在关联性。以下是卡方检验的基本原理和步骤:
基本原理
无效假设(H0) :观察频数与期望频数没有差别。检验统计量:
卡方值(χ²),表示实际观测频数与理论预期频数之间的差异。
卡方分布:
基于卡方分布,通过计算得到的卡方值与相应的自由度(df)查表得到P值。
决策规则:
如果P值小于显著性水平(α),则拒绝H0,认为两个变量之间存在关联;否则,接受H0,认为没有关联。
步骤
建立假设
H0:
两个分类变量是独立的。
H1:两个分类变量不是独立的。
计算期望频数:
基于边缘总计和假设H0计算每个单元格的期望频数。
计算卡方值:
使用公式 \( \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} \) 计算,其中 \( O_i \) 是观察频数,\( E_i \) 是期望频数。
确定自由度:
对于 \( r \times c \) 的列联表,\( df = (r - 1) \times (c - 1) \)。
查表:
根据自由度和显著性水平查卡方分布表,得到临界值。
做出决策:
如果计算得到的卡方值大于临界值,则拒绝H0;否则,不拒绝H0。
应用
卡方检验可以用于:
检验两个分类变量是否独立。
检验某个分类变量的分布是否符合理论分布(如正态分布)。
评估两种方法或结果的一致性(如诊断测试的结果比较)。
注意事项
卡方检验适用于分类变量,不适用于连续变量。
卡方检验对样本量有一定要求,通常要求每个单元格的期望频数不应太小,否则检验的准确性会受到影响。
卡方检验是统计学中一种非常重要的方法,广泛应用于社会科学、医学研究、质量控制等领域