离散程度是 衡量数据集中各数值之间差异程度的一个统计量。它反映了数据是紧密聚集还是分散的情况。以下是离散程度的主要度量方法:
全距(Range)
定义:一组数据中的最大值与最小值之差。
计算公式:$R = \text{Max}(x_i) - \text{Min}(x_i)$
特点:简单易算,但没有考虑中间数据的分布情况。
四分位距(Inter-Quartile Range, IQR)
定义:75%位置上的四分位数与25%位置上的四分位数之差。
计算公式:$IQR = Q_3 - Q_1$
特点:反映了中间50%数据的离散程度,数值越小,数据越集中;数值越大,数据越分散。
方差(Variance)
定义:数据组中各数值与其均值离差平方的平均数。
特点:能较好地反映数据的离散程度,但单位是原始数据单位的平方,没有解释意义。
标准差(Standard Deviation)
定义:方差的平方根。
特点:是最常用的反映随机变量分布离散程度的指标,单位与原始数据一致,易于解释。
离散系数(Coefficient of Variation, CV)
定义:标准差与均值的比值,用于测度相对离散程度。
计算公式:$CV = \frac{\text{Standard Deviation}}{\text{Mean}}$
特点:消除了量纲影响,便于不同数据集之间的离散程度比较。
通过这些指标,可以全面了解数据的离散程度,从而判断数据的稳定性、波动性和风险大小。在实际应用中,可以根据具体需求和数据特点选择合适的离散程度度量方法。