AIC信息准则(Akaike Information Criterion,简称AIC)是一种用于衡量统计模型拟合优良性的标准。它由日本统计学家赤池弘次(Hirotugu Akaike)于1973年提出,因此也称为赤池信息量准则。AIC建立在熵的概念基础上,旨在权衡模型的复杂度和拟合数据的优良性。
AIC的计算公式如下:
\[ \text{AIC} = -2 \ln(L) + 2k \]
其中:
\( L \) 是对应的最大似然函数。
\( k \) 是模型中变量的个数。
在一般情况下,AIC可以表示为:
\[ \text{AIC} = 2k - 2 \ln(L) \]
其中:
\( k \) 是参数的数量。
\( L \) 是似然函数。
假设条件是模型的误差服从独立正态分布,并且 \( n \) 为观察数,残差平方和(RSS)为:
\[ \text{AIC} = 2k + n \ln\left(\frac{\text{RSS}}{n}\right) \]
其中残差是实际观察值与估计值的差。
AIC鼓励数据拟合的优良性,同时尽量避免过度拟合(Overfitting)。因此,在多个候选模型中,优先考虑AIC值最小的那一个模型。
建议
在实际应用中,AIC信息准则常用于模型选择,特别是在统计建模和机器学习中。通过比较不同模型的AIC值,可以选择出既拟合数据又不过于复杂的模型。需要注意的是,AIC值最小的模型并不总是最优的,特别是在样本量较小或存在多个具有相似AIC值的模型时,可能需要进一步考虑其他因素,如模型的可解释性或贝叶斯信息准则(BIC)等。