为什么正态性检验很重要?
t检验、方差分析、Pearson相关等常用统计方法都假设数据服从正态分布。如果数据严重偏离正态,使用这些方法得到的结论可能不可靠。因此,在正式分析前进行正态性检验是必要的步骤。
检验方法一:描述性统计判断
偏度(Skewness)和峰度(Kurtosis)是最直观的判断指标。偏度绝对值小于2、峰度绝对值小于7,通常可以认为近似正态。这是最快速的初步判断方法。
检验方法二:图形化判断
直方图——最直观的判断方法。如果直方图呈现明显的钟形曲线,可以认为近似正态。
Q-Q图——将数据的分位数与正态分布的理论分位数做散点图。如果点大致落在对角线上,说明数据近似正态。
箱线图——如果中位数大致在箱体中央,上下须长度大致相等,说明分布较对称。
检验方法三:统计检验
Shapiro-Wilk检验——适用于小样本(n<50),是最常用的正态性检验方法。p>0.05说明不拒绝正态假设。
Kolmogorov-Smirnov检验——适用于大样本。但大样本时几乎总是拒绝正态假设,实用性有限。
如果数据不正态怎么办?
方案一:数据变换——对数变换、平方根变换或倒数变换可能使数据更接近正态。
方案二:使用非参数检验——Mann-Whitney U检验替代t检验,Kruskal-Wallis检验替代方差分析,Spearman相关替代Pearson相关。
方案三:依靠中心极限定理——当样本量足够大(n>30)时,即使原始数据不正态,样本均值的分布也近似正态。
结语
正态性检验不是可有可无的步骤,而是选择正确统计方法的前提。用5分钟做个检验,可以避免用错方法导致的错误结论。