可变性称为可变性或可变性,描述的是数据点与配送中心之间的距离。
可变性有时被称为扩散或分散。因为它告诉你这些点是倾向于聚集在中心周围还是扩散得更广。
低可变性是理想的,因为这意味着可以基于样本数据更好地预测关于总体的信息。高可变性意味着数值的一致性低,因此更难做出预测。在统计学中,我们的目标是测量一组特定数据或分布的可变性。简单地说,如果一个分布中的数据值是相同的,那么它没有可变性。
虽然上图中的数据服从正态分布,但是每个样本都有不同的分布。样品A的可变性最大,而样品C的可变性最小。
可变性的程度可以用许多不同的方法来衡量。
例如,考虑以下数字:1、3、4、5、5、6、7、11。对于这组数字,范围是11-1或10。
极差的度量只使用两个数字,因此它们受异常值的影响很大,并且不提供任何关于值的分布的信息。所以最好和其他方法结合使用。
对于从低到高排序的任何分布,四分位数包含数据中一半的值。第一个四分位数(Q1)包含前25%的值,而第四个四分位数(Q4)包含后25%的值。
它测量数据如何围绕平均值分布。基本公式是IQR=Q3-Q1。
就像range一样,quartile在计算中只使用2个值。然而,IQR受异常值的影响较小:这两个值来自数据集的中间一半,因此它们不太可能是极端得分。
提示:每个分发可以用五个数字摘要来组织:
最低Q1:第25百分位Q2:中位数Q3:第75百分位最大值(Q4)
小方差-数据点通常非常接近平均值,并且彼此非常接近。高方差-数据点和平均值彼此非常分散。零方差——所有数据值相同。
但当无法获取全部数据时,可以对全部数据进行采样(采样方法就不详细介绍了)。抽样的结果称为样本,样本的作用是对总体数据进行统计推断。使用样本数据时,样本标准差总是用作总体标准差的估计值。在这个公式中使用n通常会给出一个有偏差的估计,它总是低估可变性。
将样本n减少到n-1会使标准偏差人为变大,从而提供对变异性的保守估计。虽然这不是一个无偏的估计,但它低估了标准偏差:高估而不是低估样本的可变性更好.
低标准偏差-数据点倾向于接近平均值,高标准偏差-数据点分布在范围较大的值上。
对于在序数水平上测量的数据,范围和四分位数距离是唯一合适的可变性测量。
对于更复杂的区间和比率数据,标准差和方差也适用。
对于正态分布,可以使用所有的度量。但标准差和方差是首选,因为它们考虑的是整个数据集,但这也意味着它们容易受到离群值的影响。
对于具有偏态分布或异常值的数据集,四分位数距离是最佳度量。它受极值的影响最小,因为它关注数据集的中间部分。
作者;AshishKumarSingh
上一篇:茶树精油和酒精哪个杀菌效果好
下一篇:超高层是多少层以上