方差是什么意思(数据可变性的测量)_生活百科

admin

2023-09-03 19:07:46

可变性称为可变性或可变性，描述的是数据点与配送中心之间的距离。

可变性有时被称为扩散或分散。因为它告诉你这些点是倾向于聚集在中心周围还是扩散得更广。

低可变性是理想的，因为这意味着可以基于样本数据更好地预测关于总体的信息。高可变性意味着数值的一致性低，因此更难做出预测。在统计学中，我们的目标是测量一组特定数据或分布的可变性。简单地说，如果一个分布中的数据值是相同的，那么它没有可变性。

虽然上图中的数据服从正态分布，但是每个样本都有不同的分布。样品A的可变性最大，而样品C的可变性最小。

可变性的程度可以用许多不同的方法来衡量。

极差（Range）

范围，也称为全范围，可以显示分布中从最低值到最高值的数据分布。

例如，考虑以下数字：1、3、4、5、5、6、7、11。对于这组数字，范围是11-1或10。

极差的度量只使用两个数字，因此它们受异常值的影响很大，并且不提供任何关于值的分布的信息。所以最好和其他方法结合使用。

四分位数距离，也叫四分位数差，可以提供数据分布中间的分布。

对于从低到高排序的任何分布，四分位数包含数据中一半的值。第一个四分位数(Q1)包含前25%的值，而第四个四分位数(Q4)包含后25%的值。

它测量数据如何围绕平均值分布。基本公式是IQR=Q3-Q1。

就像range一样，quartile在计算中只使用2个值。然而，IQR受异常值的影响较小：这两个值来自数据集的中间一半，因此它们不太可能是极端得分。

提示：每个分发可以用五个数字摘要来组织：

最低Q1:第25百分位Q2:中位数Q3:第75百分位最大值(Q4)

方差代表了数据集的分布范围，但它是一个抽象的数字。它反映了数据集中的分散程度。数据越分散，方差和均值之间的关系就越大。

小方差-数据点通常非常接近平均值，并且彼此非常接近。高方差-数据点和平均值彼此非常分散。零方差——所有数据值相同。

标准差是数据集中的平均方差。它意味着平均每个数据点离平均值有多远。标准差越大，数据集的可变性越大。

当你有了总体数据，你就可以得到总体标准差的准确值。可以从每个群体成员中收集数据，因此标准差反映了分布(群体)中的确切方差。

但当无法获取全部数据时，可以对全部数据进行采样(采样方法就不详细介绍了)。抽样的结果称为样本，样本的作用是对总体数据进行统计推断。使用样本数据时，样本标准差总是用作总体标准差的估计值。在这个公式中使用n通常会给出一个有偏差的估计，它总是低估可变性。

将样本n减少到n-1会使标准偏差人为变大，从而提供对变异性的保守估计。虽然这不是一个无偏的估计，但它低估了标准偏差：高估而不是低估样本的可变性更好.

低标准偏差-数据点倾向于接近平均值，高标准偏差-数据点分布在范围较大的值上。

可变性的最佳测量取决于不同的测量和分布水平。

对于在序数水平上测量的数据，范围和四分位数距离是唯一合适的可变性测量。

对于更复杂的区间和比率数据，标准差和方差也适用。

对于正态分布，可以使用所有的度量。但标准差和方差是首选，因为它们考虑的是整个数据集，但这也意味着它们容易受到离群值的影响。

对于具有偏态分布或异常值的数据集，四分位数距离是最佳度量。它受极值的影响最小，因为它关注数据集的中间部分。

作者；AshishKumarSingh