方差是什么意思(数据可变性的测量)
admin
2023-09-03 19:07:46

可变性称为可变性或可变性,描述的是数据点与配送中心之间的距离。

可变性有时被称为扩散或分散。因为它告诉你这些点是倾向于聚集在中心周围还是扩散得更广。

低可变性是理想的,因为这意味着可以基于样本数据更好地预测关于总体的信息。高可变性意味着数值的一致性低,因此更难做出预测。在统计学中,我们的目标是测量一组特定数据或分布的可变性。简单地说,如果一个分布中的数据值是相同的,那么它没有可变性。

虽然上图中的数据服从正态分布,但是每个样本都有不同的分布。样品A的可变性最大,而样品C的可变性最小。

可变性的程度可以用许多不同的方法来衡量。

极差(Range)

范围,也称为全范围,可以显示分布中从最低值到最高值的数据分布。

例如,考虑以下数字:1、3、4、5、5、6、7、11。对于这组数字,范围是11-1或10。

极差的度量只使用两个数字,因此它们受异常值的影响很大,并且不提供任何关于值的分布的信息。所以最好和其他方法结合使用。

四分位距(Interquartilerange)

四分位数距离,也叫四分位数差,可以提供数据分布中间的分布。

对于从低到高排序的任何分布,四分位数包含数据中一半的值。第一个四分位数(Q1)包含前25%的值,而第四个四分位数(Q4)包含后25%的值。

它测量数据如何围绕平均值分布。基本公式是IQR=Q3-Q1。

就像range一样,quartile在计算中只使用2个值。然而,IQR受异常值的影响较小:这两个值来自数据集的中间一半,因此它们不太可能是极端得分。

提示:每个分发可以用五个数字摘要来组织:

最低Q1:第25百分位Q2:中位数Q3:第75百分位最大值(Q4)

方差(Variance)

方差代表了数据集的分布范围,但它是一个抽象的数字。它反映了数据集中的分散程度。数据越分散,方差和均值之间的关系就越大。

小方差-数据点通常非常接近平均值,并且彼此非常接近。高方差-数据点和平均值彼此非常分散。零方差——所有数据值相同。

标准差(StandardDeviation)

标准差是数据集中的平均方差。它意味着平均每个数据点离平均值有多远。标准差越大,数据集的可变性越大。

为什么使用n-1作为样本标准差?

当你有了总体数据,你就可以得到总体标准差的准确值。可以从每个群体成员中收集数据,因此标准差反映了分布(群体)中的确切方差。

但当无法获取全部数据时,可以对全部数据进行采样(采样方法就不详细介绍了)。抽样的结果称为样本,样本的作用是对总体数据进行统计推断。使用样本数据时,样本标准差总是用作总体标准差的估计值。在这个公式中使用n通常会给出一个有偏差的估计,它总是低估可变性。

将样本n减少到n-1会使标准偏差人为变大,从而提供对变异性的保守估计。虽然这不是一个无偏的估计,但它低估了标准偏差:高估而不是低估样本的可变性更好.

低标准偏差-数据点倾向于接近平均值,高标准偏差-数据点分布在范围较大的值上。

什么是变异性的最佳衡量标准?

可变性的最佳测量取决于不同的测量和分布水平。

对于在序数水平上测量的数据,范围和四分位数距离是唯一合适的可变性测量。

对于更复杂的区间和比率数据,标准差和方差也适用。

对于正态分布,可以使用所有的度量。但标准差和方差是首选,因为它们考虑的是整个数据集,但这也意味着它们容易受到离群值的影响。

对于具有偏态分布或异常值的数据集,四分位数距离是最佳度量。它受极值的影响最小,因为它关注数据集的中间部分。

作者;AshishKumarSingh

相关内容

热门资讯

金花创建房间/微信金花房卡怎么... 1.微信渠道:(荣耀联盟)大厅介绍:咨询房/卡添加微信:88355042 2.微信游戏中心:打开微...
金花房间卡/金花房卡如何购买/... 金花房间卡/金花房卡如何购买/新超圣金花房卡正版如何购买新超圣是一款非常受欢迎的游戏,咨询房/卡添加...
牛牛创建房间/金花房卡批发/神... 微信游戏中心:神牛大厅房卡在哪里买打开微信,添加客服【88355042】,进入游戏中心或相关小程序,...
链接牛牛/牛牛房卡游戏代理/鸿... 鸿运大厅房卡更多详情添加微:33549083、 2、在商城页面中选择房卡选项。 3、根...
科技实测!牛牛房卡怎么获得/乐... 微信游戏中心:乐酷大厅房卡在哪里买打开微信,添加客服【88355042】,进入游戏中心或相关小程序,...