说到期望,有些人可能不熟悉;但是说到平均数,大部分人大概都知道。其实期望和平均还是有一定关系的。
假设我有一个不均匀的六面体,每个面都标有数字,分别是1,2,3,4,5,6。如果我把这个六面体向上扔,向上落地的概率如下表所示:
显然,上述概率之和为1。那么这个六面体向上的一面的期望值是多少呢?
我们通过将每张脸的概率乘以每张脸的数量来计算期望值,然后计算它们的和。即:
1*(1/6)+2*(1/3)+3*(1/6)+4*(1/12)+5*(1/12)+6*(1/6)=37/12
所以上面的六面体正面朝上落地的期望是37/12,换算成整数相当于3左右。
不均匀算出来的,如果是均匀的六面体呢?落地时向上的一面的预期是什么?
很简单,因为是均匀的六面体,所以每个面朝上的概率是1/6。所以总体期望是1/6(1 2 3 4 5 6)=21/6=3.5。此时相当于求1-6的平均值。
换句话说,如果每个数的概率相等,那么我们就相当于求平均值;如果每个数字的概率不相等,那么我们就是在寻找期望。我们通常用“E”来表达我们的期望。
假设小明期末考了六门课,成绩分别是60,78,77,90,92,83。那么如何计算小明成绩的方差呢?
我们需要算出小明的平均分:(60+78+77+90+92+83)/6=80.
然后,用小明每门课的成绩减去平均分,求出出差的平方,再算出这些平方的平均值。也就是
[(60-80)^2+(78-80)^2+(77-80)^2+(90-80)^2+(92-80)^2+(83-80)^2]/6=111.
我们称这个结果为方差。推广一下,假设x1,x2有N个数据.xn,并且它们的平均值是,那么方差可以表示为:
方差公式
有时候n的分母会改成n-1,取决于是样本数据还是整体数据,但是对我们的结果影响不大。
那么方差有什么意义呢?它更具体地代表了数据的波动程度,它代表了数据和平均值之间的离散程度。方差越大,数据越分散,离均值越远。方差越小,越多的数据集中在平均值附近。
标准偏差
那这样做有什么意义?注意,我们的方差是平方的,如果我们的数据有单位,那么最后的结果将是单位的平方,这不太好解释。比如上面小明分数的方差是111,单位是& quot积分& quot。我们会觉得很奇怪。
方差平方后,单位就成了原单位,这样结果就好解释了。可以得出小明成绩的标准差在10.5分左右。也就是说,小明的成绩与平均分平均相差10.5分。
标准差也衡量数据的波动,但它的结果很容易解释。
z值只是一个临界值,它是标准化的结果,本身没有意义。有意义的是它在标准正态分布模型中代表的概率值。查一下表就知道了。
z值对应的概率值表
举个例子,
一个班有100名学生。
然后我们有100的智商值。
从60到180。
假设平均值为90。
然后有的人60,有的人110。平均值和平均值之差的平方就是方差。
方差可以帮助看出这个人离平均值有多远,差距有多大。
但是如果数量很大,
这个数据不容易计算
例如,方差为5、方差为10和方差为20。
太麻烦了
这引入了z值。
z值是方差或单位的度量。
例如,在本例中,我们将单位设置为10。
所以对于方差为5的学生,Zscore为5/10=0.5。
方差为10的学生Zscore为1。
方差为20的学生是2。
然后我们知道最大的是10。
这很容易标记。
这就是为什么要有一个对应正态分布的Z值表。
只看z值是没有意义的,每个例子的单位都不一样。
在正态分布的情况下,单位是实际定义的。
所以只要知道z值,就可以知道这个同学的方差。
相当于知道这个同学的智商离平均水平有多远。
实例:
一次期中考试,小明
数学考了112,英语考了108.那么他的成绩好么?他的数学成绩好还是英语成绩好?已知全市数学平均成绩是108,方差21,英语的平均成绩是97,方差18
通过求Z值和查Z值表,我们可以得知
小明的数学成绩在全市成绩的排名是57.53%,英语成绩是72.91%
所以他的数学成绩中等,英语成绩比较好。
不同分布的z值具有可比性,例如N(0,1)的数据1的z值是1,表示离均值0有一个标准差,另外N(100,10)的数据110的z值也是1,表示离均值100有一个标准差,这样的话可以将不同的分布的数据,通过z值,直接比较各自距离各自均值的距离远近。
一般来说,对于正态分布,三个标准差内几乎涵盖了所有的数据。
68%的数据落在一个标准差内
95%的数据落在两个标准差内
99.7%的数据落在三个标准差内
如果数据分布是正态的,那么曲线的不同面积可以用z值的不同数值来表示。
同时,不同的面积或者不同的z值,也可以表示特定数值出现的概率。
例如:N(100,10)中110以上数据出现的概率大致是16%。
上一篇:2021年世界物联网博览会