常用的方差(variance)、标准偏差(standard derivation)的内涵和计算方法有许多容易混淆之处,本文进行梳理。
对于随机变量
方差:
标准偏差就是方差的平方根:
如果全体样本集(polulation)的每一个样本
这样计算得到的方差常被称为全体方差(population variance)。
有时候无法得知统计量的实际值: - 对于随机变量,无法观测产生这个变量的参数,只能得到一系列随机的采样; - 对于数量巨大、甚至无穷多的样本集,我们无法使用全部样本进行计算,只能随机有放回地抽取一部分采样。
由于两种情况都包含有随机性,所以估计得到的统计量本身也是个随机变量,并非真实值。用上横线以示区分。
估计可以有不同方法,各有不同性质。
复习一下期望的性质。
对均值的估计直观而统一:
这个估计是无偏的(估计的期望等于真实值):
方差涉及到二次项,情况复杂一些。
证明提示:把
具体推导引自wiki:
这样的估计方差总是小于真实方差。 估计方差和真实方差之间差距为
换句话说,总有你想不到的幺蛾;见识越少,幺蛾越大。
不过,如果随机变量/样本集的均值已知,则类似的方差估计是无偏的:
证明提示:
对有偏方差进行矫正:
标准偏差的问题更为复杂。从定义上来说
喜闻乐见的直观形式:
这个估计当然是有偏的(比真实值小),不过是一致的(consistent,随着N增大依概率收敛到真值)。
通过对无偏方差开根号得来:
需要注意的是,由于平方根不能和期望交换,这个估计依然是有偏的,不过比前一个估计好一些。
考察这个估计的期望:
这个估计仍然比真实的标准偏差小。具体小多少,要依数据分布而定。
不同随机变量的无偏标准偏差估计具有不同形式,具体参看这里。 一个近似的估计是将前一方法中的分母
新闻热点
疑难解答