抽样分布有三大应用:T分布、卡方分布和F分布。可以简单用四个字概括它们的作用:“以小博大”,即通过小数量的样本容量去预估总体容量的分布情况。这里开始介绍卡方分布。
若n个相互独立的随机变量ξ₁、ξ₂、……、ξn ,均服从标准正态分布,则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布。
和t分布一样,卡方分布也是一个分布族,其形状也是由参数自由度v来决定,其中,v = n - 1 (n为样本大小)每个整数自由度对应一个分布。卡方分布以下几个特征:
1、当v等于1或2时,卡方分布是一条先高后低的曲线
2、当v大于2时,卡方分布的形状发生改变,曲线呈具有偏度的钟型;
3、当v很大时,曲线接近正态分布;
卡方分布的概率密度函数的计算是依赖于一个样本统计量χ2(读作“卡方”),卡方的计算公式如下:
卡方的概率密度函数计算公式如下:
卡方分布主要用于检查实际结果与期望结果之间何时存在显著差别,它主要有两个用途:
用于检验拟合优度。也就是检验一组给定的数据与指定分布的吻合程度;
检验两个变量的独立性。通过卡方分布可以检查变量之间是否存在某种关联。
例子:下面是一台老虎机的期望概率分布图,其中X表示每一句游戏的收益:
我们收集了1000局游戏的数据,并记录了每种结果的观察频数和期望频数。所谓观察频数,就是每种收益结果的发生次数。而期望频数就是样本大小乘以收益发生的概率:
我们如何知道实际发生结果是真实的,还是被人操纵呢?换句话说:如何对观察频数和期望频数之间的差异进行量度呢?这取决于显著性水平α。
用卡方分布进行的检验为单尾检验,右尾被作为拒绝域。通过查看检验统计量(即卡方)是否位于右尾的拒绝域以内,就可以判定根据期望分布得出结果的可能性。用显著性水平α进行检验,可以写作:
拒绝域示意图如下:
求解卡方分布的拒绝域,可以使用卡方概率表
如果显著性水平是5%,就可以判定老虎机受人操纵。根据这个标准来进行计算:
1、确定要进行检验的假设;
假设:每局收益不符合概率分布
2、求出期望频数和自由度;
期望频数已经记录,每局游戏可能出现5种结果,即自由度v=4
3、确定用于做决策的拒绝域;
自由度为4.显著性水平位5%的决绝域。
根据卡方概率表,可得出拒绝域为卡方>9.49的范围
(卡方概率表,横轴代表显著性水平,竖轴代表自由度,交叉值即为临界值)
4、计算检验统计量卡方;
根据卡方的计算公式,可得出检验统计量为38.272
5、查看检验统计量是否位于拒绝域以内;
检验统计量在拒绝域以内(38.272> 9.49)
6、作出决策
所以假设是错误的,老虎机收益结果符合概率分布