样本均值分布
信用卡是银行对个人资质进行审核后发放给个人的透支卡。A 银行所有信用卡客户的收入分布情况如图 8-6 所示,该图中的数据曲线以中位数和均值为基准,明显右偏,称为右偏分布。
信用卡客户的收入大部分集中在 7000 元左右,均值向左的一侧数据线条较短,是因为银行通常会拒绝低收入者的申请;均值向右的一侧数据线条较长且呈下降趋势,是因为随着收入的增高,用户对信用卡的依赖性会越来越低,同时,高收入者的数量占总体比例更小。
可是,这并不代表高收入人群不需要信用卡,月入 10 万元的人可能喜欢高端信用卡带来的尊贵感。每个银行发放信用卡的策略不同,如果有个银行特别喜欢发行高端信用卡,对于月收入 1 万元以下的客户审核非常严格,导致很少能通过申请,那么曲线应该是左偏的。
图 8-6 A 银行信用卡用户月平均收入水平分布
假设以 A 银行的全部信用卡用户为总体进行随机抽样,抽取 1000 个用户,计算得到样本均值 7100,样本中位数 8800,如图 8-7 所示。
图 8-7 从 A 银行信用卡用户中随机抽样得到的样本分布
从图 8-7 可见样本分布和总体分布的形状很相似,均值的变化幅度很小。由于每次抽样都有差别,如果多次抽样,每次抽样都是 1000 个用户,每次的分布都是既相似又不同,如图 8-8 所示。
图 8-8 多次抽样后不同样本的分布及均值
将图 8-8 中所有的实心圆点对应的值(样本均值)取出来,可以得到一个均值列表,该列表中有 6 个均值,如果次数足够多,抽取 m 次,那么就可以得到一个由 m 个值组成的样本均值列表,如图 8-9 所示。
图 8-9 m 次抽样得到的样本均值列表
统计学家证明,如果 m 的次数足够大,由 m 个均值得到的分布是一个正态分布。
由此可以得到中心极限定理:对于任意给定的分布,每次抽取 n 个样本,一共抽取 m 次,对 m 组样本数据分别求出均值,m 个均值的分布呈正态分布。
从 A 银行的例子中可以看到,总体的分布可以是任意分布(可以不是正态分布),这不影响样本均值的分布是正态分布。但是中心极限定理是否能发挥作用,极度依赖于样本量 n的大小。
假设样本量 n 分别为 2、3、10、30,并分别做出样本均值分布图,如图 8-10 所示。随着样本数 n的增大,样本均值分布曲线越来越接近正态分布。
中心极限定理的标准定义:
对一个均值为 µ 、标准差为δ的总体抽取样本量为 n 的随机样本,x 是样本平均数。
当抽样次数 n 足够大时,样本均值的抽样分布接近正态分布。经验认为,n ≥ 30 时样本量足够大。
图 8-10 样本均值分布曲线随着 n 的变化而变化
样本均值的抽样分布的均值等于 µ 。
样本均值抽样分布的标准差是 / n 。总体的方差是δ 2,样本均值的方差就是δ 2/n,将方差开方即得到标准差为 / n 。
样本均值分布的标准差也称为抽样误差。
表8-1标准差与标准误差的区别
术语
主体
表达式
标准差
总体分布
6
标准误差
样本均值分布
6 /n
样本分为大样本和小样本,通常认为样本量 n ≥ 30 时是大样本,n < 30 时是小样本。这是统计学的经验说法。在更复杂的计量经济学中,有时成百上千的样本量也算不上大样本,所以大小样本要看实际情况而定。
中心极限定理的应用
某银行服务商同时为多家银行服务,假设出现信息泄露事件,导致一万名银行信用卡客户的收入数据外泄。最初并不知道这些数据属于哪一家银行,所以每一个银行都在验证是否是自家客户,A 银行也是其中之一。
由于数据已经泄露,A 银行也可以拿到这批数据,所以 A 银行第一时间确定了该数据样本量,这批数据的客户数量是 10 000,客户收入均值是 12 800。A 银行同时也知道自己客户的收入均值为 7000,标准差为 1600。如果给 A 银行的所有客户进行样本量为 10 000 的随机抽样,样本均值抽样分布的均值是 7000,标准误差是 1600/ 10 000 =16。
假设这批客户是 A 银行的,那么其均值应该服从 A 银行的样本均值抽样分布,如图 8-11 所示。
图 8-11 A 银行样本均值抽样分布
样本均值的分布近似于正态分布,那么它也具备正态分布的所有特征,同样也适用 68-95-99.7 法则(请参阅 7.4.2 节)。从图 8-11 中可以看到,从均值向右 3 个标准误差的值是 7048,均值向左 3 个标准误差的值是 6952,均值在 7048和 6952 之间的概率是 99.7%,而这批数据的均值是 12 800,大于 7048,也就是说这批数据是 A 银行流出的可能性几乎为零。
中心极限定理是统计推断的基础,统计推断又是统计学的核心内容,只有真正理解了中心极限定理,才能灵活运用各种假设检验。
END