验证两个重要结论
摘要:在统计学中,有这样一个规律,任何大量的统计数据都近 似符合正态分布规律,特别是数据的量越大,则越接近正 态分布,在此做一验证性实验来证明此结论。我们可以通 过调查某一类大量数据,然后进行分析处理,通过猜测以 及设计实验来验证此规律。在对中国1990年到2009年国
内生产总值的研究调查分析,然后通过对数据进行分组画出其相应频率分布直方图;通过直方图来验证其图像是否接近正态分布规律,同时由于数据中把第一、第二、第三产业总值分开处理和分析,从而以这些数据为样本。可验证另一有代表性的结论:在大量数据情况下,三个产业占总值比例相差不是很大。这里需用到《概率与统计》里的假设检验的相关知识及公式。
关键词:正态分布 样本数据 验证 直方图
假设检验
正文:
两个假设:(1)大量数据近似服从正态分布规律;
(2)从整体而言,国民生产总值的增长是必然趋势,劳动力首先从第一产业向第二产业移动;当人均国民收入进一步提高时,劳动力向第三产业移动。
既然是要进行验证性实验,那么必然需要一组数量相对比较大的数据。为了让数据来源更真实而有说服力,在中国统计网下载数据样本,并且为了更能说明和反映问题的本质,将第一二三产业分开处理,便于对照。现将统计数据公布如下
国内生产总值
年 份 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 国内生产总值 18667.8 21781.5 26923.5 35333.9 48197.9 60793.7 71176.6 78973.0 84402.3 89677.1 99214.6 109655.2 120332.7 135822.8 159878.3 184937.4 216314.4 265810.3 314045.4 340506.9 第一产业 5062.0 5342.2 5866.6 6963.8 9572.7 12135.8 14015.4 14441.9 14817.6 14770.0 14944.7 15781.3 16537.0 17381.7 21412.7 22420.0 24040.0 28627.0 33702.0 35226.0 第二产业 7717.4 9102.2 11699.5 16454.4 22445.4 28679.5 33835.0 37543.0 39004.2 41033.6 45555.9 49512.3 53896.8 62436.3 73904.3 87598.1 103719.5 125831.4 149003.4 157638.8 第三产业 5888.4 7337.1 9357.4 11915.7 16179.8 19978.5 23326.2 26988.1 30580.5 33873.4 38714.0 44361.6 49898.9 56004.7 64561.3 74919.3 88554.9 111351.9 131340.0 147642.1
首先要做的数据处理是将数据的频率直方图画出来,通过直方图的变化规律来反映数据的分布规律。通过Excel强大的数据处理及众多的公式,利用宏定义里面的直方图,可做出: 第一产业占总值的百分比分布频率
第二产业占总值的百分比分布频率直方图如下
第三产业占总值的百分比分布频率直方图如下
由这三个频率分布直方图不难看出:
三者均近似服从正态分布,从而验证了假设(1).
这样,我们可以把它们都当作理想正态模型进行近似处理。然后就可以求出第一二三产业的百分比平均值及方差了,利用Excel里的计算功能可分别求出,第一产业比例服从N(0.1647,0.0023)的正态分布,第二产业比例服从N(0.4591,0.00034)第三产业比例服从N(0.3760,0.0015).
再以这三个正态分布为基准,进行更全面而深入的分析与计算。接下来的重点任务是分析三个统计数据是否有差别,首先做的是简单的一种分析:
首先假设Ho:U第三产业比第二产业对总产值更有显著影响;
2
2
2
通过统计,我们可以用假设实验里的Ho单尾U检验法,已知第二产业P2=0.45,第三产业P3=0.37.可将样本合并,求出其合并后的概率为
P=(0.45+0.37)/20=0.041.这样可求得U=(0.45-0.37)/
0.45*0.55*(0.010.01)=0.6,而查表得U0.01=2.33>0.6,因而应否定假
设Ho,从而可验证在大量数据情况下,第二第三产业相差不大,
即假设(2)也成立。
我们已经求出第二产业所服从的正态分布为(0.4591,0.00034),为了验证随机抽样的数据的平均值是否有变化,我们可以做以下设计和计算:
在表中总体(以20个数据为总体)中抽取10个作为样本,为了保证数据的合理性与分散性,我们可以把数据排序尾数为2
2
的数据抽取出来(假设
:
=0.05)
0.4179 0.4179 0.4657 0.4754 0.4479 0.4734 0.4630 0.4621 0.4515 0.4737
不妨假设HO:
=0.4591,如果
Ho正确,则我们所取的样
2
本(X1,X2……X10)来自总体N(0.4591,0.00034),根据公式有:
U=(X-0.4591)/(0.00034/
10)~N(0,1)
对于给定的
=0.05,查正态分布表,可得临界值U0.025
=1.96,这就是说,事件(|U|〉1.96)是一个小概率事件。根据样本值算得X=0.44,代入统计量U,得:
|U|=|(0.44-0.4591)/(0.00034/
10)|=0.22
因为|U|=0.22<1.96,所以可认为小概率事件没有发生,从而应接受原假设HO,即认为在这随机10个样本中均值在检验
水平
即样本对整体而言保持着相对=0.05下没有显著变化,
一致性,或者说样本与整体服从同分布。而对于第三产业进行相同数据分析及处理,也可得出相同结论,在此不再赘述。
除了对整体的均值与方差进行比较外,为了更能说明一般性问题。我们可以随机抽取男女生各一组数据做对比分析,因为这样得出的结论比整体比较得出的结论更贴近事实,更具有说服力。
首先我们分别在男生与女生中各抽取一组等样本数据(将男女生尾数编号为4的抽取出来):
男生:24 35 42 52 56 61 65 71 73 82 女生:25 34 41 47 53 57 63 69 73 77
因为之前验证了在大量数据前提下,男女生的平均值与方差很接近,这样我们可以不妨作这样的假设:
Ho:随机抽取数据男女生的均值与方差相差不大。
在此条件下研究随机抽取的数据的男女生部分成绩数据来分析他们的成绩是否存在显著差异。 设男生服从的正态分布为X~(为Y~(以设
Ho:1=
2,
1,
1),女生服从的正态分布
2
2)由于是在大量数据下随机抽取的,我们可
2,且1=2
易算得男生和女生成绩的平均值与方差分别为:
1=56.1, 1=330.3 2=53.9,2=296.1
在随机抽取的男女生各一组的数据里,我们不难发现,它们的均值和方差与整体的均值和方差很接近。同样,我们对这随机抽取的每组男生与女生成绩的采用以上类似的分析,也可得出男女生成绩差别不明显的结论。
通过Excel里调用的计算公式,我们可以得出F-检测双样本方差的分析的数据图,如下:
F-检验 双样本方差分析 变量 1 变量 2 平均 56.95 54.83 方差 307.3813131 284.647576 观测值 100 100 df 99 99 F 1.07986626 P(F<=f) 单尾 0.351509092 F 单尾临界 1.394061258 继续对其进行t-检验的双样本等方差假设,也可以得出以
下数据图:
接着对其进行t-检验的双样本异方差假设也可以得到以下的数据表:
对这三个表格的数据进行分析与比较,同样也得出如前面一
样的结论,即能验证假设(2).
因篇幅问题不能全部显示,请点此查看更多更全内容