样本方差证明(精选15篇)
篇1:样本方差证明
一弛,你好!
样本方差有2种表达方式:
S2
n1n(Xi)2-----(1)ni1
1n
Sn1(Xi)2-----(2)n1i12
从理论上说这2种定义都是可行的,现实生活中更经常使用方程(2),是因为方程(2)是总体方差真实值2的无偏估计量,而(1)是有偏估计量。无偏性在应用中非常重要,估计量只有无偏才能保证在样本数目足够大时无限趋近于真实值,估计才有意义。证明方程(2)的无偏性如下,思路是对估计量求期望,看是否等于总体方差:
n1E(Sn1)E[(Xi)2]n1i1
n1E{[(Xi)()]2}n1i1
nn12E{[(Xi)2(Xi)()n()2}n1i1i12
n1{E(Xi)22nE()2nE()2}n1i1
n1{E(Xi)2nE()2}n1i1
212{nn()}n1n
2
证毕。
如果有问题,可随时联系我。
祝好!
陈谢晟
篇2:样本方差证明
设总体为X,抽取n个i.i.d.的样本X1,X2,...,Xn,其样本均值为
Y =(X1+X2+...+Xn)/n
其样本方差为
S =((Y-X1)^2 +(Y-X2)^2 +...+(Y-Xn)^2)/(n-1)
为了记号方便,我们只看S的分子部分,设为A
则 E A =E(n * Y^2n * Y^2)
注意 EX1 = EX2 =...= EXn = EY = EX;
VarX1 = VarX2 =...= VarXn = VarX = E(X^2)n *(VarY +(EY)^2)
= n(VarX +(EX)^2)-n *(VarX/n +(EX)^2)
=(n-1)VarX
篇3:样本方差证明
1 分析工具库的安装
Excel一般并不直接带着“分析工具库”这一模块, 需要在Excel的基础上自行安装。安装步骤:Excel的工具—加载宏—分析工具库—确定。
2 双样本等方差数据资料的t检验
一般很难从数据资料上确定2个样本的方差是否相等, 需要对其做方差的齐性检验来判断。下面以果蝇的TPI酶活性为例, 阐述双样本异方差的t检验过程。
2.1 数据资料的建立
为了比较果蝇中TPI酶活性在p H=5和p H=8时是否有区别, 将10只果蝇随机分为2组, 一组测定在p H=5下的TPI酶活性, 另一组测定在p H=8下的TPI酶活性, 问这2种p H值下的平均TPI活性是否有显著差异[7]。首先在Excel中把分组的名称“p H=5”和“p H=8”分别填入每一列的最上方, 然后在“p H=5”和“p H=8”下方录入其果蝇的TPI酶活性数据资料, 具体如图1所示。
2.2 t检验分析
因为在本数据资料里, 没有提到2个总体方差相等还是不相等, 因此有必要先对数据资料进行方差齐性检验。在Excel中, 选择工具—数据分析—F检验—双样本方差, 点击确定进行分析, 在本例题中P (F≤f) 单尾<0.05, 则2个总体方差是差异显著的。因此, 对2个样本的平均数比较应该用采用双样本异方差的t检验。在Excel中:工具—数据分析—双样本异方差假设, 然后会出现对话框如图2所示。输入区域:变量1的区和变量2的区域, 就选择“p H=5”和“p H=8”原始数据区域。在“假设平均差”填写0, 表示是原假设认为这2个样本的总体平均数相等。“标志”前根据需求可以打“√”也可以不打“√”, 如果在变量1的区和变量2的区域选择原始数据的时候把列上方的名字也选上了, 此时就在“标志”打“√”, 反之则在“标志”不打“√”。输出选项:输出区域处选一Excel空白处, 单击确定按钮。
2.3 结果分析
结果部分如图3所示, “t Stat”Excel计算出的t值, 图3的最下方4项分别是单尾检验和双尾检验的结果, 可以依据题意来选择哪个结果, 一般情况是双尾检验。结果分析可以有以下2种途径: (1) 可以根据P (T≤t) 双尾的显著性概率直接判定, 即0.01<P (T≤t) =0.010 145 297<0.05, 因此2种p H值下的平均TPI活性有显著差异 (P<0.05) 。 (2) 也可以根据“t Stat”与t双尾临界值的比较来判断, 即有|t Stat|, 因此2种p H值下的平均TPI活性有显著差异 (P<0.05) , 两者的结论是相同的。
3 结语
本文主要介绍的是如何利用Excel对双样本异方差的数据资料进行t检验, 在其t检验过程中一定注意总体方差不等的情况下才可以用双样本异方差的t检验模块, 如果方差相等的情况选用其他模块。在结果分析部分有2种依据可以判定结果, 利用显著性概率P (T≤t) 来判定结果更为简单一些, P (T≤t) <0.01表示差异极显著, 0.05<P (T≤t) <0.01表示差异显著, P (T≤t) >0.05表示差异不显著。如果根据“t Stat”与t双尾临界值来判断结果, 需要在图2中将显著水准“α=0.05”和“α=0.01”设定2次, 输出2次的结果才可以确定最终的结果, 因此根据“t Stat”与t双尾临界值来判断结果相对烦琐一些。
参考文献
[1]白俊艳, 徐廷生, 张小辉.《生物统计附试验设计》上机实验改革与实践[J].教育教学论坛, 2015 (18) :247-248.
[2]白俊艳, 贾小平, 张小辉, 等.生物统计学课程改革与实践[J].畜牧与饲料科学, 2013, 34 (10) :57-58.
[3]白俊艳, 武晓红, 张小辉, 等.生物统计附试验设计课程考核方式的改革与实践[J].安徽农业科学, 2015, 43 (5) :369-370.
[4]秦立金.SPSS统计软件在生物统计课程中的探索研究[J].赤峰学院学报 (自然科学版) , 2014, 30 (3) :198-199.
[5]韦若勋.生物统计学上机实验课中Excel互动教学方式的应用[J].高等教育, 2013 (8) :185-186.
[6]黄中文, 张丹.生物统计与SAS教学中大学生自主学习能力的培养[J].新乡学院学报 (社会科学版) , 2013, 27 (5) :140-142.
篇4:复杂样本的方差估计
对复杂样本按照理论直接推导出方差估计一则十分困难,二则从节约费用和时间的角度考虑代价也很大。通常采用的替代方法主要有随机组法、平衡半样本方法、刀切法和自助法等。本文研究采用基于逆抽样设计的方法对复杂样本进行方差估计,并将该方法与传统方法进行比较,探讨其适用条件。
二、逆抽样设计方法简介
逆抽样设计(Inverse Sampling Design,简称ISD方法)的思想由Hinkins等提出,Rao等研究了该方法的一些理论性质。该方法的基本思想是,通过选择一个抽样机制,对调查得到的复杂样本进行二次抽样。二次抽样机制的设计抵消了初始复杂样本中的分层、整群抽样等效应,使得按照该抽样机制抽选出来的子样本具有简单随机样本结构,后续分析基于这些具有简单随机样本结构的子样本进行。下图为该方法的流程示意图:
用数学符号来表示,假设进行某项调查,按照某种复杂抽样设计从一有限总体中抽出了一个大小为n的初始样本Sp,其中下标p(primary)表示初始样本。现希望从Sp中抽出一个大小为n'的子样本s',使得s'被抽中的无条件概率p(s')和简单随机抽样匹配,也即
由于抽取子样本s'是一个两步的过程,由全概率公式,有
其中,p(sp)为初始样本sp被抽中的概率,为sp已被抽选出来的前提下,s'被抽中的条件概率。
如果不依赖于sp,则由(1)式,有
(2)式即为从初始样本sp中选择s'的抽样机制。
逆抽样设计方法包括了如下基本的三个步骤:
(1)逆掉初始样本的复杂抽样设计,使得能够产生具有简单随机样本结构的子样本;
(2)重复执行逆抽样设计,以产生多个这样的子样本;
(3)基于每一个子样本数据进行分析,最后再以适当的方式进行合并。
三、逆抽样设计方法下的估计量构造
假设总体目标参数为θ,基于某复杂抽样设计p(sp),调查得到一个复杂样本sp。若存在对应于该复杂抽样设计p(sp) 的逆抽样设计,并将该逆抽样设计独立地重复执行B次,得到了B个具有简单随机样本结构的子样本(=1,2,⋯,B)。令和表示由第个子样本得到的总体参数估计和该估计量的方差估计,则θ的估计可构造为
如果是θ的无偏估计,那么也同样会是θ的无偏估计。
将基于初始复杂样本Sp的总体参数θ的估计记为,则的方差估计可构造为:
由(4)式,如果无偏,则也是无偏的。
四、与传统方法的比较研究
作为一种新的复杂样本方差估计方法,与现有方法相比较有哪些特征?本文用一个基于实际调查数据的模拟,对这些问题进行分析。
(一)数据说明
模拟分析的数据取自2007中国公民科学素质调查,为全国数据。中国公民科学素质调查是通过全国性的抽样调查,来了解分析我国18—69周岁的公民对科学的理解和对科学技术的态度等与公民科学素质相关问题的状况。调查的核心指标是中国公民在科学术语、科学观点、科学方法和科学与社会关系四个方面的具备比例和对应的得分。在对这四个方面的具备比例和对应的得分进行适当加权之后,得到一个总的科学素质具备比例和得分。调查的总样本量是10080,通过对出现单元无回答的问卷进行删除处理,最终得到的有效问卷共10059份。
以该数据集作为模拟总体,将各省份数据按照东、中、西部地区划分成三层,东、中、西部的划分情况如下:东部地区包括北京、天津、河北、辽宁、上海、江苏、浙江、福建、山东、广东、广西、海南12个省、自治区、直辖市;中部地区包括山西、内蒙古、吉林、黑龙江、安徽、江西、河南、湖北、湖南9个省、自治区;西部地区包括重庆、四川、贵州、云南、西藏、陕西、甘肃、宁夏、青海、新疆10个省、自治区。将这三层以按比例分配的方式从这个模拟总体中抽出5%的样本。关注的指标有两个,一个是总体均值,为科学素质指数的总平均得分,用来表示;另一个是总体比率,为科学方法项平均得分与总平均得分之比,用来表示,其中为科学素质指数科学方法项的平均得分。模拟总体的层结构及各层抽取的样本量等信息如表1所示:
(二)抽样方法的逆设计
由于采用分层抽样从模拟总体中抽取了一个初始样本,由逆抽样设计方法的三个步骤,首先需要逆掉产生初始样本的分层抽样设计。
对于本例,
Nh和nh分别表示第h层中的总体和样本单元数,h=1,2,3。我们的目的是要从sp中抽取一个大小为n'的子样本s',使得,其中。显然,n'不能大于min(nh),因为子样本s'可能会全部来自于h层中的某一层。令n=(,,)T表示子样本s'中各层的样本单元数,其中0≤≤n',,则由(2)式,有:观察(5)式背后的概率机制,得出所采用的分层抽样方法的逆设计步骤如下:
(1)决定所要抽取的子样本大小n',n'最大不能超过min(nh);
(2)从超几何分布中产生3个随机数{,,},其中++=n',且,,≥0;
(3)在第h层内,从nh个初始样本中以不放回简单随机抽样的方式抽出一个大小为的子样本,各层之间的抽取相互独立;
(4)合并从各层中抽得的子样本。如此便从初始样本sp中抽得了一个大小为n'、完全意义上的简单随机样本,从而实现了初始抽样的逆设计。
(三)对应的ISD估计量
设将上述分层抽样的逆设计独立地重复执行了B次,得到了B个大小为n'的子样本(=1,2,⋯,B)。则总体均值的ISD估计为
的方差估计为
其中,和分别表示抽出的第个子样本中X的均值和方差。
总体比率R的ISD估计为
的方差估计为
其中,和的定义如前所述,和分别表示第个子样本中Y的均值和方差,则表示第个子样本中X和Y的协方差。
(四)模拟比较
从四个方面将逆抽样设计方法与传统复杂样本的方差估计方法进行对比:精度、灵活性、管理因素和泄密控制。对比的方法有:随机组法(Random Group)、刀切法(Jackkinfe)和自助法(Bootstrap)。实际中泰勒级数法和平衡半样本方法也有广泛的应用,但泰勒级数法本身并不能单独使用,需要结合其它方法;而平衡半样本方法则最常用于分层的、每层抽两个单元的设计,这与本文模拟分析所采用的抽样设计并不一致,因而这里没有将泰勒级数和平衡半样本方法纳入比较范围。
1.精度
从模拟总体中抽出大小为503的样本,基于此样本,用不同方法对研究变量进行方差估计。为了更好地对不同方法的效果进行对比,尽量避免由于抽样的随机性造成的影响,进行100次独立重复抽取,最后将结果进行平均。
对于逆抽样设计方法,抽取的子样本大小n'定为min(nh)=133,子样本的抽取个数B定为1000;对于随机组法和刀切法,需要进行随机组的划分,随机组的个数定为20,每层中随机组的大小分别为11、7和6;对于自助法,采用Rao和Wu给出的方法,从每层中有放回地抽取容量为nh-1的简单随机样本,抽取次数和逆抽样设计方法一样,定为1000次。主要以偏倚作为精度的度量标准,表2列出了模拟分析的结果:
由表2中的结果,对于均值、比率的估计以及均值估计的方差估计,逆抽样设计方法都取得了比较好的效果。对于比率估计的方差估计,四种方法中逆抽样设计方法的偏倚最大。原因可能在于,消除比率估计的偏倚通常需要较大的样本量,而采用逆抽样设计方法,通常只能抽取相比初始样本小得多的子样本。
2.灵活性
灵活性可以从两个方面来考察。从适用的估计量来看,逆抽样设计方法和随机组、自助法一样,几乎适用于任何估计量。刀切法则不适用于如分位数等的一些统计量。从适用的抽样设计来看,逆抽样设计方法有其局限性。原因在于,一方面,对于部分抽样设计,精确的逆抽样设计不存在,而只能采用近似的方法;另一方面,逆抽样设计方法目前尚不适用于对数据进行了加权调整的情形。而其它三种方法则适用于几乎任何抽样设计,同时也适用于加权调整后的情形。
3.管理因素
管理因素主要体现在费用、时间和操作的简便性等方面。随机组和自助法的处理费用都相对较低,因为对这两种方法都有现成的软件可用,而刀切法和逆抽样设计方法则需要编制相应的软件程序。逆抽样设计方法和自助法由于需要重复抽取子样本,计算量较大,耗费的时间也比较长。以本次模拟分析为例,执行随机组法和刀切法所对应的计算机程序,所耗费的CPU时间不相上下,而逆抽样设计方法和自助法所耗费的CPU时间则分别是随机组法的11倍和32倍。从操作的简便性来看,逆抽样设计方法则优于随机组、刀切法和自助法。
4.泄密控制
采用逆抽样设计方法则能有效地控制数据的归属泄密的问题。由(4)式,用逆抽样设计的方法估计方差,不需要利用抽样权重、层、群标识等信息,因而在一些涉及受访者隐私数据的调查中,逆抽样设计方法可能是一种行之有效的方差估计方法。
五、总结
对复杂样本进行方差估计,通常采用的是随机组、刀切法等方法,本文提出将逆抽样设计方法应用于复杂样本的方差估计。模拟分析的结果表明,ISD估计具有较好的收敛性,且对于线性总体参数的估计和方差估计,逆抽样设计方法的效果都较为理想。
通过将逆抽样设计方法与传统方差估计方法进行多角度比较,本文也探讨了该方法的适用条件。对比分析的结果表明,逆抽样设计方法在灵活性、操作的简便性和数据的泄密控制等方面特点突出,有其可取之处。实际中,可权衡精度、费用、灵活性等诸多因素,有针对性地设计抽样调查方案,以便采用逆抽样设计方法进行方差估计。
■ 参考文献
1.Susan Hinkins, H. Lock Oh and Fritz Scheuren. Inverse Sampling Design Algorithms[J]. Survey Methodology, 1997, 23(1): 11-21.
2.J.N.K. Rao, A.J. Scott and E. Benhin. Undoing Complex Survey Data Structures: Some Theory and Applications of Inverse Sampling[J]. Survey Methodology, 2003, 29(2): 107-128.
3.J.N.K. Rao, C.F.J. Wu. Resampling Inference With Complex Survey Data[J]. Journal of the American Statistical Association, 1988, 83(401): 231-241.
4.倪加勋。调查概论[M]。北京:中国财政经济出版社。2004:253-258。
篇5:样本方差证明
姜堰市励才实验学校姜近芳
组合数有很多奇妙的性质,笔者试用这些性质证明了随机变量的均值与方差的两组计算公式。
预备知识: 1.kCnkn1!nCk1 kn!nn1k1!nk!k!nk!
k1k1k1k1k2k2.k2Cn=nkCn1nCn1nk1Cn1=nCn1nn1Cn2
3.N个球中有M个红色的,其余均为白色的,从中取出n个球,不同的取法有: 0n1n12n2lnlnn,M.CMCNMCMCNMCMCNMCMCNMCNlmin
公式证明:
1.X~Bn,p1EXnp.2VXnp1p.证明:EXx1p1x2p2x3p3xnpn
0010Cnp1pCnp1pn
0nCn1p1pn1222Cnp1pn2n2nnnCnp n112Cn1p1pn1nCn1p
np1pp
np.n1
VXx1p1x2p2xnpn 222
x1p1x2p2x3p3xnpn
2x1p1x2p2x3p3xnpn
22222p1p2p3pn
n12222Cnp1p
n1n2nnn2Cnp222 n1n1 Cn1p
n3n2n2Cn2 2p1Cnp1p0npCn1p11Cn1p1pn2n20nn1p2Cn1p21Cn1p2p
np1pp
np1p.n1nn1p21ppn2n2p2
2.X~Hn,M,N1EX =nMnMNMNn.2VX.NN2N1证明:EXx1p1x2p2x3p3xnpnlminn,M10n1n12n2lnl0CCCC2CClCCMNMMNMMNMMNM nCN
M0n11n2l1nlCCCCCCM1NMM1NMM1NM nCN
=Mn1CN1 nCNnM.N
222VXx1p1x2p2xnpn
2222x1p1x2p2x3p3xnpn
2x1p1x2p2x3p3xnpn
2p1p2p3pn
120n21n122n22lnl20CC1CC2CClCC MNMMNMMNMMNMnCN
=10n11n2l1nl〔MCM1CNMCM1CNMCM1CNM nCN
MM1CM2CNMCM2CNMCM2CNM〕 0n21n3l2nl2
1nMn1n2nMCNMM1C 1N2NCN2
nMnn1nMMM1 NNN1N2
篇6:收入证明样本资产证明
____________信用卡中心:
兹证明_________(身份证号)为本单位职工,已连续在我单位工作______年,学历为毕业,目前其在我单位担任____________职业。近一年内该职工在我单位平均月收入(税后)为___________元,(大写:____万____仟____佰____拾____元整)。该职工身体状况____(良好、差)。
本单位谨此承诺上述证明是正确、真实的,如因上述证明与事实不符导致贵行经济损失,本单位保证承担赔偿等一切法律责任。
特此证明。
单位公章
年月日
单位名称:______________________________
单位地址:______________________________
单位电话:______________________________
经 办 人:______________________________
职业、收入证明 ____________信用卡中心:
兹有同志,性别,身份证号码(军官证,护照)号码:,自年月日至今一直在我单位工作,与我单位签订了劳动合同,合同期限为。目前在部门担任职务,税后月工资、薪金所得为人民币___________元,(大写:____万____仟____佰____拾____元整)。
特此证明。
单位公章(或人事劳资章)
年月日
1、单位名称:
2、单位地址:
3、联系电话:邮政编码:
篇7:户口迁入证明样本
县公安局:
兹有我乡——村户主——,其儿子与——乡——村户主的女儿——于——年—月—结婚,现要求——乡——村户主的女儿——的户口迁入到兹有我乡——村户主——的户口中,请县公安局批准户口迁入。
特此证明!
——乡政府
篇8:利用方差公式证明不等式
已知x+y+z=a,求证:x2+y2+z2 ≥a2.
设x2+y2+z2=w,则由方差公式可得x,y,z的方差为s2 =·x-2+y-2+z-2=·(x2+y2+z2)-(x+y+z)+=·w-. 因为s2≥0,所以w-≥0. 所以w≥a2,即x2+y2+z2≥a2.
已知a,b,c,d,e为实数,且a+b+c+d+e=8,a2+b2+c2+d2+e2=16,求证:0≤e≤.
令==,则a,b,c,d的方差为s2=
a2+b2+c2+d2+-(a+b+c+d)=16-e2+-
=16-e2-.
由s2≥0得16-e2-≥0,即16-e2-≥0,由此可求得0≤e≤.
证明:若a1,a2,…,an为任意实数,则≤.
令=,则s2=a-2+a-2+…+a-2≥0,即a21+a22+…+a2n≥2a+a+…+a-n2,所以a21+a22+…+a2n≥. 所以≤.
设c为直角三角形的斜边,a,b为两直角边. 求证:a+b≤c.
因为a2+b2=c2,所以a,b的方差s2 =a-+b-=a2+b2-(a+b)2=·c2-(a+b)2. 因为s2≥0,所以c2-·(a+b)2≥0,而a,b,c均为正数,所以2c2≥(a+b)2,所以a+b≤c.
篇9:工作年限证明样本
明
兹证明:
同志在本单位从事
工作,累计工作年限
年。
工作单位: 姓名: 学历: 身份证号码:
特此证明
单位盖章:
篇10:付款证明-样本
致花东地方税务局:
兹有我公司委托广州市耀程锦商贸有限公司代理货物进口报关业
务,代理费为:人民币 叁佰伍拾元整(¥ 350元),望税务局开具发票为盼!
特此证明!
(单位盖章)多盟施珠宝(深圳)有限公司
篇11:单位工作证明样本
兹有我单位(同志)(身份证号:_____________________)在___________________部门,从事____________________工作已有___________年,特此证明.单位名称:_______好范文____________
日 期:_____________________
篇12:在职证明样本
兹证明XX 性别:X,出生年月日XX年XX月XX日,护照号码:XX,身份证号码:XX。为本单位员工,自XX年至今在我单位工作,任职为XX。工资、年薪XX元。
特此证明!
XXXXXXXXXX公司
XXX部
篇13:医院接收证明样本
四川省南充卫生学校:
我院同意接收贵校年级自主联系到我院进行临床实习。实习时间年月日至年月日共计8.5 个月。我院已与学生商定实习期间的实习费用和一切安全责任自负,食宿自理。
特此证明。
医院实习管理科室(签章)科室联系电话:
篇14:大学在校证明(样本)
兹证明
同学,性别,年 月 日出生,该生于 年 月在我校 学院 系 班学习,学号:,身份证号:,为在读大学生。
特此证明
省
学校地址:
联系电话:
大学 学院学院(盖章)
篇15:在职证明新样本
兹证明李桂芹,女,一九五四年四月二十日生,从一九九六年三月来我集团工作至今,现任会计一职(要有具体的职务,不能只写职员),月薪3000元。
特此证明!
主管签名:
主管联系电话:
单位盖章
2004年3月31日
地址:郑州市农业路19号益华大厦电话:5724736