Archive for the ‘研究方法’ Category

样本多少人才足够?

星期四, 十月 8th, 2009

F君 @ 2007-08-18:

我在做一个***级的项目,其中要做一个受众调查,不知样本需要包括多少人才算有效?

庄主 @ 2007-08-26:

首先要澄清一对概念。“有效”如果指的是样本的“效度”或“准确性”(validity),那么它与样本量的大小无关、而与抽样方法(随机还是非随机)有关。样本量影响到的是样本的“信度”或“精确性”(reliability)。

为了说清其中的道理,请先耐心看完以下的抽样原理。样本的信度或精确性是用抽样误差(sampling error,简称se)来代表的,其计算公式为:

clip_image002   (公式1)

其中s是样本的某个关键变量的标准差、n是样本量、CCL是置信度系数(Coefficient of Confidence Level)。s我们事先是不知道的,一般都是假定为“两项分布”(如是否、对错等)中的平均状态,即50%是、50%否,于是s就可以简化成一个常数(50% x 50% = 25% = 0.25)。

而CCL也是一个约定俗成的常数,最常见的有1.96(即对应95%的置信度)或2.58(对应99%的置信度)。

这样,公式1可以简化成

  (公式2)

  (公式3)

公式2或3中只剩下两个变量(样本量n和抽样误差se)。它们之间的关系是一一对应的,即当n变大,se就变小(因为n在分母);或者倒过来说,如果想减小抽样误差(即使得调查结果更可靠或精确),就要扩大样本量。

如果在公式2或3中,每次以不同的n(如100、200、。。)代入,就可以画出如下的曲线:

上图揭示了一个重要的规律,即样本量和抽样误差之间不是线性关系、而是非线性的(因为涉及到根号)。当样本不大时,增加样本量对抽样误差的减少有很明显的作用,(如在95%的置信度下,n从100增加到200,se就从9.8%降到6.9%);但当样本变大后,增加样本量的作用变得越来越不明显(如n从1000增加到1100,se只从3.1%降到3.0%)。这是一种典型的边际效益递减现象。

好了,根据以上叙述,现在就容易找到你的答案了。如果想知道样本大小,需要先确定能够接受的最大抽样误差(一般为3-5%)和最低置信度(一般为95%)。如,当n=400,se=±5%;n=600, se=±4%;n=1000,se=±3%。这三种样本量(400、600、和1000)代表了在样本量(即成本和时间)与抽样误差(质量)之间的优化值,如果样本小于400,抽样误差就过大(大于±5%的意思是两个组之间如有10%的差别还达不到统计显著);而样本大于1000则出现明显的边际效益递减。

如何解读这个调查报告?

星期四, 八月 20th, 2009

ANY @ 2009-08-19:

今年XX单位做了一个YY方面的调查,报告出炉后争议很大。我呢,虽没参与争议之中,因专业之故,很是关注。就我个人意见,我非常不理研究者组使用RDD法抽取了647人来代表全体北京人口,给各媒体排名。我极其质疑它使用的抽样技术。我认为非概率抽样中的配额抽样可能更适合做这个调查。

庄主 @ 2009-08-20 答: 我没看到那个报告。请进一步说明清楚,你质疑的是样本量太小、还是RDD(随机电话号码抽样)原则、或者其它问题?

你建议用配额抽样,我可以肯定地说配额抽样一定不适合。

ANY问:

我首先质疑的是调查组的抽样方法。我和研究者联系,希望得到更多细节,比如是随机拨号法,还是集群拨号法,但无法得到。 刚巧收到了回复,说:“抽样方法采用的是RDD,先通过不等概抽样(pps)确定前面四位局号,后面四位是随机选号(北京电话号码是8位),抽样是座机。”在此之前的争议中,有人怀疑的是647个样本来代表2000多万北京人的代表性。

庄主答:

你的怀疑和批判精神值得提倡。当然,如果对抽样基本原理有比较清楚的理解,则可以避免在怀疑和批判时犯常识性错误。

第一、样本大小涉及的是调查结果的精确度问题、而与代表性无关。样本越大、结果越精确,反之亦然。精确度有公式可以计算,即抽样误差。当N = 647而可信度 = 95%时,抽样误差 = ±3.8%。这个精确度是否足够?答案取决于具体的研究问题。如果被排序的两个媒体之间相差8%或更大,那么它们的高低是可靠的;反之则不然。

第二、抽样误差与总体大小无关。所以无论北京人口是2千万还是2亿,样本为647的抽样误差大小是不变的。

第三、样本的代表性取决于抽样是否随机、而与样本大小无关。如果一个非随机样本N=10000,虽然其抽样误差 < ±1.0%,但仍然没有代表性。一个没有代表性的大样本比一个精确度低的小样本更无价值。

ANY问:如果是抽取座机号码的话,我现在也高度怀疑样本的代表性。因为有很多在北京的人,终其一生不用座机。据经验推测的话,许多有北京户口的人也不见得使用座机。而上一次人口普查是把大量北漂计入了北京人口的。把大量无座机电话的人排除在总体之外,这意味着什么呢?而这是为什么我觉得配额抽样更好的缘故。

庄主答:

同意。如果上述调查的RDD是严格执行的话,那么其代表的是北京有座机的家庭人口。也就是说,该调查的Study Population(研究总体)是北京有座机的家庭人口、而不是北京所有家庭人口。研究者在报告时应该说明这一点。当然,研究总体限于“北京有座机的家庭人口”的一个调查是否有价值,即取决于其与北京所有家庭人口之比(你知道到底有多少人被排除之外的吗?)、也取决于研究目的。如果有关媒体(或广告商)更关心有座机家庭人口,那么也是无可非议的。商业调查毕竟不是民意测量。

配额抽样不是随机抽样,调查结果毫无价值。现在考考你:为什么配额不是随机抽样?

ANY问:

研究者用盖洛普1932年用1000个样本代表美国人预测了总统选举来证明其647人样本有代表性。我觉得这是个外行的支持。

庄主答:

你觉得我上面的回答是否已经解决了这个问题?如无,我再啰嗦几句。

ANY问:

问卷是看不到的。我个人看法,即使是RDD法,考虑分众化和个人媒介使用的多样性,问卷设计应当是一套很复杂的问卷。

庄主答:

抽样、问卷设计和调查(即问答过程)代表了每项调查的三个主要误差来源:抽样误差、工具误差和测量误差。每一项都要小心处理,并应在报告(或技术附件中)详细透露。如抽样方法、问卷原文、调查过程(尤其是最后一步的个人是如何被抽取的),以便读者对其研究结果的质量作出自己的判断。

ANY问:

我的问题纯出于专业上的兴趣。我非常想弄清楚这个问题。再次感谢您!

庄主答:

我是出于同样的原因而回答你的问题。

不要做Modification Indices的奴隶!

星期日, 五月 10th, 2009

Erin @ 2009-05-07:

有时在Lisrel的out文件中,有条message说“No Non-zero Modification Indices for PHI”,有时得到“No Non-zero Modification Indices for Lambda-x”或“No Non-zero Modification Indices for Lambda-y”。没有给出MI是因为什么?是因对相应的矩阵的设定么?

庄主 @ 2009-05-11:

理解这个问题的关键是弄懂Modification Indices (MI,修正指数) 到底是个什么东西,如它从何而来、说明什么、如何解读、等等?

简单说来,MI是将你现有模型的拟合度(Chi-squares)与如果你对某一没有被估计的参数(即fixed parameter,如PHI、Lambda等)作出估计(即改成free parameter)后模型的拟合度之间作比较的差别,其值也是一个Chi-squares值。(这句话也许用英文来表达更容易理解:A modification index tells the difference in the goodness-of-fit (as measured in Chi-squares) between an existing model and a modified model in which a fixed parameter (such as PHI or Lambda) is free to be estimate.)

image

左图是一个范例。假定你根据理论而设置了一个含X、Y和Z三个隐含因子的测量模型,其中X是观测变量X1-X3的来源、Y是观察变量Y1-Y3的来源、Z是观测变量Z1-Z3的来源,而三个因子之间容许存在一定的相关程度(注意X、Y和Z之间的双向箭头)。你在LISREL或AMOS里,用该模型对某数据做了拟合,发现其拟合度为显著(即模型与数据有显著差别)。为了改进模型的拟合度,你查看了LISREL或AMOS给出的MI结果,看到上述的“No Non-zero Modification Indices for PHI”,但是在 Modification Indices for LAMBDA-X(以下简称LMI)和Modification Indices for THETA-DELTA(以下简称TDMI)中,各有一组数值。比如,LMI中最大的是Lambday1X = 10.555、TDMI中最大的是Deltz2z3 = 12.222,其次是Thetax3z1 = 8.333。它们分别说明,如果你将Y1加到因子X上去,修正后的模型的Chi-squares会减去10.555;或者如果你在Z2和Z3的残差项之间建立相关关系,新模型的Chi-squares会减去12.222;或者如果你容许X3和Z1的残差项之间相关,新模型的Chi-squares会减去8.333。(注意:如果你同时做两项或三项修正,新模型的Chi-squares不一定会减少10.555+12.222+8.333之和那么多。)我们知道,在一个自由度的条件下,Chi-squares的显著性临界值为3.84,也就是说,如果一个MI的值大于4,就值得注意了。

那么,为什么LISREL或AMOS有时会“罢工”,不报告MI呢?简单说来有两种情况:一是你的“所有可估计参数”(all estimable parameter)已被全部用完。注意,这里的“所有可估计参数”不等于“所有参数”。如上例的理论模型共有45个自由度(如果你不能一眼看出来,说明还得看点书再来玩SEM),其中估计了21个参数(如果你连这个也看不出来,那就麻烦了),还有24个自由度,也就是说还可以估计24个参数。但是,在PHI矩阵(外生因子的方差-协方差,详见“LISREL的八个矩阵”)中已经没有可用的参数了,因为X、Y、Z三者之间的三对相关关系已经用尽了其所有的信息。所以,如上所述,LISREL或AMOS已经发了No Non-zero Modification Indices for PHI的“罢工通知”。事实上,除了PHI之外,结构模型的其它参数(other parameters of structural model),如GAMMA(外生因子对内生因子的影响)、BETA(内生因子对内生因子的影响)、PSI(内生因子的方差-协方差)等,也经常没有MI,因为它们多半已按理论模型的假定而被用尽。说到底,结构模型参数是绝大多数研究的最终目的,谁会将它们闲置在一边,等到看过MI之后再做决定是否进行估价?(我还会回到这一点的。)

但是,测量模型的参数(parameters of measurement model)还有大量闲置的参数。如本例中的LAMBDA矩阵中,还有18个可被估计的参数(包括X对Y1-Y3、X对Z1-Z3、Y对X1-X3、Y对Z1-Z3、Z对X1-X3、Z对Y1-Y3),THETA-DELTA中则有更多(36个)参数可以被估计。 当然,你不可能将它们(总共54个)穷尽,因为你只有24个自由度。你甚至不应该将自由度全部用掉(见后面的讨论)。这里先回答一下,为什么LISREL或AMOS有时不提供其中某些参数的MI?这是没有MI的两种可能之二,即你的原始模型虽然拟合得不太好、但相比任何一种其它的修正模型来说,它的拟合度是最好的,这往往是观测变量之间缺乏任何关系造成的。当然,这种情况较罕见,尤其是你的模型有两个或以上隐含因子时,总会有某个没被估计的测量模型参数可以修正的吧?总之,一切从自由度出发,做任何事前先看看你还有多少自由度?这些自由度存放在哪个矩阵里?

总之,如果LISREL或AMOS没有提供某一参数或某一矩阵(某类参数的的集合)的MI,说明该个或该组参数或者无法估计(结构性的问题)或被估计之后并不能给现有模型带来任何改进(实证性的问题)。由此看来,MI是个不错的工具,它可以帮助我们找到改进模型拟合度的“捷径”。但是,盲目使用MI,也会造成很多错觉或谬误。在我看来,不知情者对MI的误用和知情者对MI的滥用,是SEM应用中的一个主用问题。何谓“误用”、何谓“滥用”?我无意写篇论文来讨论,仅以上图中的三条虚线为例,说一下我的看法。

1、一般情况下,不要碰LAMBDA,即不要仅仅根据MI而增添cross-factor loading(跨因子负荷?),如上图中根据Lambday1X 的值而将Y1挂到X上去。估计跨因子负荷是EFA的做法,也是EFA为人诟病的一大原因。Y和X可以相关(如图中已做到了)。但是,如果再将Y1连到X上去,确实可以改进模型的拟合度,但同时牺牲了Y(以及X)因子的效度,得不偿失。也许有人说,我的理论要求Y1同时受X和Y的影响,怎么办?记住:everything is related to everything的理论一般不是好理论。

2、在任何情况下,绝对不要碰DELTA(或EPS),即不要在一个因子内部的各变量之间增添correlated errors within a factor ,如上图中的Deltz2z3 ,不管其值有多少,也不能将其释放出来估计。一个因子中的各变量之间的相关部分,已经充分反映在它们在该因子的负荷之上,如果再将各变量的残差连起来,说明该因子之内还有因子,这在理论上是说不通的。当然,如果一个因子下各变量之间出现很大的MI值,说明这个因子模型有问题,也是该因子不是unidimensional的、也许是某变量有异常值(或者严重偏离正态分布)、等等。这些问题,需要通过清理数据或调整模型、而不是简单的在因子内变量残差建立相关关系。

3、在一定条件下,可以考虑估计THETA中correlated errors between corresponding observed variables cross factors(跨因子对应变量残差之间的相关系数),如在上图中的Thetax3z1 。这里的“一定条件下”的“对应变量”,往往指不同因子之间的两(或多)个变量之间是采用相同的测量方法(如问卷中相同的提问及回答)、或者同一变量在不同时间点上的测量值、等等。这时,建立其残差的相关关系,就相当于在各因子之间建立一个测量方法之共同因子(或者为MMMT模型的做法)。

总之,正确使用MI的关键,取决于我们的目的是什么?是为了提高模型的拟合度以便能够发表、还是为了改进模型的结构参数以降低Type II误差?如果仅是为了前者,即使能够蒙过审稿人、也无法混过所有读者的仔细阅读。而如果为了后者,那么我开始时的叙述其实已经暗示了,MI对结构参数往往没有什么帮助。