感谢里仁学院的那位同学,尽管我忘了问他的名字。但他在所谓的xx方面保持的清醒头脑让我敬佩。思维的过程就是需要细心,任何想当然,任何盲从都是纰漏的诱因。
为了证明PPS的实质是随机抽样,有如下的假设和证明过程。
假设需要从A个规模不同的群中抽取a个群,每个群的规模为Nx。然后从选中的群中分别抽出b个单位,样本规模为n=ab。总体规模为N。
在{dy}步抽取群的时候,按照教材介绍的过程,第x个群在{dy}阶段被抽取的概率为aNx/N。然后,通过推导可以得知,对于总体中的任意单位,无论它属于哪个群,被抽中的概率都是常数。
问题就出在这个aNx/N上。
群被抽中的概率为什么是这个表达方式,我{dy}次看的时候也有些困惑。不过很快就跟着作者的思路去了。既然PPS的特点是“概率与规模成比例”,N是既定的,Nx越大,Nx/N就越大,那么Nx/N当然就体现了“根据群规模大小来确定被抽中的概率”这个事实的了。而且又不是只抽一个群,是a个,因此我给学生的解释是:每个群都有a次的机会被抽中,所以前面要乘以a。
这种证明思路忽略了一个重要的事实:PPS是不放回抽样。换句话说,只有在放回抽样的情况下,才可以把第x个群在{dy}阶段被抽取的概率确定为aNx/N。假如某个规模为Nx的群在{dy}次没有被抽中,它还有a-1次机会,因为我们会把它再次放入抽样总体中去。但实际上我们只是一次从A个规模不同的群中抽取a个群,这显然是不放回抽样的做法。
然后我就再也找不到办法来证明PPS是等概率抽样了,这下子我真的糊涂了。也许它压根就不是等概率抽样吧!看来我对郝大海老师的迷信也该告一段落了。
不过,既然PPS方法已经得到了广泛应用,它是否为等概率抽样也就不是最重要的。但我有些不甘心,还是觉得这个问题应该有好的解决思路。本人愚钝,还望内行的朋友不吝指教!