前两周一直在写另一篇文章,那篇文章过一些时间再放到博客里.
四
智商测试的第三个隐假设是:人类智力可以通过工具测量。这是一个非常重要的隐假设,如果这个假设被证伪,那么心理学绝大部分测量工具都要作废。很多人质疑智商测试时认为,由于家庭环境和教育背景不同,智商测试并不公平。比如,经济发达地区的儿童智商测试平均成绩要好于经济不发达地区的成绩。然而,质疑者忽视了一个事实,那就是人类社会任何测评、考核手段都会存在这样那样的不对等。我们不说不公平,是因为这样的倾向性并不是人为刻意制造的,而是出于人类社会永远无法避免的内在属性造成的。比如中国{zh1}一道公平线:高考,实际上远比智商测试更不公平。很简单,在大城市学习的儿童有更好的教师,接受了更好的训练,能买到、买得起更多参考书;出题的老师也在大城市,因此城市里其他老师的预测会更有针对性。在相同的“聪明程度”和努力程度下,大城市学习的儿童将容易比乡镇就读的学生考出好成绩。而很少会有人在专门练习智商测xx目后再去测试自己的智商。
和高考不同,参加高考的人在考前练习得越熟悉越好;而参加智商测试的人如果在测试前练习,吃亏的其实是自己。这么说很多人可能难以理解,难道测出自己的智商不是越高越好吗?是的,通过练习得到高分并不是好事。原因在于,智商测试不但告诉你你的总体智力在人群中处于什么样的水平,还告诉你你的优势和劣势各在什么地方。通过练习确实能提高智商测试成绩,但这样让你无法明白自己的优劣势。明白自己在智力方面的优劣势十分重要,首先他可以帮助你今后选择适合自己的领域学习工作,回避自己不擅长的领域;其次可以让你了解自己不那么优势的领域,今后可以针对性地训练提高。
还有人质疑,有的智商测试要求儿童识字,或者接受过数学逻辑等方面的基本训练,而儿童这时候实际上已经被人类社会“污染”了。这种质疑同样是虚弱的。儿童的能力发展有阶段性,儿童在音乐、语言、数学方面的学习都有一定的关键期,因此针对不同年龄儿童的测试也是不同的,而我们至少目前还无法去衡量刚出生婴儿的“聪明程度”,因此,如果我们需要了解人类的智力,使用量表(即测xx,有些量表可以有施测者读给儿童听,而不必要求儿童识字)的方式就是不可避免的。
更进一步思考,实际上把人类社会和“自然”xx分开的观念是不正确的。人类社会本身是自然的一部分,人在社会中成长这既是事实,也是必须,因此我们可以也只能考察在人类社会中成长的儿童,或者成人。至于存在着某种不对等,如前所说,这是无法避免也无须避免的。
实际上,即使是猩猩之间,它们也在互相学习;更“低等”一些的动物,比如猫和狗,它们也是通过子女和父母打架游戏的方式来教小猫小狗学习生存技能,仅靠遗传和本能而从未经过训练就生存下去的动物并不占多数。
我们甚至可以说,人类在社会中的学习和成长本身就是智力的一方面。而正因为人类的知识、思想和技能可以传承,人类社会的发展才会如此迅速。如果两个国家公民的平均智商不同,处于劣势的那个国家的公民并不需要自卑,这并不是说你们天生要笨性,更倾向于说明了两个国家在社会发展方面的差异。
我猜测,从统计学意义上来讲,世界各国、各种族的人群在G因子(如果存在的话)方面是没有差异,或者说差异不显著的,但在智力的不同维度方面可能存在差异。比如巴西人善长足球,中国人擅长乒乓,德国哲学家众多,也许这其中存在某种所谓的“民族性”(这应该不只是社会环境造成的,可能存在着某种天赋上的差异)。
?
五
智商测试的第四个隐假设是:对足够大的一群人测量得出结果后,可以推论到同质的总群体里。
这么说有点拗口,我们下面再详细解释。事实上人类科学体系都是在这个假设表达的内涵基础上建立起来的。如果用物理学语言表达出来,实际上就是物理定律的不变性。听起来有点像瞎扯,我们来扯扯。
我们首先要清楚的一点是,智商测试得到的分数本身意义不大,这个分数的真正意义在于和一个叫做“常模”的东西比较后再得出在总体分数中的位置。一些地方高考成绩采取所谓的标准分,与之类似。我们以高考成绩为例,来说明为什么有时候要采用标准分不采用卷面分。比如一个重点中学,为了比较这一届学生的数学成绩和上学期学生的数学成绩哪个更好,发现采取对比卷面分数的方法不可行,因为两次考试的xx不同,难度不同。假设本届学生平均卷面分数是112分,而上届平均分数是116分,能否说明这届学生不如上届学生呢?显然是不能的。于是考察这两个平均分数在全市100所中学中的位置,发现本届排名是第10,而上届排名是第30,因此基本上可以宣布,本届学生成绩优于上届学生。
相同地,智商测试得到的分数显示出你在人群中的位置。经过大量的施测、修正后,心理学家建立一个题库、评分办法和标准,当你做完题目后,会有一个卷面成绩,把你的得分和以前数以十万的成绩对比,看你处在哪个位置,就得到相应的分数。把所有人智商测试分数以分数为横轴,获得这个分数的人数为纵轴画一张图,将得到一种叫正态分布的图形,其特点是两头小中间大。这种分布表示,人类社会里聪明人和白痴都是极少数,而普通人占绝大多数。显然,这符合我们的生活常识。
不同智商测试对测试分数进行了不同的划分,一种划分方式是,设定主体人口的平均智商为100,,其中智商在90-100和100-110的人各占25%。智商在110-120的占14.5%,智商在120-130的人占7%,130-140的人占3%,其余0.5%人智商在140分以上,另有25%的人IQ在90分以下。一般把智商在130-140之间的称为极高智力,智商再140分以上的称为天才。而智商在70分以下的一般认为是智力障碍。 需要注意的是,智商和取得成就之间没有因果关系。也就是说,并不是智商意义上的天才就一定会是我们熟知的大科学家、大文学家、大政治家或者伟人。智商和成就之间确实存在相关关系,这种关系表示,智商越高的人群里取得较高成就的人越多,反之亦然。因此,那些认为智商存在歧视的看法是不符合智商表达的精神的,智商理论从来没有认为智商分数在90-110分之间的人不会取得成功,只是认为这一群人取得成功的比例会低些。实际上,高考成绩也没有{bfb}的预测力,在高考落榜生里,有很多人在今后的工作中取得了成功。 有人应该注意到,前面说过这个分数只是和数以十万人的成绩对比得出来的,而不是和所有人对比得出来的,于是又有人认为,这样的分数只能代表你跟以前那几十万人比的位置,而非你在所有人中的位置。这种看法表面上是对的,但是从统计上是错误的。 人类做任何研究都有一个致命的问题,即无法穷尽地验证假设。比如说,我们要研究地球上老鼠的数量,但{jd1}不可能采取一只一只数的方式。实际上,采取一只一只数的方式也无法准确数清老鼠的数量,因为老鼠在不断繁殖,当你数到第十亿只还剩若干只时,实际上前十亿只已经变成十亿五千万只了。于是我们采取抽样法取代穷举法。比如我们假设大城市和农村的老鼠密度不同,但大城市之间和农村之间的老鼠密度是相同的,于是我们选几个大城市和几个农村各自统计老鼠数量,再看全世界有多少大城市和多少农村,就得到地球上老鼠的总数,当然,我们也不可能去数一个大城市里的老鼠数量,同样采取抽样法。抽样的实质是,如果我们选取一个可以代表总体的小群体得到的研究结果,我们认为这个数据和总体一致,用它可以“代表”总体。抽样能够代表总体的基础是归纳和推演。如果抽样、归纳和推演xx不正确,那么人类科学的基础就坍塌了。幸好这样的事目前还没有发生。我们举个例子来说明为什么这是正确的。比如你想了解扔硬币出现正反两面各自的概率,你扔十次可能得到6次正面4次反面,但当你扔了上百次之后,你会发现正反的概率会在各自50%上下微小浮动,那么,你有没有必要无限扔下去呢?显然是没有必要的。其实就像明天太阳会升起一样,这个结论也只是经过有限次观察得出的结果,也许几千万年后太阳不再升起,但我们都知道,在我们有生之年,明天太阳会升起将都是正确的。 而我们在遇到不符合统计规律的特殊事件出现时,我们首先不要着急宣布我们的研究是错误的,我们首先要考察特殊事件的背后发生了什么,也许特殊事件的出现是因为新的环境产生了,原来的结论在旧环境下仍然适用,这时我们要么采取两种理论,一种解释旧环境,一种解释新环境;要么采用一种能够涵盖新旧环境的更“牛”的理论。 所以,如很多反科学人士声称的那样,科学不是神,科学甚至在某些领域出现可能一些不自洽的结论和逻辑,但这都不重要,重要的是,人类科学体系只能采取这种方式去研究和推论,否则人们将陷于无穷无尽的求证和争吵之中。 基于以上分析,再回过头来说智商测试建立常模时的抽样,我们不可能把地球上每个人的智商都测一遍建立一个拥有50亿数据基础的常模库,然后以这个为基础去测新生儿童的智商。如同数老鼠一样,我们也做不到这一点。我们经常的做法是,按照复杂的抽样抽出数以万计的人,测试后把他们的分数作为基准。为此我们必须在抽样上尽量做到有代表性,这是一个复杂的过程。简单说,我们的常模里应该尽可能包含这个国家所有类型的人,男人女人、穷人富人、教授平民,等等等等,也就是说,这个常模是社会的缩影,就像一张地图一样。 有意思的是,智商测试可以用来估计总体,但很难估计个体。比如,我们知道了北京市房山区的平均智商是116,于是,我们可以很有信心地说,顺义的平均智商将在114-118之间。但是,当我们从房山或顺义里随便拎一个人出来时,我们并不能根据这个平均成绩预测这个个体的成绩,可能是80,也可能是138。因此,如果一个研究声称,你所在的学校平均智商比北大低20分,千万不要气馁,也许你的智商比北大所有人都高。请记住:智商是一个统计结果,而统计数据只能用来预测群体,不能预测个体。反之,单个个体的成绩也不能用来预测群体。 ? ?
标准分和人们数据处理当中常用的normalization的意义一致。杨兄这篇文章算是很好的科普文章。