那是20 世纪20 年代后期,在英国剑桥一个夏日的午后,一群大学的绅士和他们的夫人们,还有来访者,正围坐在户外的桌旁,享用着下午茶。在品茶过程中,一位女士坚称:把茶加进奶里,或把奶加进茶里,不同的做法,会使茶的味道品起来不同。在场的一帮科学精英们,对这位女士的“胡言乱语”嗤之以鼻。这怎么可能呢?他们不能想象,仅仅因为加茶加奶的先后顺序不同,茶就会发生不同的化学反应。然而,在座的一个身材矮小、戴着厚眼镜、下巴上蓄着的短尖髯开始变灰的先生,却不这么看,他对这个问题很感兴趣。他兴奋地说道:“让我们来检验这个命题吧!”并开始策划一个实验。在实验中,坚持茶有不同味道的 写到这里,我可以想象,部分读者会对这种实验不以为意,认为它不过是一帮精英们于夏日午后的一个小消遣。他们会说:“这位夫人能不能区分两种不同的注茶方式,又有什么大不了的呢?这个问题并没有什么科学价值,这些大人物更应该把他们的天才用在对人类 有所裨益的事情上去。” 不幸的是,不管外行对科学及其重要性怎么想象,从我个人的经验来看,大多数科学家之所以从事科研活动,只是因为他们对结果感兴趣,或者能够在工作中得到理性的刺激。好的科学家很少会想到工作的最终重要性,剑桥那个晴朗夏日的午后也是这种情景。 接下来,在场的许多人都热心地加入到实验中来。几分钟内,他们在 这个故事是我在20 世纪60 年代后期,从一个当时在场的先生那里听到的。这位先生就是休·史密斯(Hugh Smith),但他都是以H·费尔菲尔德·史密斯(H. Fairfield Smith)的名义发表科研论文。我认识他的时候,他在位于斯托尔斯(Storrs)的康涅狄格大学(the University of Connecticut)任统 剑桥那个夏日午后的情形正是如此,那个留着短 同样,即便这位女士能做出区分,她仍然有猜错的可能。或者是其中的一杯与奶没有充分地混合,或者是泡制时茶水不够热。即便这位女士能做出区分,也很有可能是奉上了10杯茶,她却只是猜对了其中的9 杯。 在这本书中,费歇尔讨论了这个实验的各种可能结果,他叙述了如何确定这样一些问题:应该为 费歇尔书中有关实验设计的著述是科学革命的要素之一,这场革命在20 世纪前半叶席卷了科学的所有领域。早在费歇尔出道以前,科学实验已经进行了几百年。在16 世纪后期,英国的威廉•哈维(William Harvey)用动物做实验,他将不同动物静脉和动脉里的血液堵住,试图追踪血液从心脏到肺,回流到心脏,流向全身,再回到心脏的循环路线。 费歇尔没有发现实验是增长知识的方法。费歇尔之前,实验对每个科学家而言都是有其特性的。优秀的科学家可以做出产生新知识的实验,而二流的科学家常常从事的是积累数据的实验,但对知识增长没有什么用处。为说明这点,可以举发生在19 世纪后期的一个例子。那时的科学家就测量光速做了许多无关要旨的努力,而直接到美国物理学家艾伯特·米切尔森(Albert Michelson)用光线和镜子建造了一个特别精巧的系列实验,才{dy}次得到好的估计。 在19 世纪,科学家很少发表实验结果。他们所做的是论述自己的结论,并发表能证明结论真实性的数据。格雷戈尔•门德尔(Gregor Mendel)没有展示出他全部豌豆培育实验的结果,他叙述了他的系列实验,然后写道:“两组系列实验的前10 个数据可以用来说明……”在20 世纪40 年代,费歇尔检验了门德尔用来说明结论的数据,发现这些数据过分xx,以至于失真,它们并没有表现出应该具有的随机程度。 尽管科学从审慎思考、观察和实验发展而来,但从来不清楚应该怎样从事实验,实验的 全部结果通常也没有展现给读者。 19 世纪末和20 世纪初的农业研究中,上述情况尤为明显。20 世纪早期费歇尔在农业实验站工作,在费歇尔去那儿工作之前,这个实验站已经进行了约90 年的肥料构成(称之为人工肥料)实验。在一个典型的实验中,工人将磷肥和氮肥的混合物撒在整块田中,然后种植作物,测度收成和整个夏季的雨量。这里有精巧的公式用来“调整”某年或某块地的产量,以便与另一块地、或同一块地的另一年产量相比,这被称为“肥力指数”。每一个农业实验站 都有自己的肥力指数,而且都认为自己的指数是最xx的。 90 年的实验结果不过是一堆未经发表、了无用处的混乱数据。看来某些品种的小麦对某种肥料反应优于其它品种,但只是在降雨过量的年份如此。其它实验似乎显示:{dy}年用钾硫化物,第二年用碳酸硫化物,会使某些品种的马铃薯增产,而对其它品种并非如此。因此,就这些人工肥料,充其量可以说,其中有些在有的时候,可能或大概有效。 作为一个{zy1}的数学家,费歇尔审视了农业科学家用来修正实验结果的肥力指数,这些指数是用来解释不同年份气象变化所造成的差异的,他还检查了其它农业实验站所用的同类指数。当简化为基本的代数式时,这些指数不过是同一公式的不同表现形式,换句话说,看似激烈争斗的两个指数,其实起着同样的修正作用。1921 年,费歇尔在农业科学领域的领军期刊《应用生物学年报》(the Annals of Applied Biology)上发表了一篇论文,文中他指出了采用哪种指数并没有什么差异,并且,所有修正都不足以调整不同地块上的肥力差异。这篇非凡的论文终止了一场持续20 多年的科学论战。 费歇尔接着检查了过去90 年来的雨量和收成数据,指出年度间不同气候的影响远远大于不同肥力的影响。用费歇尔后来在他的实验设计理论里发明的一个词来说,“混合”(confounded)的,这意味着用已有的实验数据是不能将二者分开的。90 年的实验和20 年的科学论战几乎是无谓的浪费。 这使得费歇尔专注于实验和实验设计的思考。他的结论是:科学家需要从潜在实验结果的数据模型开始工作,这是一系列数据公式,其中一些符号代表实验中将被搜集的数据,其它则代表实验的全部结果。科学家从实验数据开始,并计算与所考虑科学问题相应的结果。让我们考虑一个关 如果农业科学家想知道某种人工肥料对小麦生长的效用,就要构建一个实验以取得效用估计时所需要的数据。费歇尔表明,实验设计的{dy}步是建立一组数学公式,用以描述待搜集数据与欲估计结果之间的关系,因此,任何有用的实验必须是能够提供估计结果的。实验必须是有效的,能够让科学家测定出气候的差异和不同肥料的使用对产量差别的影响。特别是,有必要包括同一实验中打算加以比较的实验处理(treatments),即那些后来被称为“控制组件”(controls)的东西。 在他那本关于实验设计的书中,费歇尔提供了几个实验设计的范例,并导出优秀设计的一般原则。然而,费氏方法中所涉及到的数学非常复杂,多数科学家设计不了自己的实验,除非他们遵循费歇尔书中提出的实验设计中的某个模式。 农业科学家认识到费歇尔工作的伟大价值,在大多数说英语的国家中,费氏方法很快便成为农业科研的主流学派。从费歇尔的原创性工作出发,用来论述不同实验设计的完整科学文献发展起来。这些设计被应用到农业以外的领域,包括医学、化学和工业质量管理。在许多案例中,所涉及的数学高深且复杂,但此时此刻,我们不妨停下来想想,科学家不可能不假思索地动手实验,这通常需要长时间的审慎思考,而且,其中通常会有大量的、高难的数学。 至于前面所说的女士品茶——那个在剑桥晴朗的夏日午后所做的实验中,
选自:《女士品茶:20世纪统计怎样变革了科学》,萨尔斯博格/著 |