CSDN博客

img chutium

圣经中真的藏有密码吗? 摘自台湾权威杂志《科学月刊》

发表于2002/5/10 19:35:00  1428人阅读

分类: math

 

圣经中真的藏有密码吗?

  对于难以测知的未来,如果有人或有些事物能揭露其奥秘,一定会引起社会上的轰动。而中国预言中最家喻户晓、脍炙人口的,要属一千三百多年前,唐贞观年间袁天罡及李淳风合著的《推背图》,书中利用签诗与卦图,分别预言唐代以降的国运兴亡。
  《推背图》与其它预言书(如:记录朱元璋和刘伯温之间对话的《烧饼歌》)都有个特色,就是解释的空间弹性相当大,后人可以根据已经发生的历史,对相关的文字和图形,做出合乎己意的注解,因此往往予人所言灵验的印象。因而每个朝代都把《推背图》列为禁书,但这并不是当政者相信预言的正确性,而是怕谣言四传,人心浮动,有危及政权的可能。
  那么有没有一些隐藏的预言,可以用科学的方法来发现与验证呢?
  统计如何证明圣经藏有密码?
  1994年8月魏茨滕(D.Witztum;物理教授)、芮普斯(D. Rips;数学教授)及罗森柏格(Y. Rosenberg;专长为计算)在卡斯(R. E. Kass;Carnegie University统计系教授及系主任)所主编的期刊Statistical Science中发表了一篇名为〈圣经创世纪里的等距字母序列〉(Equidistant Letter Sequences in the Book of Genesis)的论文。这篇文章利用统计的方法证明:圣经隐藏了许多讯息,而这些讯息是有意安排的,绝非文字排列偶然造成的。而「圣经是否藏有密码」的这场论战,也正式展开。
  Statistical Science是Institute of Mathematical Statistics的机关期刊之一,与The Annals of Statistics、The Annals of Probability和The Annals of Applied Probability都是一流的国际期刊,当中所刊登的每一篇文章,都经过很严格的审查,因此结论相当可靠。

(一)等距字母序列
什么叫做「等距字母序列」(equidistant letter sequence, 简称ELS)〔注1〕?物理学家汤玛斯(David Thomas)以英王钦定版(King James Version)的〈创世纪〉第三十一章第二十八节为例子:
And hast not suffered me to kiss my sons and my daughters?
Thou hast now done foolishly in so doing.
(中译:又不容我与外孙和女儿亲嘴,你的所行真是愚昧!)〔注2〕
把空格和标点符号去掉,合并成字串:
Andhastnotsufferedmetokiss
mysonsandmydaughtersThouhastnow
donefoolishlyinsodoing
然后从「daughters」的r开始,跳过三个字母,来到「thou」的o;再跳过等距三个字母,来到「hast」的s,依此类推。结果得到ROSWELL(罗兹威尔)这个字。
  如果从「thou」的u开始,跳过十一个字母,得到f;再跳过等距十一个字母,得到o。结果,UFO(不明飞行物)和ROSWELL便同时隐藏在这一段话中了。某些人可能因此推断,圣经早已预示,外星人将降临在美国新墨西哥州罗兹威尔镇的沙漠。
  这个例子很有趣,可是—圣经当初是用希伯来文写成的〔注3〕,而非英文。如果要探究圣经是否真的藏有讯息,魏茨滕等认为应该回到圣经最原始的书写版本,因此采用了以希伯来文撰写的〈创世记〉。而他们做的第一件事,就是像刚刚一样,把空格拿掉、排成一个总共有78,064个字的长字串,叫作G,
G=g1……gr
其中g1代表第一个字,而gr就是第78,064字。接著他们定义什么是「等距字母序列」:首先取个整数d,叫「跃距」(skip),在前面汤玛斯的例子里,第一个d是4,第二个d是12;再来是取字的长度k,刚才的例子里,第一个k=7,第二个k=3。把这些整理如下:
gngn+d……gn+(k-1)d
1n, n+(k-1)dr,
其中,gn是起点(start),n可以是小于r的任意整数,长度k、跃距d也没有特别的限制;至于形成的字是否有意义,则是另外一回事。这样就能构成所有的等距字母序列了。
  等距字母序列是一位叫魏斯曼德(Weissmandel)的犹太教士(rabbi,音译拉比,故简称犹太教士为拉比)发现的,也有可能是更早的拉比,把羊皮纸卷在柱子上读时,偶然间发现直读或斜读的字串,有时有特殊意义,而这种字串都是ELS。
  不过魏茨滕如何从ELS找出一个非比寻常的隐藏讯息呢?为此他们做了一个实验,从《以色列伟人百科全书》(Encyclopedia of Great Man in Israel),找出三十二位拉比,记下他们的名字xi(这本书所记载的拉比生活在9到18世纪末,离〈创世纪〉所写的时代,已经有好几千年了),及其出生死亡日期yi。由于希伯来文里没有阿拉伯数字,都是用字母来表示数目的。所以刚刚的字串,也可以用来表示这些日期。接著对这个二维的字串(xi , yi),定义一个距离c(xi , yi)(定义的方法过于细节,不在此详述,有兴趣的人可以去看看相关的论文)。结果发现,等距字母序列的数据库里,每个拉比的名字,跟他出生月日的距离非常接近,就像先前看到的ROSWELL跟UFO也是非常接近(其实就在同一行里);因此他们觉得其中必定有特别的意义,绝不是靠运气、巧合得来的。而这个想法正是最有意思的地方!首先要确认的一件事就是:这些人名、出生日期是否可以弄混?因为如果弄混了,可是对定义出来的距离远近,并没有太大差别的话,就表示结果是偶然发生的;如果有显著差别的话,就表示这不是纯靠运气就能解释的现象了。因此他们便利用统计检验的方法,看看这样的配对究竟是不是「纯属偶然」。

(二)统计
  说到这里,必须先介绍一点简单的统计概念。在统计里,处理「偶然」这一类的问题,就是要确认它是不是一个随机的配对,而对应的统计方法就叫做「随机检定」(random Test)。一般在做统计检定时,都会先设定一个虚拟假设(null hypothesis),也就是一个想将它推翻掉的假设。在这个问题里的虚拟假设,就是「名字和出生日期是随机出现的,没有特殊安排」。这是一个基本假设,用术语来说就是配对的各种排列方法,机率都是一样的。这时它就变成一个统计检定的问题,必须检定出是应该拒绝或是接受这个虚拟假设。
  而在统计学里是利用统计量的大小,做为接受「检定」与否的准则。因此魏茨滕首先定义了四个检定统计量,以下只写出其中两个「简化的」式子:
P1()=,
P2()=z/i!
其中 z=c(xi    , y(i)),m=#{i:c(xi    , y(i))0.2}
式子中的是从{1, ……, 32}对应到自身的一个「一对一函数」。((1),……,(32))就是把(1,……, 32)的数字重新编排位置的一种排列(permutation)。假如我们把第i个拉比的生日,换成第(i)个拉比的生日,那么距离就会由c(xi , yi)变成c(xi , y( i))。N则是所有可能的配对,即N=32!。统计量p1跟p2的统计意义,大致可理解成是{xi}和{y (i)}相近的一种指标。当{xi}和{y(i)}整体来说很接近时,Pj()就会很小。
  现在我们看到的配对是(xi ,yi),对应的排列是等同(identity)排列0,0把i送到0(i)=i,因此我们观测到的检定统计量就是Pj(0)。要评断虚拟假设是否合理,可以考虑p值:
pj=#{: Pj()Pj(0)}/32!。
在虚拟假设下,由于每个(配对)的机会都一样,有32个(xi , yi),因此总共有32阶乘的配对,用符号表示就是32!,也就是有32×31×……×1这么多个可能性。接著看看,统计量P()比观测到的统计量P (0)小的那些配对占多少比率,这个比率就是我们所谓的p值。p值描述的是在虚拟假设下,检定统计量会等于实际观测到的值那么极端或更极端的比率。在没有特殊安排下,每个的机会都一样,因此Pj(0)应该不会过于极端,所以p值不应太小,p值愈小,虚拟假设成立的机会也就愈小。但是多小才叫做小呢?一般统计里取的数值是0.05,也就是说,当p小于0.05时,就不接受这个虚拟假设了。在这种状况下,统计学家便说,这个检定是「显著的」(significant)。
  而在前面的圣经例子中,求取相关的p值是一项相当困难的计算,因为32!是个相当庞大的数值。而第三位作者罗森柏格,主要是负责做计算,他设计了一个如何计算这些检定统计量的方法。这些检定虽然叫做「随机检定」,但是因为它牵涉到排列,所以也有人称它为「排列检定」(permutation test)。而除非检定可以化成比较简单的式子,否则所有的排列检定的计算都是很费时的事,因此都是交由计算机来算的。他算出的结果:
p1=5×10-4=0.0005
p25×10-6=0.000005
这些数字都远小于0.05,因此从统计的观点来看,检定显著,虚拟假设是无法接受的。所以他们下了一个结论,ELS这些字母的互相靠近,并不是因为一时「好运」所产生的。


(三)对照实验
  这些讨论到目前为止都是很学术性的,不过我们的故事才刚刚开始哩!事实上,这篇文章早在1987年就送到美国科学院会志(Proceedings of the National Academy of Sciences of the United States of America)去发表了,其中一位经手的是Persi Diaconis。 Diaconis年轻时是位有名的魔术师,现在则是哈佛大学的统计学家。他在更早的时候(1986年),就跟三位作者联系过,有可能就是作者在文章中提到的,建议他们做对照实验的科学家。
  在生物相关的研究里,常常要做对照实验。举个简单的例子来说,感冒吃药会痊癒,但是也有人不吃药也会好,那要如何验证药是不是真的有效?通常会找两组感冒的人,一组吃药,一组没有吃药,或是为了避免心理因素的影响,而给他们吃并不含药效的「安慰剂」,然后做比对,看看有吃药的是不是比较好。而这个建议也要求他们去找一个「安慰剂」,于是他们就找了《战争与和平》当对照本。这本书是俄国文豪托尔斯泰写的,有希伯来文的翻译本,但因为原来是用俄文写的,因此可以当做「安慰剂」。对照本取的是书最前面,字数跟〈创世纪〉一样的部分。结果发现,对照本在相同的检定下,并不显著,也就是说它的p值大于0.05。而这相对加强了「ELS的相近,并不是一时好运」的结论—然而美国科学院的会志还是拒绝了这篇投稿,于是他们就改投到Statistical Science。

  Statistical Science找了三位审稿人,一般而言审稿人都是两位,不过这个题目太奇怪了!令人非常困惑,特别是〈创世记〉的创作距今隔了三千多年,其间都没有提到别的事情,到现在才发现它跟近代的事物有关,这不是非常奇怪的事情吗?所以还是小心为上!于是这些审稿人自己也去重新分析,看看作者的统计方法合理吗?然后再检查他们的计算。最后的结论是,虽然有一点出入,不过效果依然存在。也就是说,显著性跟没显著性,依然不变。因此Statistical Science的主编卡斯就接受了这篇文章,并且在编辑前言说,这就留给读者当作是一个挑战性的谜题,希望读者能够去解决。而这个谜题一直到下个事件发生前,全世界好像都不太感兴趣。不过站在作者的立场来说,既然1994年到1997年间,都没有人发表任何评论,他们自然会认为文章的想法以及结论已经是被接受了。这就是我们的序幕,也就是故事的开始。

圣经密码
  故事第二景,「圣经密码」出现。如果稍微注意一下,刚刚那些作者的结论是很中性的,只是说ELS的靠近,不是因为运气好而产生的;但是它并没有告诉我们,到底是由什么产生的。由于作者具有宗教的背景,是传统的犹太教徒,当然心里想的是一种宗教的结论。可是在统计学上,在虚拟假设不被接受的情况下,要是另一个假设(对立假设),如果没有写清楚的话,那么虚拟假设纵使不对,但到底什么是对的,仍然不是很确定。因此,「归之于上帝」也只是其中一种讲法而已。不过,对宗教信仰者来说,在他写下这样的文章时,暗地里恐怕早就有那样的对立假设存在了吧!

(一)密码现身
  接著下一个故事就要跳到1997年5月28日,《纽约时报》(New York Times)登了一幅全页广告,广告是宣传一本书,书名叫做The Bible Code,也就是《圣经密码》。这一本书的作者叫卓思宁(Michael Drosnin),是《华盛顿邮报》和《华尔街日报》的前记者,他花了五年的功夫调查,然后自己做实验写成这本书。这本书的广告以及书的内容大致是这样的:三千年来,圣经的密码隐藏未解,现在已经被电脑解开来了,而且可以预示一切未来。作者卓思宁说,根据这个密码显示,以色列总理拉宾的名字和暗杀连在一起;而且事实上,他在1994年9月就写过一封信给拉宾,告诉他这个可能性,可是拉宾没有理会他,而后在1995年11月,拉宾就死于刺客之下。这是这本书中最轰动的一件事,而且作者是迫不及待、开宗明义的,在第一章里就提到这件事,因为这是他自己亲身经历过的事件,是由他自己解出密码、预知的大事。
  除此之外,这个广告以及这本书反覆提到,揭示密码的方法是经过期刊认可的,特别是有同侪审核的期刊所认可的。事实上,卓思宁也求教于不少数学家,而他表示每位数学家都觉得,这一切的确证明了密码存在。不过卓思宁更厉害的一点是,说完〈创世记〉里藏有密码,能够预告人类的命运后,接著又说在〈摩西五经〉(也就是旧约的前五卷:〈创世记〉、〈出埃及记〉、〈利未记〉、〈民数记〉跟〈申命记〉)中,他都发现藏有圣经密码,当中传达的讯息除了拉宾被刺杀外,还包括美国甘迪和林肯两位总统,以及印度总理甘地遇刺的事件,日本神户、美国旧金山的大地震、世界末日与广岛原子弹轰炸等,种种过去与未来发生的大事件。
  而这几卷经文其实可以说是犹太民族的史记,〈创世纪〉记载了上帝造人、亚当与夏娃,以及诺亚方舟的故事;〈出埃及记〉描述早期犹太人定居埃及,和摩西如何与埃及法老斗争,然后带领人民离开埃及的经历;〈利未记〉是摩西到西奈沙漠的途中,以色列部落利未人如何支持他清教的经过;〈民数记〉记述以色列人在西奈沙漠漂泊和初到巴勒斯坦的生活史;〈申命记〉则记载摩西如何将政权传给约书亚的事。而许多人可能对〈申命记〉特别感兴趣,因为媒体过去一直传说,我们的李前总统是摩西,而陈水扁总统是约书亚,这个典故就在〈申命记〉里。

(二)密码盛行
  再回到圣经密码里,更令人惊讶的是,卓思宁除了〈摩西五经〉外,在旧约的〈以赛亚书〉内,也找到密码。一个众所皆知的现象是,一旦有人对一个现象做推广,大家也都会跟著做推广。因此呢,信奉基督教的人也在找,看看新约里是不是也藏了密码。结果,不但是信仰犹太教或基督教的人在找「圣经密码」,连信奉回教的人也在找,整件事情一下子就宣扬开来了,尤其是在《纽约时报》刊登的整版广告,加上这些怂人听闻、预知兴亡的词句,其中的新闻价值非常高。因此CNN、《纽约时报》、《时报杂志》(Time Magazine)、《新闻周刊》(News Week)都特别介绍,接著连一般的「脱口秀」,如Today Show及Oprah show也都出现了相关话题。而一旦在美国造成这么大的轰动后,很多种语言的翻译本也就跟著出现了。台湾的《圣经密码》就是由杜默先生翻译的。
  除了多种语言的畅销书以外,「圣经密码」的相关产品很快也随著出现了。首先是有关别的隐藏讯息,以及新的密码的书,接著是电视记录片,连电影也有拍摄的计画,此外如果你想「自己」解密码的话,也有商业的软件提供。有兴趣的话,还可以上网站,键入「Bible Code」去搜寻,很快就有一大串相关的项目条列出来了,其中包括各种论战、宗教团体的解说……等,显然「圣经密码」这件事情已经造成全世界轰动。

(三)论战初起
  针对这么轰动的事,自然引起了不少反响。正如前面所提过的,虚拟假设不成立,的确表示当中「有东西存在」,不过这东西是密码吗?还是有别的理由造成这样的现象呢?接著就来看看数学家是如何解释的。
  数学家于是翻出了拉姆西(Ramsey)定理,这个定理的完整叙述相当拘泥形式,抽象难懂,幸好有位有名的数学家艾狄胥(Paul Erd窃)〔注4〕,喜欢用所谓的「宴会问题」来解释。所谓的「宴会问题」是说,一个宴会里如果有六个人,是不是一定会存在三个人彼此之间互相认识,或彼此之间一个也不认识的现象?这个答案是肯定的。彼此认识或完全不认识都是结构(pattern),当人数愈来愈多的时候,许多奇奇怪怪的结构就会跟著出现。就像繁星满布的夜空,会看到许许多多的星座一样。因此这个定理给我们的教训,正如美国数学家默慈金(Theodore S. Motzkin)所说的:「完全的无秩序是不可能的。」但是这只是观念上的启发,说明像〈创世纪〉那样字数庞大的著作,存在密码是有可能的:不过针对原来的问题,这并没有证明太多事情,不见得是我们要的答案。
  另外一方面,芮普斯—原来论文的三个作者之一,希伯来大学(Hebrew University)的数学教授,由于一些未说明的原因,认为未来事件不可能预测,而且认为卓思宁有些译解的密码在统计上的意义不显著,也就是说,对应的p值没有小于0.05。卓思宁在写圣经密码的时候,前前后后访问了芮普斯好几次,没想到在面对批评时,他们彼此意见在第一步,就不完全一致。
  接著有许多人发现,卓思宁用的方法和等距字母序列那篇论文的方法相比,相当不严密。不少人(例如我们一开始就提到的汤玛斯)用相同的方法,很容易发现到处都藏有密码,就如英王钦定版的圣经里,可以找到UFO一样,这下子整个怀疑都出来了。而卓思宁面对这些批评,又是如何响应的呢?在《新闻周刊》的一次访问里,他说:「假如我的批评者,能够在《白鲸记》(Moby Dick)里,找到某位总理被刺杀的密码讯息,那么我就会相信他们。」 这对批评者来说,是个挑战!而这场战争到这个时,已经是相当白热化了。
  澳洲国立大学(Australia National University)的一位计算机教授马凯(Brendan McKay),就接受这个挑战,找到了底下印度总理甘地被刺的「讯息」(图三),并且把它放在自己的网站上。
  图三中直行的IGANDHI,第一个I是他的名字Indira的缩写,接著是甘地(Gandhi)。接著横行是the bloody deed,死亡的契约,预示著甘地是会被杀的。事实上,马凯不但找到一位总理,他还在《白鲸记》找到Abraham Lincoln(林肯)、拉宾、甘迪……等名人被刺杀的讯息,用的是跟卓思宁一样的方法。哇!这下子麻烦了,似乎到处都藏有密码,是不是生活周遭都布满天机,等著我们用电脑去解读呢?这位马凯是个很有趣的人,他说,基督教徒也一直在寻找密码,不过他们想找的是有关耶稣基督降临的讯息;那么是不是我们也来试试看!而这回他用的是〈但以理书〉,因为卓思宁在《圣经密码》中提到这是一本「封印之书」,预告著「弥赛亚来临的日子」,而耶稣向来都被视为是弥赛亚的。马凯依照魏茨滕等人的方法,考虑了一些关键字词,像son of god,去进行分析,结果发现耶稣跟son of man较靠近。这下子耶稣由「神之子」变成「人之子」,整个论战也跟著变得混沌、局势不明了。

注    释
1. 公元前五世纪的斯巴达,已经利用密码棒传递军事讯息,其加码方法也是采取等距字母序列的方式,详见参考数据4。
2. 这段是拉班跟他的「长工」兼女婿雅各讲的话。雅各先后娶了拉班两个女儿为妻,后来因为不堪剥削,带领妻儿逃离,途中为拉班追及。文中的sons不是现在常用的含义—儿子,而是另一个含义—后裔。这里指的是拉班的孙子,而daughters指的是他的两个女儿。
3. 希伯来文和中文一样是由右向左写的,本文为解释方便写成由左向右的方式。原始的书写希伯来文只有子音字母,元音的字母是后来发展出来的。由于阅读时要自行补上元音,这也可能造成解读上的歧异。有关圣经希伯来文的介绍,可以看参考数据8。
4. 有关拉姆西与艾狄胥的生平,可以看参考数据3。

 


 

正式反驳

  事情演变到此,卓思宁似乎略居下风,但是这件事并没有完全解决,原因在于对原先魏茨滕等人的那一篇〈圣经创世纪里的等距字母序列〉并没有直接的推翻。因为这三个人的确很用心在设计他们的实验,而且很仔细地做统计分析;而他们也认为卓思宁有些地方太宽松,做了一些统计不显著的结果。因此想反驳他们,一定要提得出道理,说明他们的作法到底有那里出了问题,否则光是用那些图表的方式或是拉姆西定理,恐怕还是没有办法让人心服口服;更何况芮普斯也一直表示,只有〈创世记〉里有圣经密码,想反驳这一点,也势必要回归到原先的这一篇文章来。
  而经过同侪审核的期刊文章,还是要由期刊文章,而且最好是由同一期刊的文章来反驳,比较有公信力与说服力。1998年马凯与两位希伯来大学的学者,巴希蕾(Bar-Hillel)及巴纳丹(Bar-Natan),首先在一通俗性的统计期刊Chance,针对魏茨滕等的文章做全面的反驳,里面没有太多技术性(统计)的探讨,但是描述了整个事件的来龙去脉,攻击言辞猛烈,并且宣称在《战争与和平》的希伯来文版,也可以发现密码,这跟魏茨滕等人的论文结果相反。
  接著在1999年,马凯等三人再加上希伯来大学的数学教授卡莱(Kalai),在Statistical Science 发表了一篇学术文章:〈解决圣经密码的疑惑〉(Solving the Bible Code Puzzle),为Chance的文章提供了统计学上的依据。他们在这篇文章中表示,魏茨滕等人在1994年发表的那一篇文章有相当严重的缺陷,特别是实验的设计和数据的收集。有什么问题呢?这时就要回过头来看看,统计里对实验设计有哪些要求。

(一)实验设计与议定书
  统计学中讨论实验设计时,通常都会提到:找寻最佳生产配方的工业实验设计,以及找寻新药的药物试验设计。关于后者,由于过去几十年来对临床实验新药的经验,学界和医界已经订立了相当严格的标准,这些标准的规范,都写在议定书(protocol)里。首先要知道,做医学实验,或药厂试验新药前,一定要先写议定书,而且必须在议定书批准后才能开始进行。通常议定书里必须写明实验的目的是什么,整个的设计是什么,又要如何执行。以下所列的十四个项目,是波克(S.J.Pocok)在《临床试验》(Clinical Trials)中列举的:
(1)背景与一般目的(Background and general aims)。
(2)特殊目的(Specific objectives)。
(3)选取病人的标准(Patient selection criteria)。
(4)疗程(Treatment schedules)。
(5)评估的方法(Methods of patient evaluation)。
(6)试验设计(Trial design)。
(7)病人的注册及随机分配(Registration and randomization of patients)。
(8)病人的同意(Patient consent)。
(9)研究需要的数量(Required size of study)。
(10)试验进展的监控(Monitoring of trial progress)。
(11)表格与数据的处理(Forms and data handling)。
(12)协议的偏离(Protocol deviations)。
(13)统计分析的规画(Plans for statistical analysis)。
(14)行政责任(Administrative responsibilities)。

  以下选出跟密码问题有关的几项,稍作说明。
首先,当然要说明实验的背景和目的是什么。魏茨滕等人的主要目的,是要证明上帝在〈创世纪〉里藏有密码。论文的特殊目的就是想证明,拉比的名字与其出生日期很靠近,并不是偶然的事件。
  其次的几项与病人的处理有关,其中病人的选取对应到论文里拉比的选取。而魏茨滕等人是用什么标准来选取这些拉比的?这牵涉到许多事情,包括拉比名字的拼法,如何依此去估算出前面所提到的距离,其中的细节留待后面再叙。在医学实验里,如果选取的病人一开始就很虚弱,且并发症不少的话,那么即使药再灵,效应恐怕都不会很好;但是如果病人的病症很轻微,看来很强壮的话,那么「药到病除」和「不药而癒」的情况都有可能。因此病人和拉比的选取,会直接影响所有的分析结果。
  再来是讨论试验的设计,而这关系到之后要如何做实验。例如魏茨滕是透过配对,以及对照实验的方法来进行的。对照实验是一种比较实验,除了处理因素(如药效或上帝预示)外,其它可能会影响实验结果的因素都必须控制得完全一样。所以魏茨滕等人利用《战争与和平》做对照实验时,采用希伯来文版,而且将字数选得一样多,就是这个目的。另外,有人可能听过「双盲设计」(double blind design),主要是说,如果要实验两种可能的药物时(当然包括安慰剂),那么除了病人本身不知道他吃的是什么药,免得心理作用之外,连医生也不知道病人服用的是不是安慰剂,以免医生因为知道病人「有吃药」的前题,而使诊断不自觉的倾向有效的判断,认为病人会因此变得比较好。因此双盲(或者叫双瞒)的主要目的,也是要求在实验的过程中,尽可能避开人为的偏见。而在对病人次序的编排上,譬如单数吃药,双数吃安慰剂等,也有可能产生这种不自觉的偏见〔注5〕,所以有必要弄乱吃药者的编排(随机化),使其不是顺著一个固定的模式进行。由于随机的安排,病人有可能因此没吃药,所以必须让病人事先同意整个过程。
还有,这样的实验到底需要多少病人,也是一个很有趣的问题。例如,魏茨滕的实验选了三十二个拉比,这样够不够?少一点是否也能证明相同的结论?或者为了周全,必须把整个百科全书里的人都选进来?这点很值得思考,表格和数据处理看起来不起眼,其实非常重要。例如许多表格常要填写出生年、月、日,而论文中拉比的数据只有出生的月和日,并不包括年,处理这样的数据时就要特别小心。此外,万一实验与议定书有所偏差时,例如应该进来的病人没有进来,需要的样本少一个时怎么办?诸如此类的事情,在议定书里都要表示清楚。
第十三项规定怎么做统计分析,这一项很清楚不用多说。最后是责任的问题。换句话说,这洋洋洒洒的十四项,其实只有一个目的,就是所有实验的进行,都应该是在严格的规范下操作的,否则很可能会出问题。

(二)针锋相对
  了解实验设计后,再回过头来看看马凯他们的批评:第一、魏茨滕等人所用的统计方法,如果一小部分的数据稍微变动一下,就会很敏感。第二、最大的麻烦出在拉比的称呼,以及它的拼法如何选择上。以我们的现任总统为例,可以称呼他陈水扁,陈总统水扁,陈水扁先生或是阿扁,甚至还有种种别名,到底要选哪一个?在西方社会里,还有缩写的问题哩!
  魏茨滕实验所分析的拉比,是根据一位名叫Havlin的教授所准备的名单。但是另一位研究拉比的学者M.Cohen却说,这种取法是没有科学根据的,完全是不一致的,而且是一个随意选取的结果。他同时也准备了一分名单。不过更好玩的是,另一位学者认为,这两分名单「一样令人讶异!」由此看来,光是名字这一部分,仔细推敲就产生很大的问题了,更何况犹太人对日、月还有各种不同的讲法,就如同我们有一月、正月和元月等讲法。所以在议定书里,诸如此类的规定就要事先制订好,否则就有很大的伸缩空间;一旦有了伸缩空间,解释就多,往往就无法控制了。但也有可能殊途同归,达到相同的结果。
  因此,下一步要问的就是,假如真有这样的自由度可以发挥的话,它所产生的后果是什么?马凯等人依照上述的自由度,应用在《战争与和平》的版本上,把那些拉比的名字稍微变动一下,得到的数据结果却是p<0.05,换句话说,《战争与和平》从没有显著的结果,变成有显著结果。
  再来,就〈创世纪〉的实验来说,它原先的方法为什么是对的?是不是它的自由发挥得太过度了呢?马凯等人认为是的,而且他们还测试了很多小小的变动,譬如把出生的年分加进去、用别的称呼等,结果发现大部分的结果都变弱了,有些变得不太显著,有些甚至已经不显著了。种种现象,似乎指向作者对数据的选择,有固定的偏好,象是去挑捡一些特别的拉比,才得到这样的结果。马凯甚至表示,魏茨滕他们其实作了一些「调整」(tuning)。这种现象的另一种说法是「直觉的统计期望」。意思是说,当你知道一个现象的理论结果是什么的时候,做出来的实验结果往往就会是如此;因为有了这样的心理倾向,就会产生了一些自觉或不自觉的「调整」行为。所以受到这样心理影向的实验报告,就会过于完美,必须特别小心这样的结果是不是真的。
  这一类的事件在统计界也发生过,其中最有名的,就是统计学家兼遗传学家费雪(Fisher)对孟德尔(Mendel)豌豆实验的数据所产生的怀疑。费雪甚至表示,当初孟德尔可能为了理论,调整了数据;原始的数据,不应该那么漂亮。不过还好,最后孟德尔的理论是对的。这表示,即使数据真的是制造出来的,结果也不见得是错的;但是实验的结果那么好,总会令人怀疑这些数据是被动过手脚的。因此调整的另外一个讲法,就叫「动手脚」。不过费雪的怀疑是有其理论基础的,因为这样完美的结果表示,它的结果是不允许抽样带来的合理误差。事实上,每个样本都会对应一个统计量,通常不同样本的统计量,彼此并不完全相同。就像用望远镜去量测天空中某个星球的距离,量测次数一多时,即使再怎么努力调整仪器,结果多少都会有一些起伏的。这种起伏就是抽样误差造成的,也有人归因于广义的噪声(noise)。真正的度量难免会掺杂著噪音,而有噪音的数据,其所对应的检定p值就不应该太小。而魏茨滕的p值小到10-6(百万分之一),因而让人对于其数据的取得产生一些疑问。

(三)最后一击
  最后,马凯等人又从历史的角度,再度批评了一番。由于目前这个圣经的版本,并不是一天定下来的,它与孟子、老子这些书一样,都是源远流传的,创作始于两、三千年前。以1947到1951年间,在死海的西北端发现的《死海古卷》来说,那是一个写在羊皮上,相当古老的的圣经原文,很可能是目前所知最古老的圣经书籍。书里的〈以赛亚书〉相当完整,还有很多〈创世记〉的片段,但大都是残卷。后来的圣经版本很可能是根据这些残卷再修正的,因此,经文如果有密码,这个密码也不可能从最原始的版本流传至今。因为经文在流传的过程,难免会经过删减和插增,如果先前定义的跃距d很小的话,选出的ELS不变的机会就很大,密码就不会被删掉;可是如果d很大的话,只要中间删掉一个字母,就不再是一个完整的ELS。例如,卓思宁在找出拉宾被刺这个密码时用的d=4,772,在间隔这么长的字串中,要保证没有被插入或删除实在很难。所以从文献流传的观点来看,也没办法保证密码不是后天造成的。
  最后马凯他们下了两个结论。首先,他们认为这篇文章不是故意找一个检定方法来配合数据的。也就是说,并不是数据已经在那边,然后再故意找一个方法将推论做得很好。举例来说,如果要用平均值(方法),来代表王永庆先生与笔者的财富状况(数据),那么笔者当然就会显得很有钱,可是那个平均值一定不能代表笔者的收入,这个方法只是故意要造成笔者很有钱的结论。这就是所谓的,用方法来配合数据,虽然数据是客观的,方法却是为了产生特定的效果而制定的。马凯他们表示,目前这篇文章并不是这样的,它是透过拉比的选取,因而调整了数据来配合这个检定的。就象是前述王永庆和笔者的例子,把王永庆换成一位比他穷一点的人,再用一位比笔者富有一点的人来取代笔者,使两者间的收入差异不大,这时用平均值来做代表,自然就合乎统计的道理了。
  第二个结论则是全篇文章的总结。他们认为并没有证据显示,有办法从ELS找到密码。拉比的名字跟生日这些配对的安排相近与否,纯属机运。主编卡斯也对此做了响应,他在马凯等人的文章之前是这么介绍的:「……正如他们所下的结论,这个谜题的确象是解决了。」Statistical Science似乎有意为这场论战谱上休止符,而不想再争辩下去了。

结    语
  读者如果学过计算机或是统计学,最近一定听过一个名词,叫做data mining,也就是到data里去采矿,因此有人将它翻译成「信息探勘」〔注6〕。要采什么矿呢?就是在一个庞大的数据里,找出它的规律性来。例如,如果对超市里进、出帐的项目了解清楚的话,就会知道哪些产品,在什么季节,顾客会比较需要,然后就可以在适当的时间,多进一些这方面的产品;同时从这些庞大的数据里,了解顾客消费的规律性,就能企画出有效率的行销手法,这些就是信息探勘的意义。可是,信息探勘处理的数据通常是相当庞大的,而且绝对比一般应用时碰到的例子项目来得多,数量来得大。尤其是像银行一天的进出,笔数相当惊人,因此不用计算机处理不行。于是就有很多软件公司,看准这点商机,开始贩售整套信息探勘的软件包,这时候要特别小心。以「圣经密码」的例子来说,它虽然有一个相当庞大的数据,却也有办法找到一个很像很有规律性的东西来,但是不是真的有那样的规律性呢?则是值得深思的。所以当各位忙著「探勘」时,不妨学习它的正面意义,不过同时也要小心,你所采到的是金沙呢?还是石头呢?是不是该找位统计学家问问看呢?

注    释
1. 公元前五世纪的斯巴达,已经利用密码棒传递军事讯息,其加码方法也是采取等距字母序列的方式,详见参考数据4。
2. 这段是拉班跟他的「长工」兼女婿雅各讲的话。雅各先后娶了拉班两个女儿为妻,后来因为不堪剥削,带领妻儿逃离,途中为拉班追及。文中的sons不是现在常用的含义—儿子,而是另一个含义—后裔。这里指的是拉班的孙子,而daughters指的是他的两个女儿。
3. 希伯来文和中文一样是由右向左写的,本文为解释方便写成由左向右的方式。原始的书写希伯来文只有子音字母,元音的字母是后来发展出来的。由于阅读时要自行补上元音,这也可能造成解读上的歧异。有关圣经希伯来文的介绍,可以看参考数据8。
4. 有关拉姆西与艾狄胥的生平,可以看参考数据3。
5. 有关实验设计的一般讨论,可以看参考数据2。
6. 庞大的数据是近代电子学、计算机及数据库技巧的产物。人类基因组及天文数据都已有不少这类数据,这些领域的人对「信息探勘」也相当耳目能熟。
参考数据
1.Michael Dorsnin 著,杜默翻译(1997),《圣经密码》,大块文化出版公司。
2.David S. Moore 著,郑惟厚翻译(1999),《统计,让数字说话!》天下远见出版公司。
3. Bruce Schechter 著,曾蕙兰翻译(1999),《不只一点疯狂-天才数学家艾狄胥传奇》,先觉出版社。
4.Simon Singh著,刘燕芬翻译(2000),《码书》,台湾商务出版。
5. Bar-Hillel, M., Bar-Natan, D. and McKay, B.D. (1998). Torah codes: Puzzle and solution. Chance 11, 13-19.
6. Kass, R. (1994). Editor's remark on "Equidistant letters sequences in the Book of Genesis". Statist. Sci. 9, 306.
7. Kass, R. (1999). Introdution to "Solving the Bible Code Puzzle" by Brendan McKay, Dror Bar-Natan, Maya Bar-Hillel and Gil Kalai. Statist. Sci. 14, 149.
8.Kittel, B. P., Hoffer, V. and Wright, R. A. (1989). Biblical Hebrew: A Text and Workbook. Yale University Press, New Haven.
9. McKay, B. Bar-Natan, D. Bar-Hillel, M. and Kalai, G. (1999). Solving the Bible code puzzle. Statist. Sci. 14, 150-173.
10. Pocock, S.J. (1984) Clinical Trials: a practical approach. 1984, Wiley & Sons, N.Y.
11. Witztum, D. Rips, E. and Rosenberg, Y. (1994). Equidistant Letters sequences in the Book of Genesis. Statist. Sci. 9, 429-439.


(本文摘自《科学月刊》)

chutium 扫校

0 0

相关博文

我的热门文章

img
取 消
img