他们不是预言家,正态分布的前世今生
分类:世界史

原标题:他们不是预言家,但却神奇的梦见或预测了自己的死亡!

你有没有听说过死亡预言?都说有些人某些时候都会有很强烈的第六感,你有过这样的感觉吗?今天就给大家讲讲那些曾经预言到死亡的人......

神说,要有正态分布,就有了正态分布。
神看正态分布是好的,就让随机误差服从了正态分布。
创世纪—数理统计

关于世界的末日,有玛雅人预言到2012年就是太阳陨落的时候,而却都是没什么发生,而你知道世界末日是否真的存在吗,对此世界什么时候末日到底如何?下面一起来看看吧。

图片 1

主持人说自己会被撞死

1. 正态分布,熟悉的陌生人

图片 2

第一个,总统梦见自己死去,而现实中他真的那样死去了

弗兰克·帕斯托雷原来是一个非常有名的棒球运动员,后来在洛杉矶开设了基督教广播电台节目并担任主持人。

学过基础统计学的同学大都对正态分布非常熟悉。这个钟形的分布曲线不但形状优雅,它对应的密度函数写成数学表达式

世界什么时候末日

林肯被杀死之前曾做了一个梦,梦里面自己被暗杀了,林肯执政时美国正处于内战爆发之际,林肯要面对的压力很大,所以做一些这样的梦无可厚非,林肯在回忆梦的时候说当时他正在下楼梯,走着走着就听见了哭声,后来当他穿过一个一个房间来到东室时他看见士兵们围着一个棺材在落泪在哭泣,林肯发现棺材里躺着的是自己。这个梦让林肯感到烦恼感到暴躁,然而可怕的是在1865年的4月14号那天林肯真的死了,他的尸体也真的被放在了东室,而围着他的棺材的正是那些士兵们。

在一次节目中,他对一起致命的摩托车事故进行评论,跟听众一起探讨有关人的来世的话题。他说:“大家都知道我平常是骑摩托车出行,所以随时有遭遇事故的可能。要是碰到那种从共乘车道突然开到机动车道、还不给你打变道指示灯的傻x,那我估计会在210高速公路上被撞得一塌糊涂,身首异处。”

f(x)=12π−−√σe−(x−μ)22σ2

世界末日的语言起因是什么

图片 3

图片 4

也非常具有数学的美感。其标准化后的概率密度函数

世界末日的预言和各种传说起源自原始宗教学,在宗教学上把原始宗教称作萨满教。这里的萨满教不是清代萨满教。早耶稣审判全人类 期的人类追求天人合一的思想。认为人的死亡是与自然的融合的,因此把死亡看做是一种神圣的过程。从而产生了末日思想了。但是此时末日学说指的是人的一生,顺其自然的衰老死去。而不是后期演化成为自杀和追求末日到来。随着早期人们征服自然战胜自然思想的膨胀,早期宗教出现了较大的分裂。寻求天人合一思想的派系逐渐缩小。但是思想和理论被别的宗教吸收成为了末日审判的一种思维模式,如北欧神话诸神的黄昏、基督教、犹太教、天主教、新教、伊斯兰教等的弥赛亚在末日的审判。其实这些都是合理和思想继承,所宣传的是人要不惧怕死亡,顺其自然的生老病死。因此才有很多为世人津津乐道的末日文化。如北欧神话的诸神黄昏最后的篇章是出现一个新的世界,而这个新世界就是现在。玛雅神学中世界有5个太阳时代组成,截止2012年12月为最后的太阳时代,预言中以蛇代表世界轮回,第五个太阳时代消失后就出现一个新的美好世界。不过玛雅说的第五个太阳是按照太阳历法记录,实际第五个太阳纪结束是2012年12月21日。玛雅的神话学说,和印度很相似,蛇咬着自己的尾巴代表轮回。

第二个,彗星的出现是他出生的日期,也是他死去的日期

巧的是,就在说完这话不到三小时,骑着摩托车的帕斯托雷就在下班途中被一个汽车失控的女人给撞了。帕斯托雷头部遭受重创,不久便与世长辞。

f(x)=12π−−√e−x22

末日学说并不可怕,正确的看待解读才可以了解人们追求天人合一思想的内涵。而过度解读加速世界末日、预测世界末日、只不过的是一种错误认识,如日本奥姆真理教认为用屠杀的方法加速世界末日到来,因为在日本东京地铁站施放沙林毒气造成多人死亡的事情,也有诸多外国宗教团体集体自杀希望快速迎来世界末日,这样都是错误认识末日学说。末日学说是希望人们对2012年的生活有很大的信心....

马克-土温是众所周知的作家,他的文学成就很高,但他的死亡也十分蹊跷,马克-土温出生的年份是彗星从地球上空划过的日子,也就是1835年,那是彗星的75年一次回归,马克-土温对于他出生的年份与彗星回归的年份相同而感到欣喜,所以他才会在纸上写道,他希望自己能够在下一次彗星划过地球上空的日子里和彗星一同离去,因为他是随着彗星一起降生到这个地球上的,所以他希望有始有终。而神奇的是马克-土温的预言真的成真了,尽管他并非预言家但他预言自己的死亡却预测的十分准确,那是1910年的4月21号同时也是彗星离地球最近的一天,那一天它果然将这位著名的作家带离了这个世界。

作曲家迷信13劫

更加的简洁漂亮,两个最重要的数学常量 π、e 都出现在这公式之中。在我个人的审美之中,它也属于 top-N 的最美丽的数学公式之一,如果有人问我数理统计领域哪个公式最能让人感觉到上帝的存在,那我一定投正态分布的票。因为这个分布戴着神秘的面纱,在自然界中无处不在,让你在纷繁芜杂的数据背后看到隐隐的秩序。

事实已经证明,2012年12月22日这天,太阳照常升起,一切谣言不攻自破]

图片 5

阿诺德·勋伯格是一位着名的作曲家,他非常迷信,一生都对数字很敏感。因为出生于1874年9月13日,所以勋伯格总觉得自己会在一个含有13倍数的年份死去,对13的恐惧情绪吞噬着他,使他终身都遭受着 “恐数字13症”的折磨。

 

关于世界末日的意思

第三个,数学家利用数学算出了自己的死期

图片 6

图片 7

宗教预言与神话中的世界末日,主要是指地球文明的终结。非理性思维是相信世界末日的根基之一。理性思维认为事物的发展是合乎其内在逻辑或自然法则的,而不是某种神意、伟人意志或偶然变故的组合。从这个意义上看,相信世界末日则是典型的非理性思维。

亚伯拉罕-棣莫弗在数学方面十分有研究和成就而且他还出版了许多有关数学方面的著作,那些书籍对人类都有着非常深远的影响。棣莫弗擅长数学,不仅用数学赢得了荣誉还用数学预测出了自己会在哪一天死去,当时的棣莫弗年纪已经大了且身体的状况也不如之前了,甚至一天比一天差,为了调养身体棣莫弗增加了自己的睡眠时间,每天多睡15分钟。关于死亡,他预测自己将在1754年的11月27号死去而令人惊奇地是这位著名的数学家真的就是在这一天死去的,一如他自己预测的那样。返回搜狐,查看更多

1951年,勋伯格预感死期将至,于是请了一位名叫戴恩·罗德耶的天文学家来给自己看星象。令勋伯格感到惊恐的是,这位预言家告诉他不必担心含有13倍数的年份,因为他的死期更可能是在年龄相加为13的年份。

正态分布曲线

但是科学上所谓的世界末日,是指宇宙系统的崩溃或人类社会的灭亡。另有以世界末日命名的歌曲和电影等。

责任编辑:

说来也怪,没过多久,在同年的7月13日星期五,勋伯格就病倒在床,这一年他正好76岁。勋伯格身卧病榻,一直到临近午夜12点,本以为自己就要挨过这个“13劫”,没想到就在午夜钟声敲响的前几分钟,突然离世。

正态分布又通常被称为高斯分布,在科学领域,冠名权那是一个很高的荣誉。2002年以前去过德国的兄弟们还会发现,德国1991年至2001年间发行的的一款10马克的纸币上印着高斯(Carl Friedrich Gauss, 1777-1855)的头像和正态密度曲线,而1977年东德发行的20马克的可流通纪念钢镚上,也印着正态分布曲线和高斯的名字。正态分布被冠名高斯分布,我们也容易认为是高斯发现了正态分布,其实不然,不过高斯对于正态分布的历史地位的确立是起到了决定性的作用。

还有一种解释是人类将地球毁灭,世界资源一点一点被毁灭。推荐阅读;人灵魂的重量是多少

数学家算出自己的死期

图片 8 图片 9   图片 10
德国马克和纪念币上的高斯头像和正态分布曲线

历史上的世界末日预言

亚伯拉罕·棣莫弗是一位颇有成就的数学家,有关着作均影响深远。棣莫弗不仅利用数字给自己赢得了美誉,还利用数字预测出了自己的死期。

正态曲线虽然看上去很美,却不是一拍脑袋就能想到的。我们在本科学习数理统计的时候,课本一上来介绍正态分布就给出分布密度函数,却从来不说明这个密度函数是通过什么原理推导出来的。所以我一直搞不明白数学家当年是怎么找到这个概率分布曲线的,又是怎么发现随机误差服从这个奇妙的分布的。我们在实践中大量的使用正态分布,却对这个分布的来龙去脉知之甚少,正态分布真是让人感觉既熟悉又陌生。直到我读研究生的时候,我的导师给我介绍了陈希儒院士的《数理统计学简史》这本书,看了之后才了解了正态分布曲线从发现到被人们重视进而广泛应用,也是经过了几百年的历史。

1.公元前2800年:亚述人泥碑上记述了世界末日,这是人类最古老的世界末日预言。碑文上写道:我们的土地在今后将衰落。种种迹象表明土地将迅速走向灭亡。贿赂和腐败相当普遍。除非寻找到末日影子。在此基础上引证出一种新的末日解释末日不是指物质的消亡,而是人类精神上的伦理道德等世界观的崩溃,末日是指崩溃高峰期开始的时间点,在这一时间点后,崩溃的历程将成几何倍数加速。表现在物质客观上的就是腐败,堕落,贪欲,淫乱,亲情沦丧等现象的普遍出现。

图片 11

正态分布的这段历史是很精彩的,我们通过讲一系列的故事来揭开她的神秘面纱。

2.公元1世纪:基督教、天主教、东正教、犹太教、伊斯兰教等都继承了末日审判的理念。

随着年龄的增长,棣莫弗的身体状况也每况愈下。身体越疲劳,需要的睡眠时间就越久,于是棣莫弗每天都会给自己多加15分钟的睡眠时间。他预测到在1754年11月27日,每天累加的15分钟会正巧凑足24小时睡眠时间,这也就意味着自己在那一天会长睡不醒。没想到,这位数学家真的就在那一天过世了。

 

3.公元2世纪:孟他努教(Montanists)可能是第一个得到普遍承认的信奉世界末日的邪教。该教由孟他努斯在公元155左右创建。他的信徒认为耶稣基督即将重返人间,在土耳其中部安纳托利亚建立一个基地,他们在那里一起等待世界末日的到来。孟他努斯是一位有着巨大感召力的宗教领袖,可以用多种语言向教徒发表演说,但他所有的预言到最后都落空了。

作家写的小说变成现实

2. 邂逅,正态曲线的首次发现

4.公元970年3月25日:洛塔林王朝(Lotharingian)算士们认为他们在《圣经》中发现了证据:某个宗教节日的关联词预示着世界末日的时间。他们只是在第一个千年到来前夕散布世界末日言论的无数信徒的一部分。圣伯诺修道院的一个修道士给他们的国王写了一封信,抱怨了洛塔林人的做法:由于天使报喜节指向耶稣受难日的传言几乎遍布地球每个角落,毫无疑问,这可能是世界末日。在这个不祥的日子过去前,人们对千年的恐慌持续了至少30年。

威廉·托马斯·斯特德是一名作家,也特别迷信。他坚信自己会通灵,能跟幽灵跟鬼魂对话。斯特德被称为“现代小报之父”,据说他的有些信息就是从与幽魂的对话中得来的。虽然这个传言听上去有些牵强,但他对自己死因的预言真是准到让人无话可说。

第一个故事和概率论的发展密切相关,主角是棣莫弗(Abraham de Moivre, 1667-1754) 和拉普拉斯 (Pierre-Simon Laplace 1749-1827)。拉普拉斯是个大科学家,被称为法国的牛顿;棣莫弗名气可能不算很大,不过大家应该都应该很熟悉这个名字,因为我们在高中数学学复数的时候都学过棣莫弗公式

5.公元1284年:教皇英诺森三世预测耶稣基督将在这一年会再次降临人世。他预言的日期根据穆斯林信仰开始的日期,然后再在这一日期基础上加上666年而得到的。

图片 12

(cosθ isinθ)n=cos(nθ) isin(nθ).

6.波提切利的《神秘的诞生》:《神秘的诞生》这幅油画出自意大利文艺复兴初期画家桑德罗波提切利(SandroBotticelli)之手,现收藏在伦敦国家美术馆。波提切利曾用希腊文在油画上题词,将16世纪初期称之为世界末日来临前的一个时期,也就是所谓的苦难日,并预言基督将于1504年左右再临人世。

斯特德曾发文称,假如两艘轮船在大西洋发生撞击事故,船上未配备足够的救生船,就会导致数百人丧生,极其危险,该文也成为斯特德给自己死因预言埋下的第一个伏笔。

而棣莫弗所写的《机遇论》(The doctrine of chances)是概率论发展历史中很重要的一本书。牛顿对棣莫弗十分欣赏,遇到学生向他请教概率方面的问题时,他就说:“这样的问题应该去找棣莫弗,他对这些问题的研究比我深入得多。”

7.公元1524年2月1日:一群英国占星家预言,人类将在这一年迎来第二场大洪水,这场灾难的源头就在泰晤士河。这一预测让不少人感到恐慌,当时共有大约2万人弃家逃到高处,但最后全都白跑一趟。有意思的是,犯这种错误的不仅仅是英国占星家,德国占星家约翰尼斯斯图弗勒(JohannesStoeffler)也在同一月做出类似的预言。

第二个更加诡异的伏笔出现在他所作的另一篇文章《从旧世界到新世界》,斯特德在文中讲述了这样一个故事:一艘轮船触礁冰山后,很多乘客丧失性命,还有些遇难者因一位名叫爱德华·史密斯的船长的解救而幸存下来。

 

8.公元1648年:在仔细研究犹太教神秘教义之后,土耳其犹太教牧师沙巴蒂萨维(SabbataiZevi)预言,弥赛亚(犹太人所期待的救世主)将于1648年复临人间,他的名字就叫沙巴蒂萨维。1648年早已成为过去,但萨维所说的大灾难根本没有发生。

1912年,斯特德踏上泰坦尼克号游轮,前往美国参加一场和平会议,游轮触礁冰山的时候,他正待在自己的客舱里。等他走到甲板,发现救生筏已经不够用了。斯特德感到十分惊恐,意识到自己之前写的故事正一幕幕在自己眼前呈现。

图片 13图片 14
棣莫弗和拉普拉斯

9.公元1666年:这一年出现了太多预示世界末日的征兆。由于年份中包含3个6,一些人便将它与《圣经启示录》中的兽数666联系起来,长时间肆虐的英国瘟疫更加剧了人们的恐惧。面对这些所谓的预兆,很多人越发相信,发生在这一年的伦敦大火就是最后审判日的一种预兆。

于是他放弃了求生的念头,走到一等舱的吸烟室,一个人坐下来看书,直到被海水吞没。斯特德是个很迷信的人,可是他只意识到了轮船失事、乘客丧生的预言,却忘记了还有位船长可以解救很多遇难者的预言,而且这位泰坦尼克号的船长正是爱德华·史密斯。

古典概率论发源于赌博,惠更斯(Christiaan Huygens, 1629-1695)、帕斯卡(Blaise Pascal, 1623-1662)、费马(Pierre de Fermat, 1601-1665)、雅可比·贝努利(Jacob Bernoulli, 1654-1705)都是古典概率的奠基人,他们那会研究的概率问题大都来自赌桌上,最早的概率论问题是赌徒梅累在1654年向帕斯卡提出的如何分赌金的问题。统计学中的总体均值之所以被称为期望 (Expectation), 就是源自惠更斯、帕斯卡这些人研究平均情况下一个赌徒在赌桌上可以期望自己赢得多少钱。

10.公元1794年:美以美会创始人查尔斯卫斯理(CharlesWesley)相信,世界将在这一年走向毁灭。无独有偶的是,震颤派也预言这一年将出现所谓的最终审判。

总统的死亡梦境成真

有一天一个哥们,也许是个赌徒,向棣莫弗提了一个和赌博相关的问题:A、B 两人在赌场里赌博,A、B各自的获胜概率是p,q=1−p, 赌 n 局。两人约定:若 A 赢的局数 X>np, 则 A 付给赌场 X−np 元;若 X<np,则B 付给赌场 np−X 元。 问赌场挣钱的期望值是多少。

11.公元1814年12月25日:在英国德文郡,一个名叫乔安娜南考特(JoannaSouthcott)的女人自称是先知,并断言自己以后怀上的孩子就是耶稣;救世主将借助她的身体在1814年圣诞节那一天再次降临人间。具有讽刺意味的是,南考特的处女之身一直保持到60多岁,但她仍然相信自己的预言一定会成为现实。12月25日最终没有成为世界末日,但确实有重大而悲惨的事情发生自称先知的南考特正是在这一天告别人世的。有意思的是,很多人仍旧相信她的预言。1927年,有人当着格兰瑟姆主教的面打开一个神秘的密封盒子,据说里面藏着南考特留下的一条重要信息。盒子打开后,人们并没有发现所谓的重要信息,倒是发现了一张彩票。

亚伯拉罕·林肯在遭遇枪杀的两周前, 曾经做过一个关于自己被暗杀的梦。当时正值美国内战时期,面对铺天盖地的重重压力,也难怪林肯会经常做一些涉及暴力情节的梦,陷入逼真的梦境。他回忆说,他梦到自己走下楼梯,听到阵阵啜泣声,气氛死一般的沉寂。他搜寻整个房间,发现一个人都没有,但一切似乎又那么熟悉。

问题并不复杂, 本质上是一个二项分布,若 np 为整数,棣莫弗求出最后的理论结果是

12.公元1836年:余家宝是卫理公会教派领导人约翰卫斯理(JohnWesley)的弟弟。虽然弟弟的预言已经证实是错误的,但约翰还是决定亲自上阵,预言1836年就是世界末日,《启示录》中描述的大怪兽将在这一年出现。不幸的是,约翰最终步弟弟后尘。

图片 15

2npqb(n,p,np)

13.公元1847年8月7日:德国曾出现一个很小的邪教,名为Harmonists,如今早已被很多人遗忘。它的领导人乔治拉普(GeorgeRapp)相信耶稣会在他死前重返人世。直到生命的最后一刻,拉普也未曾动摇过这种信念。但事实证明,他的预言是错的。

林肯走到东室,看到士兵们保卫着一具棺材,棺材里躺着一具裹着葬服的尸体。大家在房间里一同哀悼,他走上前询问士兵白宫里死的人是谁,士兵回答说:“是总统,总统被暗杀了。”这个梦让林肯感到极度烦扰,在1865年4月14日,梦境成真,而他的棺材也真的被放置在白宫东室,由士兵保卫。

其中 b(n,p,i)=(ni)piqn−i 是常见的二项概率。 但是对具体的 n, 因为其中的二项公式中有组合数,要把这个理论结果实际计算出数值结果可不是件容易的事, 这就驱动棣莫弗寻找近似计算的方法。

14.公元1874年:耶和华见证人教派曾经多次预言世界末日会来临,这个年头值得记住,因为它是这个教派第一次预测世界末日出现的年份。

“拳圣”做梦将对手打死

 

15.公元1881年:耶和华见证人的又一次预言世界末日出现的年份,使用特殊的金字塔几何学推算世界大事的金字塔神秘学专家通过数学命理学也预测世界末日会在这一年出现。据说,16世界著名的预言家希普顿婆婆也曾预测:世界末日将在1881年到来。虽然后来这句预言被证明是错误的,但是,仍不能阻止少数人加入人们所称为的千年恐慌当中。

“拳圣”舒格·雷·罗宾逊曾做了一个关于他对手之死的梦,这个梦非常诡异。1947年6月25日,罗宾逊对战几米·多利。在赛前不久,罗宾逊就一再念叨说,他做了一个特别逼真的梦,梦见他在拳台上用一记左勾拳将多利打死了。这个梦让罗宾逊感到不安,他甚至好几次都想着要退出比赛。

与此相关联的另一个问题,是遵从二项分布的随机变量 X∼B(n,p), 求X 落在二项分布中心点一定范围的概率 Pd=P(|X–np|≤d)。

16.公元1910年5月18日:虽然以前流传的很多世界末日的预言都没有实现,但是,哈雷彗星1910年的再临被当时很多人认为是人类的威胁,当时人们担心的是它尾部散发毒气。哈雷彗星可能是第一个有科学依据而不是宗教误解的天启恐慌。有趣的是,出生于1835年另一个哈雷彗星年的美国作家马克吐温对自己死于1910年的准确预测倒是与彗星的这次再临恰巧相合。

图片 16

对于 p=1/2 的情形, 棣莫弗做了一些计算并得到了一些近似结果,但是还不够漂亮,幸运的是棣莫弗和斯特林(James Stirling, 1692-1770)处在同一个时代, 而且二人之间有联系,斯特林公式是在数学分析中必学的一个重要公式

17.公元1919年12月17日:气象学家艾伯特波塔断言,行星的罕见会合会形成强大的重力或者磁通流量,会使得巨大的太阳耀斑向地球爆发,把大气烧成灰烬。听到这一预言后,有些胆小者害怕地球灭亡竟然选择自杀。仔细想想,你会感觉这一理论相当荒谬,是科学法的又一失败。

一位神父安抚罗宾逊,告诉他那只是个梦,不会成真的,劝他继续参加比赛,罗宾逊这才答应。

n!≈2πn−−−√(ne)n.

18.公元1967年:世界末日预言最火爆的一年,吉姆琼斯、文鲜明(SunMyungMoon)以及自称与UFO接触过的乔治范塔塞尔都预言,这一年的爱之夏将是世界末日。

比赛过程中,罗宾逊一直处于优势地位,在第八回合,罗宾逊一记左勾拳有力地击向多利的头,将其打倒在地,昏迷不醒。当裁判准备宣布罗宾逊为最后赢家时,大家才意识到倒地的多利不只是轻微的失去知觉。他被火速送往医院救治,然而却再也没有醒来,恰恰应验了罗宾逊的那个梦。

 

19.公元1982年3月10日:几乎是1919年错误预言的翻版,一本广为流传的科学著作《木星效应》告诫人们行星汇合将引起大地震或者太阳耀斑,或者两者兼有。事实上,我们唯一能感知的行星会合的引力效应是可能在某些地方发生潮汐,潮峰比平常高0.04毫米。1980年,福音传道者帕特罗伯逊也曾预言:我肯定,1982年是决定地球命运的一年。

王妃的危险时期

事实上斯特林公式的雏形是棣莫弗最先得到的,但斯特林改进了这个公式,改进的结果为棣莫弗所用。1733 年,棣莫弗很快利用斯特林公式进行计算并取得了重要的进展。考虑 n 是偶数的情形,二项概率为

20.公元1987年4月29日:有世界末日贩子之称的利兰延森又开始散布地球即将灭亡的小道消息。这一次,他的理论是地球和哈雷彗星相撞可能导致世界末日。

戴安娜王妃的死,与其说是预言,不如说是一场阴谋论。她曾给自己特别信任的皇室管家保罗·伯勒尔写过一封信,信中她说总觉得自己会死于一起车祸。据说有王子身边的亲信给戴安娜王妃传信,告诉她王子正在密谋准备“解决”她。

b(n,12,i)=(ni)(12)n

21.公元1988年:这次地球末日的恐慌主要由1970年的畅销书《圣经预言:消失的伟大地球》引起。书中解释了《福音书》中的一段话,说这段话的意思是救世主将在以色列建国40年内再临。

图片 17

以下把b(n,12,i)简记为b(i), 通过斯特林公式做一些简单的计算容易得到,

22.公元1992年9月28日:古怪的传教士罗伦斯图尔特公开宣称,他破译了圣经中的一句话,这一天将是世界末日。他不断鼓动人们采取疯狂行动。后来,斯图尔特因绑架罪入狱,他挑起的末日疯狂也达到了极点。

在信里,黛安娜还把自己能想到的可能计划实施这场暗杀行动的人的名字写了下来。令人感到蹊跷的是,在那么多可以暗杀戴安娜的方式中,戴安娜真的就如自己料想般死于车祸。虽然已经证实这封信的确是戴安娜的字迹,但因为它是在管家伯勒尔准备出版其关于黛安娜生活的新书之际现世的,所以人们对该信的真实性仍有疑虑。不过,不管这是场阴谋还是纯属巧合,我们无法否认这个预言真的让人很匪夷所思。

b(n2)≈2πn−−−√,

23.公元1997年3月到5月:这一年,天文爱好者卡克施拉梅克对海尔-波普彗星进行观察时得出了错误结果,导致世界末日论的产生。他在一家网站上留言说,一颗伴星紧紧跟随在这颗彗星之后。这家很有影响力的网站将这条消息不断夸大,并传播到全世界。引起这次末日恐慌的另一个原因是,有人提出太阳系将穿过一个神秘的和完全虚构的太空区域,该区域被称作光子带(PhotonBelt)。邪教天堂之门利用这些谣传,在这一年的3月制造了集体自杀事件。

运动员的死因来自他的预言

b(n2 d)b(n2)≈e−2d2n,

24.公元1998年3月31日上午12时01分:这是有关基督复临日最精确的一次预测。台湾邪教真理之路(TheTrueWay)的领导人陈恒明在美国电视台上宣布,这一刻上帝将要复临,他将乘坐飞船在地球着陆。当然,上帝没有如期降临大地,陈欣然承认他的过错,并愿意被钉死在十字架上。但是好像没有人对此感兴趣。

20世纪70年代,皮特·马拉维奇(Pete Maravich)曾效力犹他爵士队(Utah Jazz)和亚特兰大老鹰队(Atlanta Hawks),被认为是史上最优秀的篮球运动员之一。1974年,在Beaver County Times报纸的采访中,马拉维奇曾说:“我可不想在NBA打十年球,然后40岁死于心脏病”,这一奇怪的言论恰恰印证了其日后的死因。

于是有

25.公元1999年:在1998年和1999年间,有关世界末日的谣传接连不断,末日恐慌达到空前绝后的程度。一些占卜者和预言家说,这一年的7月世界末日将会降临。7月份的恐慌刚刚结束不久,又有谣传说卡西尼号将撞上地球,释放出它携带的放射性燃料。

图片 18

b(n2 d)≈22πn−−−√e−2d2n.

26.公元2000年:物理学家艾萨克牛顿都认为,《启示录》中预言的世界末日将在2000年发生,并在他的《丹尼尔预言(PropheciesofDaniel)》和《圣约翰末日预言(ApocalypseofSt.John)》中作了详细介绍。事实证明,牛顿也有错的时候。

或许是纯属巧合,也或许是造化弄人,马拉维奇死于1988年,时年40岁,正巧效力NBA10年。更不可思议的是,马拉维奇虽然看着非常健康,但最后却死于一种无法诊断的罕见的心脏病,心脏先天缺少一条左冠状动脉。

使用上式的结果,并在二项概率累加求和的过程中近似的使用定积分代替求和,很容易就能得到

27.公元2006年2月12日:克林顿奥提兹在他的网站上声称,威廉王子将在这一天掌权,他指出,威廉王子正是《启示录》提到的那个反基督教的人。他还援引威廉王子的母亲戴安娜王妃的话说:我相信威廉能重建亚瑟王的宫殿,我将成为他的梅林。威廉将通过他的爱心、领导能力和同情心改变君主制。

与哈雷彗星同来,也同去

P(∣∣∣Xn–12∣∣∣≤cn−−√)=≈=≈∑−cn√≤i≤cn√b(n2 i)∑−cn√≤i≤cn√22πn−−−√e−2i2n∑−2c≤2in√≤2c12π−−√e−12(2in√)22n−−√∫2c−2c12π−−√e−x2/2dx.(1)

28.公元2007年4月13日:一位没透露姓名的赌博者与著名的赌博公司立博(Ladbrokes)打赌10英镑,预言这一天将出现世界末日,赔率是10000比1。

众所周知,马克·吐温(Mark Twain)以其文学成就闻名于世,但大家可能不知道他还曾准确预言了自己的死。土温出生于1835年,正巧赶上75年回归一次的哈雷慧星划过长空。据说在土温逝世的前一年1909年,他曾写下如是文字:“我在1835年与哈雷彗星同来。明年它将复至,我希望与它同去。如果不能与哈雷彗星一同离去,将为我一生中最大的遗憾。上帝无疑说过:兹有两种莫名其妙的怪物,他们既同来同,就该同去。”

 

29.公元2008年3月21日:一个很小的基督教派上帝目击者(TheLordsWitnesses)在他们的网站上宣布,这一天是世界末日,有意思的是,这个预言截止2012年12月21仍挂在其网站上!

图片 19

看,正态分布的密度函数的形式在积分公式中出现了!这也就是我们在数理统计课本上学到的一个重要结论:二项分布的极限分布是正态分布。

30.公元2011年5月11日:中国台湾地区风水先生王老师预言5月11日的早上10时42分37秒,将发生14级大地震,并会有140米高的海啸袭击台湾,他呼吁民众躲进货柜避难。结果地震也未发生。翌日,台湾警方以王老师涉嫌欺诈、违反社会秩序维护法为由,将他拘捕。

巧的是,一年后的1910年4月21日,哈雷彗星到达距地球最近点的第二天,时年75岁的吐温心脏病病发而死,他虽然不是预言家但却预言成真。

以上只是讨论了 p=1/2 的情形, 棣莫弗也对 p≠1/2做了一些计算,后来拉普拉斯对 p≠1/2 的情况做了更多的分析,并把二项分布的正态近似推广到了任意 p 的情况。 这是第一次正态密度函数被数学家刻画出来,而且是以二项分布的极限分布的形式被推导出来的。 熟悉基础概率统计的同学们都知道这个结果其实叫棣莫弗-拉普拉斯中心极限定理。

31.公元2011年5月21日:美国权威圣经学者哈罗德康屏日前表示真正的世界末日将于2011年5月21日到来,并称这样的说法能够在《圣经》上找到根据。而事实证明,5月21日这一天,地球上一切太平。

梦见自己会死亡

[棣莫弗-拉普拉斯中心极限定理]设随机变量 Xn(n=1,2,⋯) 服从参数为 n,p 的二项分布,则对任意的 x, 恒有

32.公元2011年10月21日:2011年5月21日地球没有发生世界末日,许多人都在质问美国权威圣经学者哈罗德康屏。后来他改口说:5月21日的计算有误,真正的世界末日是10月21日。对于他的说法,被大家作为笑料不再关心。 (事实上,不少基督教徒都从圣经中得到这样的一个暗示:2011年5月21日起基督将为世界带来审判,于2011年10月21日结束审判,届时被基督选取的人会直接被送往天堂,剩下的人直接接受末日的洗礼。当人类如同往常一般度过10月21日时,基督电台Family radio给出的解释是神允许这件事未经纠正地发生了。如果他愿意,他也是可以已经阻止这一切的。)

美国摇滚乐队Weezer的贝斯手米奇·威尔什(Mikey Welsh)曾在推特上发文,说他梦见自己即将离世,该预言最终应验,受到媒体广泛关注。虽然这位40岁的音乐家看上去很健康,但多年的药物滥用及精神崩溃已经透支了他的身体。2011年9月26日,威尔什发布了一条推特,写道“梦见自己下周会在芝加哥因心脏病而死亡,所以现在得赶紧立遗嘱了”。很快他又更正“不对,是下下周末”。

limn→∞P(Xn–npnp(1−p)−−−−−−−−√≤x)=∫x−∞12π−−√e−t22dt.

33.公元2012年12月21日:根据所谓的玛雅预言,第五太阳纪将于2012年12月21日结束,那个时候世界末日就会来临。事实胜于雄辩,所谓世界末日根本没有发生!!

图片 20

 

34.公元2013年:美国航空航天局在2010年6月发出所谓全球警告,地球将在2013年发生强烈的太阳风暴,事实胜于雄辩,一切也是谣言。 推荐阅读:关于人类的起源说法你知道哪些

除了这些邪门的预言,威尔什生前还曾在脸书上发布过一条动态,给一幅他自己画的艺术作品标价250美元:“如果你买这画的时候我还活着,画就标价250美元;如果你买的时候我已死去,这幅画的价格将成倍增加”。没过多久,威尔什就在芝加哥的一间酒店里离奇暴毙,而时间恰巧是他所预言的那天。警方怀疑威尔什是服食过量毒品导致意外身亡,但毒理学检测报告还未证实,所以其确切死因至今仍是个迷。

我们在大学学习数理统计的时候,学习的过程都是先学习正态分布,然后才学习中心极限定理。而学习到正态分布的时候,直接就描述了其概率密度的数学形式,虽然数学上很漂亮,但是容易困惑数学家们是如何凭空就找到这个分布的。读了陈希孺的《数理统计学简史》之后,我才明白正态分布的密度形式首次发现是在棣莫弗-拉普拉斯的中心极限定理中。数学家研究数学问题的进程很少是按照我们数学课本编排的顺序推进的,现代的数学课本都是按照数学内在的逻辑进行组织编排的,虽然逻辑结构上严谨优美,却把数学问题研究的历史痕迹抹得一干二净。DNA 双螺旋结构的发现者之一詹姆斯·沃森(James D. Watson, 1928-) 在他的名著《DNA 双螺旋》序言中说:“ Science seldom proceeds in the straightforward logical manner imagined by outsiders. (科学的发现很少会像门外汉所想象的一样,按照直接了当合乎逻辑的方式进行的。)”
棣莫弗给出他的发现后40年(大约是1770年), 拉普拉斯建立了中心极限定理较一般的形式,中心极限定理随后又被其他数学家们推广到了其它任意分布的情形,而不限于二项分布。后续的统计学家发现,一系列的重要统计量,在样本量 N 趋于无穷的时候, 其极限分布都有正态的形式, 这构成了数理统计学中大样本理论的基础。

看完这些令人感到匪夷所思的故事有没有感觉身上毛毛的?反正大千世界无奇不有,有那么多我们不清楚不了解的东西,有些话还是不能乱说,免得哪天真的一语成谶,就很可怕了。

棣莫弗在二项分布的计算中瞥见了正态曲线的模样,不过他并没有能展现这个曲线的美妙之处。棣莫弗的这个工作当时并没有引起人们足够的重视,原因在于棣莫弗 不是个统计学家,从未从统计学的角度去考虑其工作的意义。 正态分布(当时也没有被命名为正态分布) 在当时也只是以极限分布的形式出现,并没有在统计学,尤其是误差分析中发挥作用。这也就是正态分布最终没有被冠名 棣莫弗分布的重要原因。 那高斯做了啥工作导致统计学家把正态分布的这顶桂冠戴在了他的头上呢?这先得从最小二乘法的发展说起。

3. 最小二乘法,数据分析的瑞士军刀

第二个故事的主角是欧拉(Leonhard Euler, 1707-1783)、拉普拉斯、勒让德 (Adrien-Marie Legendre, 1752–1833) 和高斯, 故事发生的时间是18世纪中到19世纪初。17、18 世纪是科学发展的黄金年代,微积分的发展和牛顿万有引力定律的建立,直接的推动了天文学和测地学的迅猛发展。当时的大科学家们都在考虑许多天文学上的问题,几个典型的问题如下:

  • 土星和木星是太阳系中的大行星,由于相互吸引对各自的运动轨道产生了影响,许多大数学家,包括欧拉和拉普拉斯都在基于长期积累的天文观测数据计算土星和木星的运行轨道。
  • 勒让德承担了一个政府给的重要任务,测量通过巴黎的子午线的长度。
  • 海上航行经纬度的定位。主要是通过对恒星和月面上的一些定点的观测来确定经纬度。

这些天文学和测地学的问题,无不涉及到数据的多次测量、分析与计算;17、18世纪的天文观测,也积累了大量的数据需要进行分析和计算。很多年以前,学者们就已经经验性的认为,对于有误差的测量数据,多次测量取算术平均是比较好的处理方法。虽然缺乏理论上的论证,也不断的受到一些人的质疑,取算术平均作为一种异常直观的方式,已经被使用了千百年, 在多年积累的数据的处理经验中也得到相当程度的验证,被认为是一种良好的数据处理方法。

以上涉及的问题,我们直接关心的目标量往往无法直接观测,但是一些相关的量是可以观测到的,而通过建立数学模型,最终可以解出我们关心的量。这些问题都可以用如下数学模型描述:我们想估计的量是 β0,⋯,βp, 另有若干个可以测量的量 x1,⋯,xp,y, 这些量之间有线性关系

y=β0 β1x1 ⋯ βpxp

如何通过多组观测数据求解出参数β0,⋯,βp呢? 欧拉和拉普拉斯采用的的方法都是求解如下线性方程组

⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪y1=β0 β1x11 ⋯ βpxp1y2=β0 β1x12 ⋯ βpxp2⋮yn=β0 β1x1n ⋯ βpxpn.(2)

但是面临的一个问题是,有 n 组观测数据,p 1 个变量, 如果 n>p 1, 则得到的线性矛盾方程组,无法直接求解。 所以欧拉和拉普拉斯采用的方法都是通过对数据的一定的观察,把n个线性方程分为 p 1组,然后把每个组内的方程线性求和后归并为一个方程,从而就把n个方程的方程组化为p 1个方程的方程组,进一步解方程求解参数。这些方法初看有一些道理,但是都过于经验化, 无法形成统一处理这一类问题的通用解决框架。

 

以上求解线性矛盾方程的问题在现在的本科生看来都不困难,这就是统计学中的线性回归问题,直接用最小二乘法就解决了。可是即便如欧拉、拉普拉斯这些数学大牛,当时也未能对这些问题提出有效的解决方案。可见在科学研究中,要想在观念上有所突破并不容易。有效的最小二乘法是勒让德在 1805 年发表的,基本思想就是认为测量中有误差,所以所有方程的累积误差为

累积误差 = ∑( 观测值 – 理论值 )2

我们求解出导致累积误差最小的参数

β^==argminβ∑i=1ne2iargminβ∑i=1n[yi−(β0 β1x1i ⋯ βpxpi)]2.(3)

 

图片 21

勒让德

勒让德在论文中对最小二乘法的优良性做了几点说明:

  1. 最小二乘法使得误差平方和最小,并在各个方程的误差之间建立了一种平衡,从而防止某一个极端误差取得支配地位;
  2. 计算中只要求偏导后求解线性方程组,计算过程明确便捷;
  3. 最小二乘法可以导出算术平均值作为估计值。

对于最后一点,推理如下:假设真值为 θ, x1,⋯,xn为n次测量值, 每次测量的误差为ei=xi–θ,按最小二乘法,误差累积为

L(θ)=∑i=1ne2i=∑i=1n(xi–θ)2

求解θ 使得 L(θ)达到最小,正好是算术平均 x¯=∑ni=1xin。

 

由于算术平均是一个历经考验的方法,而以上的推理说明,算术平均是最小二乘法的一个特例,所以从另一个角度说明了最小二乘法的优良性,使我们对最小二乘法更加有信心。

最小二乘法发表之后很快得到了大家的认可接受,并迅速的在数据分析实践中被广泛使用。不过历史上又有人把最小二乘法的发明归功于高斯,这又是怎么一回事呢。高斯在1809 年也发表了最小二乘法,并且声称自己已经使用这个方法多年。高斯发明了小行星定位的数学方法,并在数据分析中使用最小二乘法进行计算,准确的预测了谷神星的位置。

扯了半天最小二乘法,没看出和正态分布有任何关系啊,离题了吧?单就最小二乘法本身,虽然很实用,不过看上去更多的算是一个代数方法,虽然可以推导出最优解,对于解的误差有多大,无法给出有效的分析,而这个就是正态分布粉墨登场发挥作用的地方。勒让德提出的最小二乘法,确实是一把在数据分析领域披荆斩棘的好刀,但是刀刃还是不够锋利;而这把刀的打造后来至少一半功劳被归到高斯,是因为高斯不但独自的给出了造刀的方法,而且把最小二乘这把刀的刀刃磨得无比锋利,把最小二乘法打造成了一把瑞士军刀。高斯拓展了最小二乘法,把正态分布和最小二乘法联系在一起,并使得正态分布在统计误差分析中确立了自己的地位,否则正态分布就不会被称为高斯分布了。 那高斯这位神人是如何把正态分布引入到误差分析之中,打造最小二乘法这把瑞士军刀的呢?

4. 众里寻她千百度,误差分布曲线的确立

第三个故事有点长,主角是高斯和拉普拉斯,故事的主要内容是寻找随机误差分布的规律。

天文学是第一个被测量误差困扰的学科,从古代至18世纪天文学一直是应用数学最发达的领域,到18世纪,天文学的发展积累了大量的天文学数据需要分析计算,应该如何来处理数据中的观测误差成为一个很棘手的问题。我们在数据处理中经常使用平均的常识性法则,千百来来的数据使用经验说明算术平均能够消除误差,提高精度。算术平均有如此的魅力,道理何在,之前没有人做过理论上的证明。算术平均的合理性问题在天文学的数据分析工作中被提出来讨论:测量中的随机误差应该服从怎样的概率分布?算术平均的优良性和误差的分布有怎样的密切联系?

伽利略在他著名的《关于两个主要世界系统的对话》中,对误差的分布做过一些定性的描述,主要包括:

  1. 观测数据存在误差
  2. 误差是对称分布的;
  3. 大的误差出现频率低,小的误差出现频率高。

用数学的语言描述,也就是说误差分布的密度函数 f(x) 关于0对称分布,概率密度随 |x| 增加而减小,这两个定性的描述都很符合常识。

许多天文学家和数学家开始了寻找误差分布曲线的尝试。 天文学家辛普森(Thomas Simpson, 1710-1761) 先走出了有意义的一步。设真值为 θ, x1,⋯,xn 为n次测量值, 每次测量的误差为ei=xi–θ,若用算术平均 x¯=∑ni=1xin去估计θ, 其误差为 e¯=∑ni=1ein。 辛普森证明了, 对于如下的一个概率分布,

图片 22

辛普森的误差分布曲线

有如下结论

P(|e¯|<x)≥P(|ei|<x).

也就是说,|e¯| 相比于|ei|取小值的机会更大。 辛普森的这个工作很粗糙,但是这是第一次在一个特定情况下,从概率论的角度严格证明了算术平均的优良性。

 

从 1772-1774 年, 拉普拉斯也加入到了寻找误差分布密度函数的队伍中。拉普拉斯假定误差分布密度函数f(x)对称且满足

−f′(x)=mf(x)

由此可求得分布密度函数为

f(x)=m2e−m|x|.(4)

这个概率密度函数现在被称为拉普拉斯分布。

 

图片 23

 

拉普拉斯的误差分布曲线

以该函数作为误差分布,拉普拉斯开始考虑如何基于测量的结果去估计未知参数的值。拉普拉斯可以算是一个贝叶斯主义者,他的参数估计的原则和现代贝叶斯方法非常相似:假设先验分布是均匀的,计算出参数的后验分布后,取后验分布的中值点,即1/2分位点,作为参数估计值。可是基于这个误差分布密度函数做了一些计算之后,拉普拉斯发现计算过于复杂,最终没能给出什么有用的结果。

拉普拉斯可是概率论的大牛,写过在概率发展历史中极有影响力的《分析概率论》,不过以我的数学审美,实在无法理解拉普拉斯这样的牛人怎么找了一个零点不可导的函数作为误差的分布密度函数,拉普拉斯最终还是没能搞定误差分布的问题。

现在轮到高斯登场了,高斯在数学史中的地位极高,年轻的时候号称数学王子,后来被称为数学家中的老狐狸,数学家阿贝尔 (Niels Henrik Abel, 1802-1829) 对他的评论是 :“高斯像一只狐狸,用尾巴将沙地上的足迹抹去(He is like the fox, who effaces his tracks in the sand with his tail) 。” 我们的数学大师陈省身把黎曼(Georg Friedrich Bernhard Riemann,1826-1866) 和庞加莱(Jules Henri Poincaré, 1854-1912)称为数学家中的菩萨,而称自己为罗汉;高斯是黎曼的导师,数学圈里有些教授把高斯称为数学家中的佛。 在数学家中既能仰望理论数学的星空,又能脚踏应用数学的实地的可不多见,高斯是数学家中少有的顶”天“立”地“的人物,它既对纯理论数学有深刻的洞察力,又极其重视数学在实践中的应用。 在误差分布的处理中,高斯以极其简单的手法确立了随机误差的概率分布,其结果成为数理统计发展史上的一块里程碑。

高斯的介入首先要从天文学界的一个事件说起。1801年1月,天文学家朱塞普·皮亚齐 (Giuseppe Piazzi, 1746-1826)发现了一颗从未见过的光度8等的星在移动,这颗现在被称作谷神星(Ceres)的小行星在夜空中出现6个星期,扫过八度角后就在太阳的光芒下没了踪影,无法观测。而留下的观测数据有限,难以计算出他的轨道,天文学家也因此无法确定这颗新星是彗星还是行星,这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了,这个问题引起了他的兴趣。高斯以其卓越的数学才能创立了一种崭新的行星轨道的计算方法,一个小时之内就计算出了谷神星的轨道,并预言了他在夜空中出现的时间和位置。 1801年12月31 日夜,德国天文爱好者奥伯斯(Heinrich Olbers, 1758-1840),在高斯预言的时间里,用望远镜对准了这片天空。果然不出所料,谷神星出现了!

高斯为此名声大震,但是高斯当时拒绝透露计算轨道的方法,原因可能是高斯认为自己的方法的理论基础还不够成熟,而高斯一向治学严谨、精益求精,不轻易发表没有思考成熟的理论。直到1809年高斯系统地完善了相关的数学理论后,才将他的方法公布于众,而其中使用的数据分析方法,就是以正态误差分布为基础的最小二乘法。那高斯是如何推导出误差分布为正态分布的?让我们看看高斯是如何猜测上帝的意图的。

设真值为 θ, x1,⋯,xn为n次独立测量值, 每次测量的误差为ei=xi–θ,假设误差ei的密度函数为 f(e), 则测量值的联合概率为n个误差的联合概率,记为

L(θ)=L(θ;x1,⋯,xn)=f(e1)⋯f(en)=f(x1−θ)⋯f(xn−θ)

但是高斯不采用贝叶斯的推理方式,而是直接取使L(θ)达到最大值的 θ^=θ^(x1,⋯,xn) 作为θ的估计值,即

θ^=argmaxθL(θ).

现在我们把L(θ) 称为样本的似然函数,而得到的估计值θ^ 称为极大似然估计。高斯首次给出了极大似然的思想,这个思想后来被统计学家费希尔系统的发展成为参数估计中的极大似然估计理论。

 

数学家波利亚(George Pólya, 1887-1985)说过:“要成为一个好的数学家,……,你必须首先是一个好的猜想家(To be a good mathematician,…, you must be a good guesser)。”历史上一流的数学家都是伟大的猜想家。高斯接下来的想法特别牛,他开始揣度上帝的意图,而这充分体现了高斯的数学天才。高斯把整个问题的思考模式倒过来:既然千百年来大家都认为算术平均是一个好的估计,那我就认为极大似然估计导出的就应该是算术平均!所以高斯猜测上帝在创世纪中的旨意就是:

误差分布导出的极大似然估计 = 算术平均值

然后高斯去找误差密度函数 f 以迎合这一点。即寻找这样的概率分布密度函数 f, 使得极大似然估计正好是算术平均 θ^=x¯。而高斯应用数学技巧求解这个函数f, 高斯证明(证明不难,后续给出),所有的概率密度函数中,唯一满足这个性质的就是

f(x)=12π−−√σe−x22σ2

瞧,正态分布的密度函数 N(0,σ2) 被高斯他老人家给解出来了!

 

进一步,高斯基于这个误差分布的密度函数对最小二乘法给出了一个很漂亮的解释。对于最小二乘公式中涉及的每个误差 ei, 由于误差服从概率分布 N(0,σ2), 则(e1,⋯,en) 的概率为

1(2π−−√σ)nexp{−12σ2∑i=1ne2i}.

要使得这个概率最大,必须使得∑ni=1e2i 取最小值,这正好就是最小二乘法的要求。

 

高斯所拓展的最小二乘法成为了19世纪统计学的最重要成就,它在19世纪统计学的重要性就相当于18世纪的微积分之于数学。而勒让德和高斯的关于最小二乘法的发明权之争,成了数学史上仅次于牛顿、莱布尼茨微积分发明权的争端。相比于勒让德1805年给出的最小二乘法描述,高斯基于误差正态分布的最小二乘理论显然更高一筹,高斯的工作中既提出了极大似然估计的思想,又解决了误差的概率密度分布的问题,由此我们可以对误差大小的影响进行统计度量了。高斯的这项工作对后世的影响极大,而正态分布也因此被冠名高斯分布。估计高斯本人当时是完全没有意识到他的这个工作给现代数理统计学带来的深刻影响。高斯在数学上的贡献特多,去世前他是要求给自己的墓碑上雕刻上正十七边形,以说明他在正十七边形尺规作图上的杰出工作。而后世的德国钞票和钢镚上是以正态密度曲线来纪念高斯,这足以说明高斯的这项工作在当代科学发展中的分量。

17、18世纪科学界流行的做法,是尽可能从某种简单明了的准则(first principle)出发进行逻辑推导。高斯设定了准则“最大似然估计应该导出优良的算术平均”,并导出了误差服从正态分布,推导的形式上非常简洁优美。但是高斯给的准则在逻辑上并不足以让人完全信服,因为算术平均的优良性当时更多的是一个经验直觉,缺乏严格的理论支持。高斯的推导存在循环论证的味道:因为算术平均是优良的,推出误差必须服从正态分布;反过来,又基于正态分布推导出最小二乘法和算术平均,来说明最小二乘法和算术平均的优良性。这陷入了一个鸡生蛋蛋生鸡的怪圈,逻辑上算术平均的优良性到底有没有自行成立的理由呢?

高斯的文章发表之后,拉普拉斯很快得知了高斯的工作。拉普拉斯看到,正态分布既可以从抛钢镚产生的序列和中生成出来,又可以被优雅的作为误差分布定律,这难道是偶然现象?拉普拉斯不愧为概率论的大牛,他马上将误差的正态分布理论和中心极限定理联系起来,提出了元误差解释。他指出如果误差可以看成许多微小量的叠加,则根据他的中心极限定理,随机误差理所应当是高斯分布。而20世纪中心极限定理的进一步发展,也给这个解释提供了更多的理论支持。因此以这个解释为出发点,高斯的循环论证的圈子就可以打破。 估计拉普拉斯悟出这个结论之后一定想撞墙,自己辛辛苦苦寻寻觅觅了这么久的误差分布曲线就在自己的眼皮底下,自己却长年视而不见,被高斯占了先机。

至此,误差分布曲线的寻找尘埃落定,正态分布在误差分析中确立了自己的地位,并在整个19世纪不断的开疆扩土,直至在统计学中鹤立鸡群,傲世其它一切概率分布;而高斯和拉普拉斯的工作,为现代统计学的发展开启了一扇大门。

在整个正态分布被发现与应用的历史中,棣莫弗、拉普拉斯、高斯各有贡献,拉普拉斯从中心极限定理的角度解释它,高斯把它应用在误差分析中,殊途同归。正态分布被人们发现有这么好的性质,各国人民都争抢它的冠名权。因为拉普拉斯是法国人,所以当时在法国被称为拉普拉斯分布;而高斯是德国人, 所以在德国叫做高斯分布;第三中立国的人民称他为拉普拉斯-高斯分布。后来法国的大数学家庞加莱建议改用正态分布这一中立名称, 而随后统计学家卡尔·皮尔森使得这个名称被广泛接受:

Many years ago I called the Laplace-Gaussian curve the normal curve, which name, while it avoids an international question of priority, has the disadvantage of leading people to believe that all other distributions of frequency are in one sense or another “abnormal”.

* —Karl Pearson (1920) *

不过因为高斯在数学家中的名气实在是太大, 正态分布的桂冠还是更多地被戴在了高斯的脑门上,目前数学界通行的用语是正态分布、高斯分布, 两者并用。

正态分布在高斯的推动下,迅速在测量误差分析中被广泛使用,然而早期也仅限于测量误差的分析中,其重要性远没有被自然科学和社会科学领域中的学者们所认识,那正态分布是如何从测量误差分析的小溪,冲向自然科学和社会科学的汪洋大海的呢?

5. 曲径通幽处,禅房花木深

在介绍正态分布的后续发展之前,我们来多讲一点数学,也许有些人会觉得枯燥,不过高斯曾经说过:“数学是上帝的语言”;所以要想更加深入的理解正态分布的美,唯有借助于上帝的语言。

造物主造物的准则往往是简单明了的,只是在纷繁芜杂的万物之中,我们要发现并领会它并非易事。之前提到过,17、18世纪科学界流行的做法,是尽可能从某种简单明了的准则出发作为科学探求的起点;而后来的数学家和物理学家们的研究发现,屡次从一些给定的简单的准则出发, 我们总是被引领到了正态分布的家门口,这让人感觉到正态分布的美妙。

达尔文的表弟高尔顿是生物学家兼统计学家,他对正态分布非常的推崇与赞美:”我几乎不曾见过像误差呈正态分布这么激发人们无穷想象的宇宙秩序“。当代两位伟大的概率学家列维(Paul Pierre Lévy, 1886-1971) 和卡克(Mark Kac, 1914-1984) 都曾经说过,正态分布是他们切入概率论的初恋情人,具有无穷的魅力。如果古希腊人知道正态分布,想必奥林匹斯山的神殿里会多出一个正态女神,由她来掌管世间的混沌。

要拉下正态分布的神秘面纱展现她的美丽,需要高深的概率论知识,本人在数学方面知识浅薄,不能胜任。只能在极为有限的范围内尝试掀开她的面纱的一角。棣莫弗和拉普拉斯以抛钢镚的序列求和为出发点,沿着一条小径第一次把我们领到了正态分布的家门口,这条路叫做中心极限定理。而这条路上风景秀丽,许多概率学家都为之倾倒。这条路在二十世纪被概率学家们越拓越宽,成为了通往正态曲线的一条康庄大道。而数学家和物理学家们发现:条条小路通正态。著名的物理学家杰恩斯(Edwin Thompson Jaynes, 1922-1998) 在他的名著《概率论沉思录(Probability Theory: the Logic of Science)》中,描绘了四条通往正态分布的小径;曲径通幽处,禅房花木深,让我们一起来欣赏一下这四条小径上的风景吧。

5.1 高斯(1809)的推导

第一条小径是高斯找到的,高斯以如下准则作为小径的出发点

误差分布导出的极大似然估计 = 算术平均值

设真值为 θ, x1,⋯,xn为n次独立测量值, 每次测量的误差为ei=xi–θ,假设误差ei的密度函数为 f(e), 则测量值的联合概率为n个误差的联合概率,记为

L(θ)=L(θ;x1,⋯,xn)=f(e1)⋯f(en)=f(x1−θ)⋯f(xn−θ)

为求极大似然估计,令

dlogL(θ)dθ=0

整理后可以得到

∑i=1nf′(xi−θ)f(xi−θ)=0

令 g(x)=f′(x)f(x),

∑i=1ng(xi−θ)=0

由于高斯假设极大似然估计的解就是算术平均 x¯,把解代入上式,可以得到

∑i=1ng(xi−x¯)=0 (1)(5)

(1)式中取 n=2, 有

g(x1−x¯) g(x2−x¯)=0

由于此时有 x1−x¯=−(x2−x¯), 并且 x1,x2 是任意的,由此得到

g(−x)=−g(x)

(1)式中再取 n=m 1, 并且要求 x1=⋯=xm=−x,xm 1=mx, 则有 x¯=0, 并且

∑i=1ng(xi−x¯)=mg(−x) g(mx)

所以得到

g(mx)=mg(x)

而满足上式的唯一的连续函数就是 g(x)=cx, 从而进一步可以求解出

f(x)=Mecx2

由于f(x)是概率密度函数,把f(x) 正规化一下就得到均值为0的正态分布密度函数
N(0,σ2)。

 

5.2 赫歇尔(1850)和麦克斯韦(1860) 的推导

第二条小径是天文学家赫歇尔(John Frederick William Herschel, 1792-1871)和物理学家麦克斯韦(James Clerk Maxwell, 1831-1879) 发现的。 1850年,天文学家赫歇尔在对星星的位置进行测量的时候,需要考虑二维的误差分布,为了推导这个误差的概率密度分布
p(x,y),赫歇尔设置了两个准则:

  1. x 轴和 y 轴的误差是相互独立的,即随机误差在正交的方向上相互独立
  2. 误差的概率分布在空间上具有旋转对称性,即误差的概率分布和角度没有关系

这两个准则对于赫歇尔考虑的实际测量问题看起来都很合理。由第一条准则,可以得到 p(x,y) 应该具有如下形式

p(x,y)=f(x)∗f(y)

把这个函数转换为极坐标,在极坐标下的概率密度函数设为 g(r,θ), 有

p(x,y)=p(rcosθ,rsinθ)=g(r,θ)

由第二条准则, g(r,θ) 具有旋转对称性,也就是应该和 θ 无关, 所以 g(r,θ)=g(r), 综上所述,我们可以得到

f(x)f(y)=g(r)=g(x2 y2−−−−−−√)

取 y=0, 得到 g(x)=f(x)f(0), 所以上式可以转换为

log[f(x)f(0)] log[f(y)f(0)]=log[f(x2 y2−−−−−−√)f(0)]

令 log[f(x)f(0)]=h(x), 则有

h(x) h(y)=h(x2 y2−−−−−−√)

从这个函数方程中可以解出 h(x)=ax2, 从而可以得到 f(x) 的一般形式如下

f(x)=απ−−√e−αx2

而 f(x) 就是正态分布 N(0,1/2α)−−−√, 从而 p(x,y) 就是标准二维正态
分布的密度函数

p(x,y)=απe−α(x2 y2).

 

1860 年,伟大的物理学家麦克斯韦在考虑气体分子的运动速度分布的时候,在三维空间中基于类似的准则推导出了气体分子运动的分布是正态分布 ρ(vx,vy,vz)∝exp{−α(v2x v2y v2z)}。这就是著名的麦克斯韦分子速率分布定律。大家还记得我们在普通物理中学过的麦克斯韦-波尔兹曼气体速率分布定律吗?

F(v)==(m2πkT)3/2e−mv22kT(m2πkT)1/2e−mv2x2kT×(m2πkT)1/2e−mv2y2kT×(m2πkT)1/2e−mv2z2kT.(6)

所以这个分布其实是三个正态分布的乘积, 你的物理老师是否告诉过你其实这个分布就是三维正态分布?

 

赫歇尔-麦克斯韦推导的神妙之处在于,没有利用任何概率论的知识,只是基于空间几何的不变性,就推导出了正态分布。美国诺贝尔奖物理学家费曼(Richard Feymann,1918-1988) 每次看到一个有 π的数学公式的时候,就会问:圆在哪里?这个推导中使用到了 x2 y2, 也就是告诉我们正态分布密度公式中有个π, 其根源在于二维正态分布中的等高线恰好是个圆。

5.3 兰登(1941)的推导

第三条道是一位电气工程师兰登(Vernon D. Landon)给出的。1941 年, 兰登研究通信电路中的噪声电压,通过分析经验数据他发现噪声电压的分布模式很相似,不同的是分布的层级,而这个层级可以使用方差 σ2 来刻画。因此他推理认为噪声电压的分布密度函数形式是 p(x;σ2)。假设原来的电压为X, 累加了一个相对其方差 σ而言很微小的误差扰动 ϵ, ϵ 的概率密度是 q(e), 那么新的噪声电压是 X′=X ϵ。 兰登提出了如下的准则

  1. 随机噪声具有稳定的分布模式
  2. 累加一个微小的随机噪声,不改变其稳定的分布模式,只改变分布的层级(用方差度量)

用数学的语言描述: 如果

X∼p(x;σ2),ϵ∼q(e),X′=X ϵ

 则有

X′∼p(x;σ2 var(ϵ))

 

现在我们来推导函数p(x;σ2) 应该长成啥样。按照两个随机变量和的分布的计算方式, X′ 的分布密度函数将是 X 的分布密度函数和 ϵ的分布密度函数的卷积,即有

f(x′)=∫p(x′−e;σ2)q(e)de

把 p(x′−e;σ2) 在x′处做泰勒级数展开(为了方便,展开后把自变量由 x′ 替换为 x), 上式可以展开为

f(x)=p(x;σ2)–∂p(x;σ2)∂x∫eq(e)de 12∂2p(x;σ2)∂x2∫e2q(e)de ⋯

将p(x;σ2)简记为p,则有

f(x)=p–∂p∂xϵ¯ 12∂2p∂x2ϵ2¯¯¯ o(ϵ2¯¯¯)

 

对于微小的随机扰动 ϵ, 我们认为他取正值或者负值是对称的,所以 ϵ¯=0。所以有

f(x)=p 12∂2p∂x2ϵ2¯¯¯ o(ϵ2¯¯¯)(2)(7)

 

对于新的噪声电压 X′=X ϵ, 方差由σ2 增加为 σ2 var(ϵ)=σ2 ϵ2¯¯¯,所以按照兰登的分布密度函数模式不变的假设, 新的噪声电压的分布密度函数应该为 f(x)=p(x;σ2 ϵ2¯¯¯)。把p(x;σ2 ϵ2¯¯¯) 在 σ2 处做泰勒级数展开,得到

f(x)=p ∂p∂σ2ϵ2¯¯¯ o(ϵ2¯¯¯) (3)(8)

比较 (2) 和 (3) 这两个式子,可以得到如下偏微分方程

12∂2p∂x2=∂p∂σ2

而这个方程就是物理上著名的扩散方程(diffusion equation),求解该方程就得到

p(x;σ2)=12π−−√σe−x22σ2

又一次,我们推导出了正态分布!

 

杰恩斯对于这个推导的评价很高,认为兰登 的推导本质上给出了自然界的噪音形成过程。他指出这个推导这基本上就是中心极限定理的增量式版本,相比于中心极限定理是一次性累加所有的因素,兰登 的推导是每次在原有的分布上去累加一个微小的扰动。而在这个推导中,我们看到,正态分布具有相当好的稳定性;只要数据中正态的模式已经形成,他就容易继续保持正态分布,无论外部累加的随机噪声 q(e) 是什么分布,正态分布就像一个黑洞一样把这个累加噪声吃掉。

5.4 基于最大熵的推导

还有一条小径是基于最大熵原理的, 物理学家杰恩斯在最大熵原理上有非常重要的贡献,他在《概率论沉思录》里面对这个方法有描述和证明,没有提到发现者,我不确认这条道的发现者是否是杰恩斯本人。

熵在物理学中由来已久,信息论的创始人香农(Claude Elwood Shannon, 1916-2001)把这个概念引入了信息论,学习机器学习的同学们都知道目前机器学习中有一个非常好用的分类算法叫最大熵分类器。要想把熵和最大熵的来龙去脉说清楚可不容易,不过这条道的风景是相当独特的,杰恩斯对这条道也是偏爱有加。

对于一个概率分布 p(x), 我们定义他的熵为

H(p)=−∫p(x)logp(x)dx

 

如果给定一个分布密度函数 p(x) 的均值 μ 和方差 σ2(给定均值和方差这个条件,也可以描述为给定一阶原点矩和二阶原点矩,这两个条件是等价的), 则在所有满足这两个限制的概率分布中,熵最大的概率分布 p(x|μ,σ2) 就是正态分布 N(μ,σ2)。

这个结论的推导数学上稍微有点复杂,不过如果已经猜到了给定限制条件下最大熵的分布是正态分布,要证明这个猜测却是很简单的,证明的思路如下。

考虑两个概率分布 p(x)和q(x),使用不等式 logx≤(x−1), 得

∫p(x)logq(x)p(x)dx≤∫p(x)(q(x)p(x)–1)dx=∫q(x)dx–∫p(x)dx=0

于是

∫p(x)logq(x)p(x)dx=∫p(x)log1p(x)dx ∫p(x)logq(x)dx≤0

所以

H(p)≤−∫p(x)logq(x)dx(9)

熟悉信息论的同学都知道,这个式子是信息论中的很著名的结论:一个概率分布的熵总是小于相对熵。上式要取等号当且仅当q(x)=p(x)。

 

对于 p(x), 在给定的均值 μ 和方差 σ2下, 我们取q(x)=N(μ,σ2), 则可以得到

H(p)≤==–∫p(x)log{12π−−√σe−(x−μ)22σ2}dx∫p(x){(x−μ)22σ2 log2π−−√σ}dx12σ2∫p(x)(x−μ)2dx log2π−−√σ(10)

由于 p(x) 的均值方差有如下限制

∫p(x)(x−μ)2dx=σ2

于是

H(p)≤12σ2σ2 log2π−−√σ=12 log2π−−√σ

而当p(x)=N(μ,σ2)的时候,上式可以取到等号,这就证明了结论。
杰恩斯显然对正态分布具有这样的性质极为赞赏,因为这从信息论的角度证明了正态分布的优良性。而我们可以看到,正态分布熵的大小,取决于方差的大小。 这也容易理解, 因为正态分布的均值和密度函数的形状无关,正态分布的形状是由其方差决定的,而熵的大小反应概率分布中的信息量,显然和密度函数的形状相关。

 

好的,风景欣赏暂时告一段落。所谓“横看成岭侧成峰,远近高低各不同”,正态分布给人们提供了多种欣赏角度和想象空间。法国菩萨级别的大数学家庞加莱对正态分布说过一段有意思的话,引用来作为这个小节的结束:

Physicists believe that the Gaussian law has been proved in mathematics while mathematicians think that it was experimentally established in physics. (物理学家认为高斯分布已经在数学上得到证明,而数学家则认为高斯分布在物理试验中得到确认。)

— Henri Poincaré

 

本文由金沙总站发布于世界史,转载请注明出处:他们不是预言家,正态分布的前世今生

上一篇:美西游记,Word的歌曲来挑衅你的耳朵 下一篇:没有了
猜你喜欢
热门排行
精彩图文