啤博士

吉尼斯世界纪录的起源竟然是因为...?首席酿酒师竟然是统计学家?

作者:藏在瓦村的老季浏览数:924

老季:荷兰瓦赫宁根大学植物学博士,打打乒乓种种菜,转转魔方做做饭,写写英文品品酒,搞搞科研点点赞。


餐饮业的被跨界

作为一个吃货,我经常这样问自己:为什么诸多大公司都会“不务正业”地涉足油盐酱醋的领域,还经常搞得风生水起

一个众所周知的例子便是著名的吃货圣经《米其林指南》:著名轮胎制造商米其林公司的创始人米其林兄弟当时认为汽车旅行会非常流行,那么这必然推动他们的轮胎销售,所以他们开始将各类有助于汽车旅行的信息汇总成册并且加以推荐,其中就包括了各类旅馆和餐厅。除了《米其林指南》以外,还有一些有意思的例子,比如大家都知道的大众汽车拥有自己的咖喱香肠工厂(VW Currywurst)。2014年,他们的香肠销售数量居然超过了他们的汽车销量。

我们今天要说的,是另一个享誉全球的“不务正业”的公司,便是大名鼎鼎的爱尔兰啤酒厂健力士(Guinness Brewery),吉尼斯世界纪录的冠名者。此外,我们还将介绍健力士酒厂的一位传奇酿酒师,一位使用笔名“学生”的忍隐多年的扫地僧级的统计学家威廉-希利-戈塞(William Sealy Gosset)


9000年的租期

1759年的最后一天,健力士创始人Arthur Guinness以每年45英镑的价格租借下了位于爱尔兰首都都柏林南部的St. James’s Gate酿酒厂,租期9000年(对,没有看错,四位数9-0-0-0年)。从那时起,这家酒厂便不断地发展壮大,从当年仅有的四英亩地盘扩大到现在的超过50英亩,一举成为世界上最著名的啤酒厂商之一。

对了,有朋友一定要问,万一那个9000年的租约到期了怎么办?用健力士自己的话说:“别担心,我们哪儿也不去!”因为人家已经把整块地买下来了。


吉尼斯世界纪录的诞生——因为一只鸟

1951年11月的一天,健力士酒厂的董事Huge Beaver爵士和同行们外出打猎。途中他因为没有打中一只金鸻,便开始和同行的朋友们争论究竟哪种鸟飞的最快,这个争论持续了一路,并且谁都拿不出切实的资料来说服对方,于是Beaver爵士萌发了出版一本记载各种世界之最的书的想法。那个年代,在酒吧里常见的话题便是各类世界纪录,比如最快的车,跑的最快的人等等。作为酒厂老板,Beaver爵爷想着为什么不让大家在享受他家啤酒的时候多一些谈资呢?


1954年8月,Beaver爵爷邀请NorrisMcWhirter和 Ross McWhirter两兄弟参与书籍的编写工作。Norris和Ross当时是专职的体育记者,专门负责为报社提供各类体育比赛的数据。很快,书籍的第一版就编写完成了。在那时,爵爷并没有把这本书当做是一个品牌,而仅仅是一个促进啤酒销售的手段。当时他一共印制了1000本并且免费发放到各个酒馆。出乎意料的是,这本书一出现便引起了巨大地反响。而爵爷也从其中看到了商机,于是在同年11月成立了专门的公司。1955年8月27日,这本198页的书籍正式出版上市,名为《The Guinness Book of Records》,也就是我们熟悉的《吉尼斯世界纪录》,上市当年便荣登圣诞节销售榜榜首。记录不断在刷新,所以自然地书籍每年都会推出新版。仅仅第二年,《吉尼斯世界纪录》就进入美国市场,销量高达7万本,随后不断发展更新,并且不断出版各种语言的版本。因为中文翻译的上的区别(吉尼斯,健力士,金氏),所以有时候人们并不知道这本我们天天讨论的书,就是来自于同样著名的酒厂。如果沿用“吉尼斯”这个翻译,想必“吉尼斯啤酒”在中国的销量能更上一层楼。


第一本《吉尼斯世界纪录》

创办初期,书籍的出版发行商是Beaver爵爷成立的Guinness Superlatives公司,后来公司正式更名为吉尼斯世界纪录有限公司。2001年开始,《吉尼斯世界纪录》的发行权几经易手,包括Gullane 娱乐公司(“火车头”托马斯的母公司),HiT娱乐公司,Apax集团等。直到2008年,《吉尼斯世界纪录》被加拿大著名投资公司Jim Pattinson Group收购。


酵母菌和统计学

温馨提示:不喜欢 数 学 的朋友请跳过这个章节!不谢!

我们再来讲一个同样与健力士酒厂有关,而且更加科学一些的故事。

啤博士们都从事着各类科研工作,而科研自然离不开数据和数据分析,统计学则是数据分析中非常重要的一项工具。相信读者中间也有不少人和统计学打过交道,接下来要说的,就是一个健力士酒厂和统计学的故事。

在19世纪末,健力士酒厂开始广泛使用科学的态度和实际的数据来指导和改良啤酒的生产,并且不断优化生产过程,提高产品质量。于是健力士酒厂开始从英国各类顶尖高校中招募毕业生前来加入。就在1899年,一位拥有牛津大学化学和数学背景的年轻人加入了健力士,他的名字叫威廉-希利-戈塞(William Sealy Gosset)。由于戈塞的化学和数学方面的背景,他加入健力士后的主要任务便是研究如何准确估计加入发酵体系中的酵母菌数量。


威廉-希利-戈塞

我们知道,酿制啤酒的时候需要将酵母菌在瓶子中先进行扩大培养,然后再将合适数量的酵母菌加入对应的发酵体系中。那时候的估算方法是这样的:从培养酵母菌的瓶中取样,然后在显微镜下数出单位体积的酵母菌数量,得到样品中的酵母菌浓度,从而估算整个培养瓶中的酵母菌浓度与数量。这个过程在统计学上叫做一次抽样,即著名统计学家卡尔-皮尔逊(Carl Pearson)的观念非常吻合,我们并不是直接数出整个瓶子中的酵母菌的数量,而是通过从瓶子中抽样并且观察样本的数量来推测总体的数量。在实际操作中有一个问题:总体(瓶子)中的酵母菌数量由于菌群的繁殖或死亡在不断地变化,因此如何准确地通过抽样来估算这个总体就成为了一个问题。

戈塞发现,单位体积内酵母菌的数目的绝对值在不断地变化,但是变化这个值的变化是有规律的,即单位体积内酵母菌的数量符合一种概率分布。简单来说,就是虽然没有办法知道在特定的时刻这个绝对的值是多少,但是可以知道此时这个绝对值落在某一个范围内的概率是多少。而戈塞发现瓶子中的酵母菌数量几率分布符合仅有一个参数的泊松分布(具体这个是什么我们先不展开了,有兴趣的朋友可以扩展阅读)。在知道分布形式之后,戈塞计算出合适的估算公式来更加精确地通过抽样估计总体的酵母菌浓度,从而更加准确地控制加入到发酵过程中的酵母菌数量。

关于抽样统计的概念,就算没有学习过统计学的人,也能理解这个道理:一定程度上,抽样次数越多(样本数量越大),抽样结果越接近真实结果。举个例子,假设我有一瓶酵母菌溶液,其真实浓度是5%,但是我并不知道,所以我需要通过抽样来估计它的浓度值。我第一次抽样测得浓度是4.4%,第二次抽样测得可能是4.8%。如果我此时停止抽样,那么我的结果会停留在4.6%。如果我继续重复这个测量,可能还会出现5.1%, 4.9%, 5.3%等等数值。假设我抽样无限多次,那么很自然地最后的平均值会无限接近5%。

戈塞发现,在实际情况下很多时候并没有办法获得大量的样本资料或者进行大量地抽样,而先前提到的皮尔逊的理论却依赖于大量的样本数来估计本体。于是戈塞就想,有没有办法来分析小样本的资料。皮尔逊提出的理论认为,不论我们测量的是什么,测量本身都会存在误差,而这来自测量本身或者非测量值的误差呈现一种随机散布的形式,这个随机散布的概率分布,并且可以用一种数学函数来表示。皮尔逊发现了一组分布函数,称为偏斜分布。而需要彻底描述偏斜分布需要得到四个参数,即平均数,标准差,对称和峰度。在抽样数量够大的时候(通常要30次及以上),“样本平均数与真正平均数差”与标准差之间的比值(记作t)的分布趋近于标准正态分布(平均值为0,标准差为1)。


不同参数下的正态分布

为了研究在小样本条件下,这个t值的分布是否依然遵从标准正态分布,戈塞采取了如下研究方法:首先戈塞获得了足够多的英国犯人的身体特征数据(比如身高)作为总体,计算出平均值,并且假设这个是真正的总体平均值。然后每天下班之后,在微弱的光下随机挑选出4个数据,获得一个样本数为4的小样本以模拟实际中的小样本抽样,并且计算出平均值,标准差以及比值t。经过上千次如此重复后,戈塞发现小样本下t的分布并不服从标准正态分布,并且根据他的重复抽样数据,给出了t的理论分布,而这一分布就是现今所有统计学教科书中固定的内容:t-分布。也叫学生氏t-分布


不同参数下的t分布


为了啤酒厂的商业机密而隐姓埋名

很多科学领域内的重大发现往往都是按照发现者的名字命名的,比如牛顿定律,高斯分布(也就是上文提到的正态分布)等等,可是为什么戈塞的这一统计学上的重大发现却叫做“学生”呢?

在当时,处于保护公司机密考虑,健力士公司严格禁止其员工将研究成果公开发表。早在戈塞发现精确估计酵母菌数量的方法时,他便计划将这一研究成果发表出来,这一成果也得到了卡尔-皮尔逊的鼓励。皮尔逊当时是《生物统计》的主编,他非常赏识戈塞并一直支持他的研究,甚至出面说服戈塞的主管同意戈塞来自己的生物统计研究室进修。


卡尔-皮尔逊

在各方的鼓励下,从1907年起戈塞陆续将自己的研究成果发表在皮尔逊主编的《生物统计》上,而署名则一致为“Student(学生)”。仅仅在1908年,戈塞在它的第二篇论文《The Probable Error of A Mean》(论平均值的偏差概率)中便详细阐述了他关于t分布和t检验的划时代发现。这一篇论文虽然充满着复杂的数学计算和诸多公式,但是由于它简洁明了的写作方式以及其重要科学成果,使得这篇文章成为统计学史上的经典之作。



但是这一篇论文发表之后却反响平平,直到另一位著名的统计学大师罗纳德-费舍尔爵士(Sir Ronald Aylmer Fisher)给出了戈塞的t检验的实际意义和数学证明之后,这一重要统计学工具才被人重视起来。同时戈塞也和费舍尔爵士相识,在费舍尔的建议下,戈塞随后计算并发表了用于t检验显著性的著名的“学生氏t分布表”。从此开始,t检验也正式被称作“学生氏t检验”。


罗纳德-费舍尔爵士


说到这里,便不得不再提一提费舍尔和皮尔逊这一对同时代的统计学大师。虽然同为大师,但是两者之间关系却并不融洽。早年费舍尔在向皮尔逊投稿的时候就产生了诸多分歧,并且二者在日后的学术讨论上分歧更大。虽然皮尔逊主编的《生物统计》在当时是最著名的统计学期刊,但是费舍尔却始终拒绝再向皮尔逊投稿。二人在诸多学术场合相互批评对方的研究和理论。而讽刺地是,在1933年皮尔逊退休以后,他在剑桥大学的教职一分为二,一个继任者是皮尔逊的儿子,同为著名统计学家的艾根-皮尔逊,而另一位不是别人,正是费舍尔。更有意思的是,无论费舍尔和皮尔逊相互之间掐的多厉害,他们中间的戈塞却一直和两位大师保持着良好的关系,甚至有时候起到了中间人的作用。

关于究竟戈塞如何最终将研究结果发表出来,现在有着不同的说法,有说是健力士公司和戈塞以及皮尔逊达成了协议,要求文章必须使用笔名且不能涉及具体商业信息的;也有说其实是戈塞瞒着健力士公司偷偷发表的。不论如何,直到1937年10月16日戈塞去世后,这一拥有着三十多篇论文的“学生”的真实身份才逐渐为人所知。


不想当兵的统计学家不是好酿酒师

除了统计学上的贡献,戈塞也一直在健力士酒厂中发挥着重要的作用。在加入健力士的前5年间,戈塞一直在健力士的“酿酒实验室”中学习酿造技术。1907年,在皮尔逊的统计研究所进修一年之后的戈塞回到了健力士,并且担任了首席试验酿酒师这一职位。在第一次世界大战爆发之后,戈塞和费舍尔曾都申请参战,却都因为同一原因被驳回:近视。1920年前后,戈塞在健力士创立了统计学部门并担任主管。到了1935年,戈塞被任命为健力士在伦敦分厂的首席酿酒师,仅仅两年之后,也就是1937年9月,戈塞成为健力士酒厂总首席酿酒师。然而不幸的是,仅仅一个月之后,戈塞因突发性脏病去世。

直到今天,在健力士酒厂位于都柏林的旗舰店Guinness Storehouse内,还能找到这样一块纪念戈塞的牌子,上面写着“化学家,统计学家,威廉-希利-戈塞,1876-1937,首席酿酒师,学生氏t检验”。



而他当年居住过并且接待过诸多大师来访的地方,如今已成为一所小学,那里也有一块纪念牌,上面写着“1913-1935威廉-希利-戈塞曾居住在此,他以他的笔名“学生”和创立的学生氏t分布而闻名于世”。



所以,读者日后遇到了统计学上的问题,不妨静下心来,倒上一杯健力士啤酒,在细腻的泡沫中体会戈塞这位酿酒厂走出来的统计学大师的人生,或许会有新的感悟。