数据分析入门经典问题:你两个朋友同一天过生日的概率有多大?
第一个人的生日有366种可能(贪婪的家伙)然而第二个人只有365种可能因为我们要求他们的生日不在同一天。如果第一个人的生日在10月8日,我们就把所有在10月8日过生日的人排除在外。这样每个样本中的成员的可能生日数量将越来越少。 所以366是第一个人的可能数量,而365是第一个人的可能数量而364是第三个人的可能数量……而(367-N)是第N个人的可能数量。 如果N 是30,将各个数相乘,见证奇迹! 366 x 365 x 364 x 363 x 362 x 361 x 360 x 359 x 358 x 357 x 356 x 355 x 354 x 353 x 352 x 351 x 350 x 349 x 348 x 347 x 346 x 345 x 344 x 343 x 342 x 341 x 340 x 339 x 338 x 337 = … 啊,又是一个76位数的数字。 但是,幸运的是,计算机会帮我们处理除法问题,如果操作得当的话。 也许这不是我们需要的 P(所有39个人的生日都不在同一天)=(366 x 365 x 364 x 363 x 362 x 361 x 360 x 359 x 358 x 357 x 356 x 355 x 354 x 353 x 352 x 351 x 350 x 349 x 348 x 347 x 346 x 345 x 344 x 343 x 342 x 341 x 340 x 339 x 338 x 337) / (366 ^ 30) =0.3 最后,就是我们需要的数值! P(30个人有人是同一天生日) = 1-0.3 =70% 在30个人的组中,有人是同一天的生日的概率是~70%。 我希望你没有赌10美元说,有人的生日在同一天的概率小于每个人的生日都不在同一天的概率……但是如果你真的赌了,我不反对把钱捐给维基百科。 赌错结果很可能是因为你低估了一组数据不重复的难度——如果你是在门口负责拦截所有与室内的人同一天生日的人的保镖,不久之后想进入房内的人就会失望。 这取决于你有多少个朋友…… 我可以用两分钟,通过电脑上的R程序得出每一个N的概率。如果你好奇具体数值是什么(N等于23时概率为50%,N等于55时概率为99%),可以来体验我编写的代码串。可能不太好看,但绝对好用。无需下载,就可以在浏览器上运行。
我们学到了什么? 除了一些基本概率知识(处理概率问题的不同方法,分子和分母的计算方法),以及计数原则(加法原则和乘法原则)以外,这篇文章的主旨是,为什么需要以特定顺序解决特定问题。 为什么在教材开始,计数是重中之重,而在后续内容中,计数会淡出我们的视野,留下愤愤不平的我们?结果貌似说明每一种方法都对应着一种目的,每一种事件发生的概率相等这一前提对于专业人员来说,过于浅显,无法消化……即使在生日问题上也是如此。当业余人士想象数据分析猿每一天都在干什么的时候,他们首先想到的是数牌和抛硬币,这不是很好玩吗?辟谣跑断腿啊! 生日问题之所以是数据分析入门的经典问题,是因为这个问题上所需的脑力刚刚好:数据分析员需要学习如何转化问题,以使转化后的问题更便于解题。采取简单粗暴的办法将难以计算,因此需要另辟蹊径。如果你选择了数据分析的生活,时刻准备迎接一系列抛掷硬币和转化的问题。
(编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |