看看美国大选结果吧这里

如果所有美国人都投票,唐纳德·特朗普会成为总统吗?

如何《经济学人》的数据团队回答了这个令人惊讶的困难问题

图片的文章
图片的文章
了一张价值两个代码千行

从2015年开始的每个夏天《经济学人》已发表在其周报特刊称为,充满了奇妙的洞察力和娱乐hypotheticals。如果吗?如果吗?如果吗?通常情况下,答案和问题本身一样都是推测性的,但今年我们根据自己的数据分析增加了一个额外的部分。我们开始使用统计数据来为以下问题提供经验答案:如果投票像其他一些国家一样是强制性的,那么在美国总统选举中将会发生什么?

这掀起了一场长达数月的调查,这是更困难比我们预期的。在早期,我们发现,一些学者提出了具体的回答这个问题,但他们都要么略有不同定义它,对于可视化,或两者并没有提供足够的数据。这排除了一块完全依靠现有的学术研究。

因此,我们决定自己做。我们很快发现,没有在我们的核武库会做的伎俩常用的计算工具。简单的总结统计和回归分析显然是不够的;尽管我们可以使用公共投票,使公民个人的预测,国内还没有由民众投票选举总统。即使是流行的机器学习算法没有得到充分适合的任务。

图片的文章
图片的文章
最后,我们需要估计有人口统计变量,如种族和教育,互动与地理和投票行为。这是我们的模型输出的一个例子

一些模型是有用的

最后,我们需要的是为每个国家的预测不同程度的选民投票率下,强制投票制度下找出选举-大学赢家的技术。该方法必须考虑许多因素,如少数族裔的投票率增加,谁票比较少,但向左倾斜,以及较高的投票率在白人中没有度,谁向右倾斜。我们还必须回答的选民和非选民具有相同的人口状况是否会以类似的方式进行表决的关键问题(在大多数情况下,他们这样做)。更多问题一路上弹出。

溶液潜伏在后台,但《经济学人》之前从未尝试过它:一种统计方法,导致定量的社会科学家的青睐,被称为“多层次的回归和后分层”(MRP,或“P先生”的超级粉丝之间)。它涉及全国民调中与个别选民的信息相结合,使在不同的地理水平的预测。由于美国的政治学家,所有必要的数据都是现成的,并且该方法具有良好的文档。在方法论的透明度和澄清的利益,我提出我们下面的方法。

图片的文章
图片的文章
MRP让我们能够预测克林顿和特朗普会从不同人口统计群体的非选民那里多赢得多少选票。这是一个原型图,按州划分了差异

感应的问题

要使用MRP,大约一个中到大量的个人的投票习惯的调查数据第一个开始。在我们的情况下,这些数据从一个全国性的民意测验来到64,600美国人称为(CCES),这是每两年进行一次,并通过研究人员在哈佛大学领导。我们决定把我们的注意力集中在2016年的选举中,在投票中的微小变化会作出一个很大的区别;希拉里仅通过78000票丢失了选举团。

该CCES提供详细的关于其所有受访者的人口统计数据。我们所知道的,例如,它的成年受访者75%是白人,12%是黑人和不到51%是女性。但是,我们也可以结合类;52%是白人没有大学文凭,根据CCES,而10%的男性比年轻30这以后会派上用场。该CCES还包括对美国人是否表决的数据,如果是这样,他们喜欢的总统是谁。在数据上,希拉里量的受访者48%的支持者,而在46%特普先生时钟的支持者(两者是相同的百分比,该候选人在2016韩元)。最重要的是,负责研究人员已经采取了验证受访者的投票率与他们是否投票的实际记录的额外步骤。通过这种方式,我们可以适当地预测哪些美国人很可能是实际的选民。没有人说,他们谁投了票,但实际上并没有,被视为实际选民。

图片的文章
图片的文章
格式化的CCES数据的随机切片

与单独CCES,我们可以评估人口统计数据,投票和投票选择之间的关系。但由于在选择美国小样本量 - 仅115阿拉斯加填写了调查 - 我们不能做出可靠的国家级预测。要做到这一点,我们需要确切地知道什么类型的选民住在其中的状态,以及在什么号码;与更多的非白人国家将更加有利于希拉里,例如,而那些更没有白人大学教育将走向特朗普先生倾斜。幸运的是,美国人口普查局提供的表格信息(ACS),它每年都会进行,主要是对全国数百万美国人的采访。

我通过使我的笔记本电脑采集由ACS调查,并计算出每个人口群体如何常见的是在每个国家17.5万人的随机代表性样本嘎吱嘎吱人口普查局的数据。我们可以发现,例如,所有的佛罗里达州的大约1.5米(8.4%)是65岁以上,女性和没有受到教育和高中文凭之间的事情。所有德州的约13%是没有大学文凭的中年白人。这样一来,我们的目标人群包括人口目前在CCES相同的数据 - 必要的预测目的 - 但我们也有对什么类型的人生活在每个国家可用的最精确的数字。

图片的文章
图片的文章
后在ACS数据的随机片段已被格式化,以匹配CCES

如果你有所有的数据,你会怎么做?

随着数据扯皮完毕后,我们会再转移到人口统计和候选的偏好(根据CCES)之间的关系,培养多层次的回归模型(的“P先生”,“先生”)。有几个包R,统计编程语言,使这些复杂模型的训练,我们尝试了所有。下面我展示了代码看起来像被称为“rstanarm”,让我们与贝叶斯统计独立的语言叫斯坦接口一个特定的包。

图片的文章
图片的文章
代码的样本我跑,以适应我们的车型之一

经过数千次迭代,该模型逐渐了解了人口统计数据和政治行为之间的关系。我们可以使用这些关系来预测每个州的每个人口统计群体的投票习惯(根据ACS)。例如,上述佛罗里达的老年女性预计会以5个百分点的优势投票给唐纳德·特朗普,而不是希拉里·克林顿。我们对数据中成千上万的人口统计群体中的每一个都进行了相同的计算。

一旦完成,剩下的就是计算每个状态的估计值。这是通过将每个州每个群体中预测的克林顿选民人数加起来(或称“后分层”——“P先生”的“P”)来实现的。我们通过将支持希拉里的合格选民人数除以居住在各州的成年公民总人数来获得她在各州的选票份额。特朗普也做了同样的事情。因为我们只关心投票支持希拉里,Trump先生(第三方被排除在这一分析计算的原因,尽管在测试这个没有区别)选举人票被分配给哪个候选人预计将赢得超过50%的选票在给定状态。胜利的概率是通过成千上万次地模拟每个州的结果得出的,并考虑了我们建立的类似模型所作预测的误差事后对2016年总统选举实际结果的预测。

结果在呈现:

图片的文章
图片的文章
打印文章中的主要图表

第一,第二,和…ñ原则

从开始到结束,我们的方法都不容易。尽管这一过程与典型的社会科学研究文章类似,但时间框架却要紧凑得多:新闻要求工作必须在大约一个半月内完成。如果有人想重复我上面描述的方法,他们可能需要记住几件事。

首先,熟悉像贝叶斯统计这样的概念在我们的方法中是很重要的(因为我们的数据团队的几个成员都是不确定性的坚持者,包括我自己),但这并不是严格必要的。存在其他R包来完成几乎相同的任务——实际上,我们最终使用其中一个R包“lme4”来计算最终数据,因为它生成了相同的点预测。但无论如何,了解民意调查、调查权重和美国人的投票行为等主题都至关重要。如果我们没有完成之前,这一次将采取更长时间。

其次,MRP是提取自国家投票国家级意见可靠估计的有效工具,但它并非十全十美。甚至有谁在2016年投票的验证记录后,该模型仍无法准确预测的选举;不到2个百分点,在我们的比赛希拉里的国家级选票份额预测平均绝对误差。在选举之前作出的预测,没有谁的知识其实表决通过,可能有较大误差。全国调查的质量是关键;你可以不重不具代表性的数据,你的出路。

最后,追求复杂的方法有一定的实用价值,但是用尽可能少的花哨的东西完成同样的任务的节俭的方法将使事情更容易向读者解释。因为这是我们的最终目标《经济学人》比如,我没有从后期预测分布(posterior predictive distributions)中提取概率(probability),也没有加入斜率不同的随机效应项(random effects terms),或者其他类似的花哨做法,让读者只会把它们解读为社会学上的晦涩难懂。话虽如此,这并不是奥克哈米人的努力;过于简单化存在危险。

图片的文章
图片的文章
读完这篇文章后,你可能会问自己什么

故事时间

最终,疯狂是值得的。我们的团队产生了惊人的故事。成品是一个非常详细的答案,如果每个成年公民已被要求投票在最近的总统选举中美国的政治格局将如何改变的问题。

我们量化的读者是多么左倾美国的非选民。We have shown how an increase in voter turnout would produce varying political swings in states with different populations of whites and non-whites, holders of college degrees and high-school diplomas, millennials and baby boomers, etc. And although the numbers didn’t make it onto the page — we had fewer than 300 words to work with in this week’s chart-filled细节- 我们也能呈现的持续内置的选举优势在美国,这份报纸的经常涉及的话题工薪阶层的白人。最后,我们提供了一个数据驱动的答案的一个典型经济学家“如果什么?这个问题在本报的数据团队出现之前就很少见了。

数据记者是在。您可以按照经济学家的数据团队

《经济学人》

洞察与观点上的国际新闻,政治...

Medium是一个开放的平台,1.7亿读者可以在这里找到富有洞察力和活力的思维。在这里,专家和未被发现的声音一样深入任何主题的核心,并带来新的想法浮出水面。

关注对你来说重要的作者、出版物和主题,你会在你的主页和收件箱中看到它们。

如果你有一个故事,知识共享,或提供一个视角 - 欢迎回家。这很容易和自由发表任何话题你的思维。

获取中的应用

一个按钮,上面写着“在App Store下载”,如果点击它会导致你的iOS应用商店
一个按钮,说“得到它,谷歌播放”,如果点击它会导致你在谷歌Play商店