如果所有美国人实际投票,那么唐纳德特朗普会是总统吗?

如何经济学家的数据团队回答这个出乎意料的困难question

A picture worth two thousand lines of code

每年夏天起2015年,已在每周报纸上发表一份特殊的补充“世界,如果是”,充满了奇妙的洞察力和娱乐假设。如果the Ottoman Empire had never collapsed?如果人类克隆了主流?如果世界开放了边界?通常,答案与问题暗示的答案一样,但今年我们基于我们自己的数据分析增加了额外的部分。我们列出了使用统计数据来提供以下问题的经验答案:如果投票是强制性的,美国总统选举会发生什么,因为它在其他一些国家?

这掀起了几个月的询问,比我们预期的要困难得多。早期,我们发现一些学者已经提出了这个问题的具体答案,但它们都定义了它略微不同,没有提供足够的可视化数据,或两者。这排除了一块完全依赖于现有的学术研究。

So we decided to do it ourselves. We soon discovered that none of the commonly used computational tools in our arsenal would do the trick. Simple summary statistics and regression analysis were obviously not enough; although we could use public polling to make predictions for individual citizens, the country doesn’t elect its president by popular vote. Even popular machine-learning algorithms were not sufficiently suited for the task.

In the end, we needed to estimate how demographic variables, like race and education, interact with geography and voting behaviour. This is one example of the output of our model

Some models are useful

最终,我们所需要的是一种对不同程度的选民投票下的每个国家进行预测的技术,在强制投票制度下弄清了选举大学冠军。该方法必须考虑许多因素,例如少数群体的越来越多的投票,较少,而是倾向于左侧的左侧,没有学位的白人的投票率更高,谁倾向于右侧。我们还必须回答选民和非选民与相同的人口统计概况的关键问题是否会以相似的方式投票(在大多数情况下,他们也是)。更多问题沿途突然出现。

A solution was lurking in the background, but之前从未尝试过:一种统计方法,流行在主要的定量社会科学家中,称为“多层回归和分层后期”(MRP,或“超级球迷中的”先生“)。它涉及将国家民意调查与有关个人选民的信息相结合,以便在不同地理层面进行预测。由于美国政治科学家,所有必要的数据都很容易获得,该方法具有良好的文档。为了方法论透明度和澄清,我概述了下面的方法。

MRP让我们预测克林顿和特朗普在不同的人口群体中的非选民中赢得了多少票。这是一个原型图形,突破了州的差异

归纳问题

要使用MRP,首先从轮询有关中等大量人数的投票习惯的轮询数据。在我们的情况下,这些数据来自全国64,600名美国人的民意调查合作的国会选举研究(CCES), which is conducted every two years and led by researchers at Harvard University. We decided to focus our attention on the 2016 election, in which small changes in turnout would have made a big difference; Hillary Clinton lost the electoral college by just 78,000 votes.

The CCES provides detailed demographic data about all of its interviewees. We can tell, for example, that 75% of its adult respondents are white, 12% are black and just under 51% are female. But we can also combine categories; 52% are whitedon’t have a college degree, according to the CCES, while 10% are men younger than 30. This would come in handy later. The CCES also includes data on whether Americans voted and, if so, who they preferred for president. In the data, supporters of Mrs Clinton amount to 48% of all respondents, whereas supporters of Mr Trump clock in at 46% (both are the same percentages that the candidates won in 2016). Crucially, the researchers in charge have taken the extra step of validating respondents’ turnout with the actual record of whether they voted. This way, we can properly predict which Americans are likely to be actual voters. No one who said they voted, but actually didn’t, is treated as an actual voter.

格式化CCES数据的随机切片

With the CCES alone, we could assess the relationship between demographics, turnout and vote choice. But due to small sample sizes in select states — only 115 Alaskans filled out the survey — we could not make reliable state-level projections. To do so, we needed to know precisely what types of voters live in which states, and in what numbers; states with more non-white Americans will be more favourable to Mrs Clinton, for example, while those with more whites without college educations will tilt toward Mr Trump. Fortunately, the US Census Bureau provides this information in the form of theAmerican Community Survey(ACS),其每年进行,并在全国各地采访数百万美国人。

我通过将笔记本电脑摄取一个由ACS调查的175,000人的随机代表性样本进行了调整的人口普查局的数据,并计算了每个州的每个人口统计组的普通股。例如,我们可以发现,大约1.5米(8.4%)所有佛罗里达人的人数超过65岁,女性,在没有教育和高中文凭之间有一些东西。大约13%的德克萨斯人在没有大学学位的情况下是中年白人。这样,我们的目标人口包含在CCE中存在的相同的人口统计数据 - 所需的预测目的 - 但我们也有最精确的数字,这些数字可以在每个州生活的类型。

A random slice of the ACS data after it has been formatted to match the CCES

如果你有所有数据,你会怎么做?

随着数据争吵完成,我们可以继续培训一个多级回归模型(“先生P”)关于人口统计数据与候选人偏好之间的关系(根据CCE)。有几个包是r,统计编程语言,可以培训这些复杂模型,我们尝试了所有这些复杂的模型。下面我展示了代码的代码看起来像一个名为“rstanarm”的特定包,它允许我们与贝叶斯统计数据的单独语言界面称为stan。

我跑的代码样本适合我们的模型之一

在数以千计的迭代中,该模型逐渐了解人口统计和政治行为之间的关系。我们可以使用这些关系来预测每个州中每个人口统计组的投票习惯(根据ACS)。例如,上述女佛罗里达老年人预计为唐纳德特朗普在希拉里克林顿投票,例如五个百分点。我们为我们的数据中的每个人口造型组中的每组数成千上万的数万个人群计算相同。

一旦完成,剩下的就是计算每个州的估计值。这是通过加入(或“后分层” - “MR P”)的“P”)在每个状态下的每个组中的预测数量的克林顿选民。我们通过将克林顿夫人的总数除以住在那里的成年公民总数的符合条件的选民的数量,获得她的投票分享。特朗普议员也是如此。由于我们仅关注克林顿夫人和特朗普先生的投票(第三方被排除在该分析中,但在计算原因中被排除在外,但在测试这一点差异时,选举选票分配给任何候选人赢得超过50%的候选人投票在给定的状态。通过模拟每个州的结果来推导胜利的概率,从而占据我们建造的类似模型所做的预测错误的错误预算2016年总统选举的实际结果。

The results are presented in本周

来自打印文章的主图表

首先,第二个和......N原则

从开始到完成,我们的方法并不是一个容易的方法。虽然流程类似于典型的社会科学研究制品,但时间范围更加压缩:新闻要求需要这项工作在一个月内大致完成。如果有人想要重复我上面描述的方法,他们可能想要记住一些事情。

首先,熟悉贝叶斯统计数据的概念在我们的方法中很重要(因为我们的几个数据团队成员都是不确定性的粘滞,所包括),但这并非严格必要。存在其他R包以实现几乎相同的任务 - 事实上,我们最终使用其中一个,“LME4”来计算最终数据,因为它产生了相同的点预测。但无论哪种方式,对舆论投票等主题的理解,调查权重和美国投票行为至关重要。我们没有完成类似的项目之前,这个人会更长的时间。

其次,MRP是从国家民意调查中提取国家级别的可靠估计的有效工具,但它并不完美。即使在2016年投票的授权记录后,该模型仍然无法精确预测选举;我们对比赛中希拉里克林顿国家级投票分享预测的平均绝对误差仅为2个百分点。在选举之前提出的预测,没有谁的知识投票,可能有更大的错误。国家调查的质量是关键;您无法退出不足的数据。

最后,在追求复杂的方法方面存在一定的效用,但是一个像铃声和吹口哨一样实现相同任务的一个耻辱之一,这将使事情更容易向读者解释。因为这是我们的最终目标,我没有这样做的概率从后预测分布的情况,包括随机效应术语,如果它们完全传达,读者只会将读者才能解释为社会学GobbledyGook的随机效应术语。据说,这不是ockhamites的努力;过于简单的危险。

阅读所有这些文本后,您可能会问自己

讲故事的时间

到底,疯狂是值得的。我们的团队产生了一种惊人的故事。如果每个成年公民在其最近的总统大选中投票,美国政治景观如何改变美国政治景观的问题是一个高度详细的答案。

We have quantified for the reader just how left-leaning America’s non-voters are. We have shown how an increase in voter turnout would produce varying political swings in states with different populations of whites and non-whites, holders of college degrees and high-school diplomas, millennials and baby boomers, etc. And although the numbers didn’t make it onto the page — we had fewer than 300 words to work with in this week’s chart-filled- 我们还能够展现在美国工作级白人的内置选举优势的持续存在,这份报纸的常用主题。最后,我们为典型提供了数据驱动的答案“如果?”问题 - 在本报的数据团队之前的时代稀有的东西。

经济学家

关于国际新闻,政治的见解和意见......

中等的是一个开放的平台,17亿读者来寻找洞察力和动态的思维。在这里,专家和未被发现的声音相似地潜入任何主题的核心,并将新的想法带到表面上。学到更多

遵循对您有关的作家,出版物和主题,您将在您的主页和收件箱中看到它们。探索

If you have a story to tell, knowledge to share, or a perspective to offer — welcome home. It’s easy and free to post your thinking on any topic.写在中等的

Get the Medium app

一个按钮,称“在App Store上下载”,如果点击它将导致您到iOS App Store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store