陈沁：纯数据分析，美国民调到底准不准，拜登民调领先能保证胜选吗？ - 国内专家

四年前的美国大选中，民调数据几乎都错误地预测，特朗普将败给民主党候选人希拉里；四年后的今天，主流民调依然预测，特朗普将无法胜选连任。于是现在事关大选结果预测，我们经常听到这样的声音：“虽然民调显示拜登领先，但是大家都知道，民调在2016年失败了啊！所以我们不能相信民调……“

但民调数据到底准不准呢？我们还应不应该信任民调？改进后的民调传达了哪些信号？

我们把2016年最后一周的民调平均值和选举结果拿出来，做一个比较。下图的横坐标是民调中民主党超过共和党的比例，纵坐标是大选结果中民主党超过共和党的比例。

可以看到，用民调来解释大选结果，拟合优度是0.9826，也就是说，选举结果各州差异的98.3%是可以用民调的各州差异来解释的。

拟合优度虽然高，但它只表示了“样本间差异的可解释性”，却没有给出各州的大选结果和民调的函数关系。

那么问题出在哪里呢？在这个截距上——这条线经过了（0，-3.76%）。

也就是说，即使民调是半对半，特朗普和希拉里完全一样，最终结果也要扣掉3.76%。因此，2016年大选时，民主党只有在保证4%的民调领先时，才能在大选中获胜。如果民调领先5%，那么最后可能只赢1.24%，就很危险；如果民调领先3%，那很可能就会在该州输掉。

这个截距来自很多地方，第一包括民调的样本是不是有足够的代表性，第二包括民调的未回答人群是不是有偏向性，第三包括了不同的支持者的投票率。2016年时，从民调到选举结果，这三点可能都有问题：第一，民调没有代表足够的人群；第二，民调中没有回复的人群中特朗普的支持者要比希拉里的支持者要高，他们被民调忽视了，或者说调整了，但是没有调整到位；第三则是特朗普的支持者投票热情要更高。

尽管这三个问题看起来都很严重，但他们在2016年也只能解释3.76%的截距。而目前人们不相信这个民调的理由，其实也就是对这个截距到底是多少不太有信心。如果说民调中领先多少都不能保证最终获胜，这个民调自然也就用不了了。

但是民调公司也不是吃白饭的，他们在这四年间也会调整调查方法。比如对某些特征的人群过度抽样，比如改进询问方法，比如fivethirtyeight的方法是根据历史数据直接给民调一个偏向性，然后把这个偏向性从民调里面扣除掉——相当于先回归出截距，再把截距扣掉。总之，所有的方法都是一个目的，要让民调和大选结果更接近，让截距趋向于0。

这么做有没有改进民调的结果呢？我们可以从2018年中期选举得到一些启发。2018年时，435个众议院席位改选，民主党共和党激烈斗争，各大民调公司又纷纷做了民调，而这次中期选举规模也不小，总票数只比2016年大选低14%，最后的结果和民调散点图如下所示：

1 2 3

Contact Us