王中原唐世平：政治科学预测方法研究———以选举预测为例 - 期刊论文

选举预测是指在选举结果发布之前预判结果的研究活动，其具体任务可分为预测总体得票率、预测席次或选举人团、预测选举胜负、以及预测政府组成方式等方面。通常精度要求越高，预测链条越长，预测的难度就越大，预测失误的风险也越高。选举预测可以追溯到 19 世纪下半叶的美国，早期因为技术手段和数据资源的缺乏，预测活动主要依靠非科学的个人判断。20 世纪中叶以来，随着研究方法和技术路线的革新，各种科学的量化预测方法相继出现。然而，大量非科学的预测手段仍长期存在，其中包括通过政客、观察家或学者的个体判断进行预测;通过历史上与大选结果相近的同趋势小选区来预测;通过“征兆”预测，例如“倘若复活节在四月，民主党会赢”，“姓氏最长的候选人当选”，等等。这些方法虽能在某届选举中预测较准，但其缺乏科学依据，要么混淆了相关性与因果性，要么受制于个体层面的认知偏差，不具备解释性、透明性和可重复性。选举预测不是拍脑袋和碰运气，必须依赖科学的研究路径和预测机理。因此，本文将聚焦科学的量化预测方法，并将在构建选举预测评价体系的基础上考察现有各类量化预测范式的原理和优劣。

(一)选举预测的科学评判标准

评判选举预测成功与否需要一套系统、客观的科学标准，准确性(accuracy)无疑是最重要的衡量指标。除了“准确性”之外，政治学预测性研究还须兼顾预测的超前性(lead time)、解释力、透明性、可重复性、中立性等指标，并根据具体预测目标和研究任务在不同标准之间做好综合权衡。

1. 如何认识准确性? 准确是最关键的指标，也是实现预测功能的基本要求。然而，社会科学定义的准确性与媒体和大众理解的准确性略有不同。首先，对于不同预测任务，准确性的标准存在差异，例如预测选举胜负与预测得票比率对准确性的精度要求不同，媒体和大众更关心谁胜谁负，学术研究则更加追求预测精度。其次，预测的成败和统计学意义上的准确是不同概念，科学的选举预测给出的是某种可能的结果、有关这个结果的概率以及预测的误差估计。第一，预测结果是一种概率而非固定不变的数值;第二，任何预测都存在偏误，统计学上已经发展出包括均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对百分误差(MAPE)在内的预测误差度量方法。选举预测的特殊性在于，误判了胜负的预测结果，很可能落在统计误差允许的范围之内，即统计学上准确。最后，没有绝对准确只有相对准确，所有预测方法都存在局限性，无法达到百分百精准，只能追求相较于此前预测或者其他预测方法更加准确。

2. 选举预测的综合评价指标。第一，平衡准确性与超前性。准确性是选举预测的必要但非充分条件;除了准确性之外，选举预测还须兼具超前性。通常来说，距离投票日越近，预测者获得的信息越完全，预测准确性越高。然而，预测的功能在于指导决策，这就要求足够的超前性，以预留充裕的时间窗口研制对策。随着选举日临近，预测的政策应用价值递减，选举当日的民调(如“出口民调”)除了提供媒体报道的噱头外，已不具政策价值。有学者将选举预测方法分为“长视野”(long view)和“短视野”(short view)两类，并认为依赖模型的长视野方法侧重“超前性”，以民调为代表的短视野方法追求“准确性” 。因此，选举预测需要在准确性和超前性之间做出某种权衡，在保证准确性的前提下最大限度地提升超前性。第二，平衡预测力和解释力。选举预测作为一项学术研究，除了追求预测力之外，还必须兼顾解释力，即通过预测促进假设检验、机制解析和学理推断，提升人们对选举制度和选举行为的洞察力。量化预测的模型设定、变量选取、数据分析不仅要满足精度追求，同时其预测过程和结果需具备学理上的可解释性。一个高度复杂的预测模型可能具有超强预测力，但如若无法从学理上对其变量、参数和模型构造进行解释，就会产生“预测黑箱”，无法获知中间机制和理论意涵，也无法服务于选后分析。例如，机器学习方法可以通过特征工程(feature engineering)构造出各种特征变量以提升预测力，但其模型过度复杂，往往超出社会科学的解释范畴。因此，选举预测需要兼顾预测力和解释力，保持预测的学理价值。第三，平衡计算和判断。量化的选举预测将数据(data)变成信息(information)进而变成知识(knowledge)，计算机算法可以让预测活动摆脱专家个体判断的偏误，提高预测的科学性和精准度。然而，纯粹技术驱动的预测也存在较大风险，甚至带来灾难性后果。首先，量化预测在数据收集和编码、变量选取和测量、模型建构和优化等阶段都少不了专家知识和政治学理论的指导;其次，计算机无法精准处理数据中的“噪音”(noise) ，需要人工监督。当然，科学预测必须谨慎把握“学者自由度”(researcher degrees of freedom)。一方面，判断的标准和过程必须有理可依、有据可循，保证预测过程的透明性和预测结果的可重复性;另一方面，判断标准和计算过程必须公开，接受学术共同体的监督。总之，科学的预测应该综合计算和判断，将“知识驱动”与“数据驱动”相结合。

(二)量化选举预测范式的类型和演进

选举预测研究聚焦西式民主国家。源于美国的各种选举预测方法被逐渐应用到对英国、法国、德国等国家以及欧盟议会的选举预测当中。近年来，选举预测方法在不断丰富的同时，也延展到对“边缘国家”“新兴民主国家”和“竞争性威权国家”的选举预测当中。不同国家的政治体制、选举制度、经济社会环境不同，对选举预测带来诸多挑战，同时推动着预测方法推陈出新。

经过八十多年发展，选举预测形成了一系列科学量化的预测方法，并随着计算社会科学的兴起呈现出新的创新态势。选举预测方法不仅限于民调，本文将选举预测的科学方法划分为四大类:意见聚合范式(Aggregators);模型范式(Models);混合范式(Synthesizers);大数据范式(BigData)。每一类范式下又可细分出不同的预测方法，每种方法都各具比较优势，也面临不同的问题和挑战。

1. 意见聚合范式。意见聚合范式通过测算调查对象对候选人/政党的支持意见或基于意见的支持行为来预测候选人的获选概率，包括民意调查(polls)、政治博彩市场 (prediction market)、群体智慧(wisdom of crowds)、以及专家调查(expert survey)等方法。虽然这些方法的数据来源和技术路线不尽相同，但其共性在于根据抽样或特定分布来聚合不同个体意见(或基于意见的客观行为)，由此克服个体判断的偏差，获得更为可靠的预测结果。

首先，最为人熟知的当属选民民意调查。第一种是“简单民调”，即基于某种选民分布结构的抽样民意调查，通过邮寄、电话、网络、入户等方式了解样本选民的投票意向，由此推测整体的投票趋向。然而，简单民调面临抽样调查本身的各种问题，包括拒访率过高、样本量过小、样本结构不科学、测量方式不合理、成本太高，等等。此外，不同民调机构往往具有各自的政治倾向性，即所谓“机构效应”(polling house effects) 。这些问题都可能导致民调结果失准，也是近年来民调预测表现欠佳的原因。第二种是“综合民调”，为了克服单一民调的弊端，研究者们尝试将不同民调数据进行加权综合，以期让不同民调的“机构效应”相互抵消，减少误差和噪音。该方法近年来越发流行，最具代表性的当属奈特·希尔沃(Nate Silver)在“538 网站”(FiveThirtyEight)做出的综合民调预测，其根据历史准确率、样本量、时效性等来加权多个民调数据，曾在 2012 年美国总统大选中成功预测了所有 50 个州的胜负结果，类似方法也被运用到英国、法国和荷兰的议会选举预测当中。第三种是“民调映射”，即测算历史上选前某个关键时点的民调支持率与最终得票率的相关关系得到映射函数，进而推算当届选举的结果，例如，根据美国劳动节当日的民调来预测选举结果。

其次，除民调外，学界还发展出诸多意见聚合的预测方法:其一，根据政治博彩市场的投注风向预测选举，其预测机理是选举投注是民众根据选情预判做出的投资决策，相当于让其回答“您认为谁会赢”? 因此具有风向标意义。1884 ～1940 年的统计数据显示博彩市场的预测准确率达到 73%，其准确率甚至超过部分民调。当代最知名的政治预测市场是带有学术研究性质的“爱荷华选举对赌市场”(Iowa Electronic Markets)。其二，“群体智慧法”，又称“公民预测法”(citizens forecasts)，即通过询问选民“您认为谁会赢”而非“您会投给谁”来预测选举结果，这种“期望调查”相当于把个体的预测汇集起来，集合群体的智慧，研究显示群体预判在意见多元、决策独立以及可综合的条件下比个体预判更加精准。其三，专家调查法，即通过调查选举专家群体来测算结果。虽然单个专家或政客对选举的预判常存在偏差，但借助一些科学方法(例如德尔菲法、群体提案评估法)对专家群体进行意见调查通常具有一定的预测力。

通过科学规则聚合个体意见或基于意见的行为来预测选举结果是当前最为流行、最受关注的预测范式。该范式一定程度上克服了个体判断的偏误，具有较强预测力，并且以其简单易懂、实时迅速、动态更新等优势长期占据预测市场和媒体报道的中心，仅民调一项在美国的市场规模就达 180 亿美元。然而，这类预测也具有明显局限:第一，非理论驱动，意见聚合是某个时点上群体判断的截面图，除了直观反映大家的意向和预期之外，缺乏对变量关系和影响机制的解释，对从

1 2 3 4

Contact Us