郑明:让数据说有用的话、正确的话
2019年06月03日  |  来源:《文汇报》2019年6月2日  |  阅读量:3550

汉斯·罗斯林最出名的一次演讲, 是他用 12 万个数据解释了 200 个国 家 200 年的发展。 他试图用数据来做 出判断: 人类社会是否 正朝着更健康、 更富有 的方向发展。

这 是 一 位 让 数 据 “歌唱”的大师、一位力 透纸背的统计学家,一 生致力于传播基于事实 的世界观。 他让我们了 解到, 数据并不是冰冷 的,数据可以是有趣的。 他也是让复旦大学管理 学院郑明教授赞不绝口 的人。

罗斯林的绝妙之处, 在于把数据 的可视化做到极致。 郑明教授以罗斯 林为例讲述了统计数据的魅力—— —数 据的采集、 分析的方法直接影响了最 终结果的产生, 也直接影响到数据的 应用价值。

面对越来越普遍和重要的数据统 计,郑明教授的建议是,在开展数据统 计 之 前 , 不 妨 先 冷 静 思 考 一 个 问题——“怎么让数据说话,说有用的 话、正确的话? ”

统计提供了从数据采集、 分析到 应用的一整套理论与方法, 其根本目 的, 是希望从数据中挖掘出有价值的 信息,进行基于数据分析的科学决策。

要让数据说话, 第一步是数据采集。最简单的办法就是普查,普查得到 的数据可以很全面,这是它的优势。但 普查的弊端也很明显—— —工作量大、 时间耗费大,而且很多情 况下,不可能直接使用普 查方法得来的数据进行 统计分析。 因此, 我们 就需要使用抽样调查的 方式。 抽样调查最大的问 题是怎么抽到最合适、最 靠谱的数据,我们可以根 据情况运用简单的随机 抽样、分层抽样、系统抽 样和整群抽样等方法来 提供数据,增加抽样调查 的可靠性。

完成数据采集后, 就要进行数据 的分析。怎样进行数据分析才能“让数 据说真话”呢?

车险公司通常会根据不同人驾驶 汽车的危险性来设定不同的保费金 额。 全世界所有保险公司的车险定价

模型中, 刚学会开车的年轻男性的保 费是最贵的, 相对而言,40 岁左右的 司机的保费就便宜很多, 这是因为这 一人群已经具备了丰富的驾车经验, 加上心智成熟, 不易冲动驾驶;70 岁 老年人的保费又贵了一些, 因为老年 人普遍反应较慢, 安全系数又有所降 低。从这个例子可以看出,保险公司可 以通过对不同年龄段驾驶员的行车数 据、行车习惯进行精细分析,在制定保 险费用时做出正确的决策。

这个例子告诉我们, 数据分析的 方法有很多,包括做关联性研究、回归 分析、聚类分析、对应分析、时间序列 分析等,但是要让数据说话,并且说真 话,一定要看清楚对象,认清楚场景、 掌握相关的背景信息,才能进行准确、 有效的数据分析。

伴随着“大数据”一词越来越多地 被提及,人们发现,对于海量数据的挖 掘和运用, 预示着新一波数据革命的 到来。

大数据有哪些特征? 首先是数量 大;第二个特征是多样性,来源多样、 包罗万象;第三个特征是快速,无时无 刻就有无穷多的数据在产生; 第四个 是有价值。

大数据时代, 对统计也产生了深远的影响。首先,大数据时代改变了数 据的收集方式。 传统的数据收集方法 是进行普查和抽样调查, 而伴随着互 联网平台而诞生的大数据, 则无时无 刻不在自动产生和被留存。

其次, 数据的分析模式发生了改 变。传统的数据在采集之后,我们必须 尽可能精确地量化记录, 导致有时基 于数据看到的,只是某些目标的局部。 大数据时代, 数据更有可能让我们掌 握事物总体的发展方向, 让我们在宏 观层面拥有更好更深的洞察力。

最后, 数据之间的关系在新的时 代被重新定义。 大数据时代需要用户 在进行数据分析时, 更关注数据之间 的相关关系,从而获取更有效的信息, 找到数据的价值。

大数据时代的来临, 要求我们每 个人都要有统计的思维。今天,我们对 数据价值的认识还有待进一步提高, 如何收集可靠数据、 如何进行有效数 据分析的相关意识需要加强。 在数据 分析上,我们还面临着一些重大挑战, 首当其冲的, 就是各个行业之间的数 据壁垒,数据信息还不够公开,且无法 顺畅流动。所以,未来需要建立一个综 合了创建数据、更新数据、开放数据、 监督数据的多方位多维度的平台。

回到顶部