John:利用数据挖掘撰写新闻报道

作者:彭博社John Liu

我们正身处于一个大数据的时代。Google董事长埃里克·施密特曾说,现在每两天生产的信息,相当于从社会的开始到2003年的信息生产总量。这可以说明,世界已经有了翻天覆地的变化。而我个人则认为,科技,是世界产生如此大变化的主要原因。全世界的人口,略超过70亿,将近70亿人都拥有手机,近30亿人使用互联网,近20亿人使用社交媒体。

我在这里将首先以彭博社为例,谈谈社交媒体的普遍使用是如何影响当今新闻机构的报道方式的。

中国彭博社现在设立了一个专门的小组,每天定期关注微博、推特、微信上被广泛发布和迅速扩散的信息。例如,2014年6月5日晚七点左右,微博等社交媒体上突然涌现许多关于北京国贸地铁站出事的消息,称有很多人从地铁站口跑出来,并可能造成人员伤亡。由于对新闻的真实性和准确性存有疑问,彭博社当时并没有马上发出报道。但为了核查事实,我们派了记者去现场采集信息,万幸的是最终并没有发生什么恶性事件。这个例子说明,社交媒体对彭博社传统的信息获取方式乃至整个新闻生产的流程,都产生了显著的影响。

下面,我将分几点谈谈彭博社是如何使用数据协助新闻工作的:

首先要强调的是,彭博社是一家以数据为基础的新闻机构,我们通过数据挖掘产生新闻敏感,进而去发现值得关注的问题。与很多大型国际媒体不同,彭博社一开始从事的是数据挖掘,之后才拓展到新闻业务。正是彭博社的这一历史,决定了我们对数据的重视,同时也使我们拥有了独家的数据资源和分析工具。

datablog-1

上图是对2009年至2014年6月间亚洲股票市场表现的分析。上面一栏显示的是五年间表现最好的股票,下面一栏显示的则是五年间表现最差的股票。我列举这个例子是想说明,彭博社的记者最看重的并不是得出最好的答案,而是提出最好的问题。而数据对我们的最大帮助,正是发现最值得关注的问题。

如上图所示,五年间业绩表现最好的是一家香烟公司,最差的则是中国的一家煤矿公司。那为什么这家烟草公司表现好,那家煤矿公司表现差呢?这就是新闻点,我们正可以据此采访行业内外相关的专家,去分析为什么会出现这种现象。比如煤矿公司表现差,是与中国政府的政策息息相关的;为了遏制污染,政府正在大力支持新能源产业,相应地也就影响了煤矿公司的表现。

datablog-2

再举一个例子,上图是2007年至2013年底亚洲货币的表现图。其中,人民币的市场表现是最好的,而最差则的是蒙古和印度的货币。从中我们又可以提出问题:为什么印度货币的表现这么差?为什么中国货币的表现这么好?而从这些问题中,我们又能进一步得到新的新闻点和报道创意。

其次,数据另一重要作用在于帮助记者发现事物之间的关联性。

datablog-3

如上图所示,蓝线代表20年中人民币的走势、黄线代表中国GDP的走势、绿线代表上海交易所指数。将这三条线对比来看,我们可以发现:人民币从1995年到2005年间受国家维持稳定的货币政策影响,基本走势不变;至2005年后,由于货币政策的放松,人民币走势出现了迅速增长,在金融危机时也稍有增长;但最近几个月,人民币出现了20年来第一次直线下跌的状况。这一变化自然引起了媒体关注。同时我们可以看出,中国GDP和上交所指数的走势是基本一致的,可见二者关系很密切。但人民币的涨跌与GDP和股票交易指数却没有特别的相关关系.

datablog-4

对不同国家间数据进行对比,也是发现关联性的一个常用作法。上图是我们在2012年领导层换届时制作的,显示了2002年至2012年间中国发生的变化。具体来说,图的上半部分显示的是中国与印度相对比的人口变化。2002年,印度和中国农村人口还不相上下;但十年后,中国的农村人口显著下降,印度却依旧保持着缓慢增长的趋势。尤其是在2010年,中国的城市人口第一次超过农村人口。而图的下半部分,则显示了中印两国的人均消费能力变化。2002年,中印两国的人均消费能力相差不多,但在之后十年中,其间的差距却逐渐扩大。将这张图的上下两个部分放在一起,正可以写出一篇非常有趣的新闻,即中国的人口从农村转移到城市,相应的也带来了中国人均消费能力的提升,以及中国GDP的增长。

第三,数据可以为某些广为人知的事情提供新的理解方式或解读视角。下图显示的彭博社2013年采写的一篇关于北京空气污染的报道为例,北京的空气质量较差是一个广为人知的事实,而彭博社在这次报道中则通过数据和图片,对“北京的空气究竟不好到什么程度”这一新问题做出了解读。

datablog-5

上图中最上方的绿线,显示的是2004年美国阿拉斯加一次森林火灾的PM2.5数据。在森林火灾中,PM2.5可以达到每立方米1000微克。而中间的红线显示的,则是北京每日PM2.5最高值的数据。从对比中我们可以看到,北京某一天的数值接近900,说明北京人已生活在一个近似于森林火灾的环境中。至于红线下方的蓝线显示的,则是美国国家疾病防治中心公布的各机场吸烟室的PM2.5平均水平。与红线相比我们可以发现:有整整一个月,北京的PM2.5值高于美国机场的吸烟室。而图6最底端的白线,显示的则是世界卫生组织制定的健康标准PM2.5水平。据此我们很容易得出结论:北京这一个月中的空气质量都是不达标的。

datablog-6

最后,数据可以用来预测趋势。上图显示的是彭博社2012年一篇预测央行何时进行下一次减息的报道。其中,彭博回顾了央行此前20次宣布减息的时间,同时分析了其与宣布CPI时间之间的关系。如上图所示,央行宣布减息有11次是在周末或假日,只有3次是在工作日。而央行减息与CPI公布相隔的天数,有3次是1天,有2次是2天,只有一次是1天,即二者时间间隔越远,发生几率越小。通过这两组数据,我们可以预测:下一次央行减息的时间,很可能是与下一次CPI公布时间距离最近的假日。因此根据下一次CPI公布的时间,我们就可以得出预计的减息日期。

最后简单总结一下:首先,数据能帮助我们提出正确而有价值的问题。其次,通过对国家、公司进行比较,可以发现新闻点。再次,数据能为某些已广为人知的事情提供新的视角。最后,数据可以成为预测未来趋势的工具。

【Datacn.Net-大数据应用从业者与爱好者组织,聚焦大数据业务价值实现。】

You may also like...