邬贺铨:大数据挖掘助力轻工业发展

大家上午好!我会讲到关于大数据的机遇,大数据我们有网络层面的数据,有自媒体,比如社交网络。除了网络层面我们还面临一个物理层面的数据,也就是我们的传感器,传感器收集很多数据。另外还有平面媒体的数据。我们会看到互联网的大数据化。

左边这个图是1998年平均全球每个网民,每个月下载一兆的数据,右边这个图,现在一天的数据量就达到2013年一年的数据量。全球新产生的数据量年增40%,全球信息总量每两年可以翻一番。2011年和2020年的全球数据量,到2020年全世界的数据是40ZB,大数据是无法在容许的时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合,大数据规模的标准是持续变化的,当前反之单一数据集的大小在几十TB和数PB之间。大数据顾名思义首先是大,然后是变化很快,还有带有很多结构性的框架优势和非结构性,所谓非结构性像照片、视频,光是大、规模快,和大,这并不是我们关注大数据的特点,是关注大数据的价值,大数据的价值是密度很低,我们是海里捞针,当然没有那么容易,所以处理起来还是有难度,但是它是有价值的。它体现在什么地方?举个例子,IBM日本公司的经济指标预测系统,从互联网新闻中搜索制造业的480项经济数据,计算出采购经理人指数PMI预测值。

印地安纳大学学者利用Google提供的心情分析工具,从用户970万条留言预测道琼斯工业指数,准确率达到87%。这张图是淘宝CPI,编制淘宝网上成交额比重达到57.4%的390个类目的热门商品的价格走势,反映网络购物市场整体状况,以及城市主流人群的消费情况。

这个是马航370,现在已经失联3个多月,实际上它并没有停止它的通信,GE的每一引擎装20个传感器,在飞行的过程中每隔一段时间通过卫星将传感器收集的引擎状态传给GE公司,每个引擎每飞行小时产生的20TB,从伦敦到纽约每一飞行产生的640TB级数据,GE每天收集PB级引擎数据,美国每月收集360万次飞行记录,监视机队。硅谷Climate公司从美国政府获得30年的气侯,60年的农作物收成,14TB的土壤数据,还收集250万个地点的气侯数据,向农户提供天气变化,作物、病虫害和灾害、肥料、收获、产量、市场价格等咨询和保险服务,承诺每英亩的玉米利润增加100美元,如预测有误将及时赔付。最近该公司被孟山都公司以11亿美元的价格收购。

美国农业部将建立一个网站,链接348个农业数据机通过数据挖掘找到最佳土壤、湿度、日照时间,准确判断农作物是否施肥、浇水。沃尔玛基于每月4500万网购数据并结合网上挖掘对产品的大众评分,开发语义搜索引擎,方便浏览,在线购物者增加10恩%到10%,增加销售十多亿美元。美国有一个公司叫Target,它女性顾客,女性里头最舍得花钱的是孕妇,一般孕妇会买一些没有刺激性的化妆品和有关婴儿的用品,关心婴儿用品,并没有当时买,你怎么知道,超市里都有推车,推车里头有GPS无线传感器,能知道推推车的顾客在哪个柜台前停止的时间长,尽管你没有买,但是知道你的数据。本来这个事情做的很不错,结果有一天,有一天一个家长说,我家里一个上初中的女孩,这个公司把孕妇广告,婴儿奶粉送到我哪里去,这个公司第二天在报纸上登了道歉信,又过了一个礼拜,这个客户发了一封道歉信,我错怪这个公司了,我女儿意外的怀孕了。从阿里广告交易平台买下顾客购物记录与IP地址的商家一旦发现该顾客浏览与该商家有广告关系的网站时,就会推出相应产品广告。广告主的投放更精准,网站广告可以卖出好价钱,阿里和网站分成,而用户的体验也会改善。

实际上阿里如果商家运营的好就要有资金,阿里根据你在网上交易状况的记录,你是诚信的还是健康的,你可以在网上申请贷款,3分钟搞定,阿里不要担保,坏账率只有0.3%,四大商业银行要担保,坏账率是阿里的3倍,阿里后来想,我通过支付宝跟余额宝结合成立一个天弘基金,银行是嫌贫爱富的,阿里通过支付宝、余额宝结合散户的钱,联合天弘基金。我们很多企业,众多小企业,不注意能掌握美国对手是谁,但是现在美国有一个网络,叫Panjiva公司,它有所有美国网络的数据,利用政府开放的海关货运数据建立全球外贸搜索引擎。我们所有企业都有物流,这个图上是一个汽车,这个汽车实际上是我们通过GPS和街景能够使这个车无人驾驶。至少无人驾驶一定是一种交通,大数据的应用,更多的应用对我们企业来讲是一个很好的应用。

我们还可以谈到,大数据还可以检测热点,你没到长假,就知道哪个地方发生拥塞。2013年5月,昆明市市民上街抗议PX化工项目上马,早在市民集会前一周该项目的百度搜索关注度剧增。数据挖掘本身对商业来讲,对企业来讲没有用处,但是实际上它涉及到数据获取、存储、计算、分配、挖掘和安全,这个婚介我们真的要把数据存到数据仓库,根据数据需要从数据仓库提取必要的信息,目前数据必须把重复的、多元的、错误的信息去掉,然后再分类。

大数据挖掘需要应用到云计算。一般来讲大数据是没有接触点,因此数据来的非常密集,非常频繁,现在要实时的挖掘。这个图是上海,东西方向的路,这张图,我们把所有上海的马路组合起来,哪个时刻点交通流量最高,所有的大数据不是说一大堆的报表,所有的大数据最终的结果,一个表,一个图,一个视频,非常间接明了,而能够处理。比如说北京现在PM2.5很严重,很多人感觉肺有毛病,到医院做CT,一个肺的CT会作出2000多幅,这是横切面,横切面还是很难,通过大数据的技术把它组合,组合起来合成一个肺,看看肺周边有没有什么影响,这就是大数据帮助我们医疗。

这是一个篮球厂,通过篮球厂上面的摄象头,可以知道他的3分球的命中率高。美国MBA请大数据分析师的获胜率高于没有请大数据分析师的,我认为中国的足球队最应该请大数据分析师。对于我们企业来讲,我们所有企业都有数据,关键是怎么利用这个数据,和怎么挖掘这个数据。

最后宽带化、移动互联网、互联网、云计算等催生了大数据,大数据的挖掘深化了信息技术的应用,推动了信息化与工业化的融合,细化了对市场和用户需求的了解,开拓了技术创新和商业模式的创新的空间,提升了决策的智能化水平,改善了服务能力。我们需要把握新的机遇,迎接新一轮产业革命的到来,谢谢大家!

作者:中国工程程院士、中国互联网协会理事长邬贺铨
日期:2014年6月6日

You may also like...