蔡凯龙:小数据的大时代

我这次主题是:小数据(iData)的大时代:数据革命的下一个前沿阵地。这个是我以前对大数据小数据的一些心得看法, 请多多指教。 每一小节我都会预留点时间,欢迎大家提问题,让我们的交流碰出思想的火花吧。

主要框架:
(一) 小数据的介绍和定义
(二) 小数据产生的原因
(1) 大数据对隐私无止境的侵犯和个体对主动保护隐私的需求。
(2) 对统一全面管理分析个人数据的巨大需求.
(三)小数据的特性和大数据的对比
(四)小数据发展的广阔前景。
(五)小数据的发展最需解决的三个大问题.

(一) 小数据的介绍和定义

数据革命的最终目的,就是给每个人都配备类似于美国总统的白宫级别的服务。这不是科幻,这是数据革命即将开创的另一个前沿阵地,小数据的大时代。

小数据(iData), 指的是围绕个人为中心全方位的数据,及其配套的收集,处理,分析,和对外交互的综合系统。人的一举一动,一分一秒,产生的数据,包括生活习惯,身体状况,社交,财务,喜好,情绪,行为的等等,全部被收集和利用和分析,并对外形成一个富有个人色彩的数据系统,统一执行交换数据,保护隐私等多项对外功能。

小数据跟大数据的根本区别在于,小数据以单个人为唯一的对象, 重点在于深度,对个人数据全方位全天候深入精确的挖掘利用,大数据则侧重在某个领域方面,大范围大规模全面数据收集处理分析,侧重在于广度。小数据只有围绕一个人,你就是小数据世界里的美国总统, 小数据就是你的白宫办公室,它听命于你,收集关于你全方位信息, 提供给你最贴心最完整的数据服务,同时担任对外界大数据的唯一接口。小数据并不是大数据老酒装新瓶,把大数据思维操作模式简单套在小数据上并不适用。 接下来我具体从小数据的成因, 特性,发展前景和问题,这四个方面来谈谈小数据是怎样作为大数据的互补和延伸的。

(二) 小数据产生的原因

1. 大数据对隐私无止境的侵犯和个人对主动保护隐私的需求。

1993年《纽约客》刊登了一副漫画:标题是:“互联网上,没有人知道你是一条狗”。经过20年互联网,移动互联网和社交网络以及大数据的快速发展,我们已经毫无隐私成为透明人了。现在这句话应该改成:“不要说互联网另一端是一个人,即使是一条狗,我甚至能知道它身上有没有跳蚤”。 在数据为王的时代,个人隐私遭到肆意的践踏和侵犯。 你上网买个东西,或者在社交网上发个言,很简单一个动作,瞬间同时的在政府网络监控,电话上网公司, 买东西网站,社交网,搜索网站, 信用卡银行,还有专门收集资料的爬虫系统。。等等,留下你详细的个人资料。

更可怕的是,这些都是永久的,任何时候都不知道会被谁调用,会被人肉搜索到 。大数据的基因里有对数据无限的渴求。因此以企业为主的大数据,在追求最大商业利益的同时,是不可能主动保护个人隐私的。可以说,大数据和个人隐私保护是天生不可调和的根本矛盾。

随着隐私被侵犯的弊端逐渐浮现, 各国都有不同程度的立法来保护个人隐私。但是至今为止,实际收效甚微,我们对隐私大规模被侵犯仍然束手无策。不过想想连德国总理默克尔,这么一个大国最高领导人的手机都会被窃听,我们这些普通大众的隐私在国家利益和商业利润面前,又怎么能够被真正被保护呢?难怪Steven Rambam, 一个互联网隐私专家曾经说过一句让人很绝望的话:”Privacyis dead — get over it.” “隐私已死,爱怎么着怎么着吧”

这时候,迫切需要从技术上,让个人主动而不是被动的保护自己的隐私。小数据就能很好解决个人隐私和大数据的矛盾。小数据对内是一切个人数据的集合,对外是个人数据的唯一接口。任何对外的数据输出,都需通过预先设定授权程序。 而外面大数据其实不是真的对你的隐私感兴趣,就比如说大数据要分析用户对一个新车的市场, 他需要同时知道你年龄性别收入等等,但是大数据最终目的不是要拿这些隐私,而是拿这些作为大数据分析模型必须的素材,最后分析出你喜欢或者不喜欢这辆车。

其实小数据在这方面更有优势,甚至细微到主人喜欢什么颜色,买车主要目的是上班还是休闲等,只要把小数据分析结果而不是隐私内容,通知给大数据。这样既能保护个人隐私,又能提供大数据最准确的信息。完美解决大数据和隐私之间的矛盾。

同时小数据还能在保护隐私的监控上掌握主动。我们都知道,注册登记任何社交网,都要求你同意密密麻麻天书一般的法律条文。

我相信没有人会真正认真去看这些条文,因为用脚后跟想都知道,里面法律术语晦涩难懂,看懂了你又能怎么样,还不得乖乖”I Agree”我同意。 这都是企业合法用你数据资料的同时, 用来规避法律责任的保护伞。这可是企业雇佣庞大律师团队花巨资写出来的,我们个人在保护隐私上完全被动而且势单力薄。

如果有了小数据,这下我们从被动变主动。你企业要用我小数据,好,没问题,数据是我的,我控制能给你什么,不能给你什么。比如你问我喜不喜欢这辆新车,我告诉你我喜欢,但我不告诉你我年龄和家里存款。同时外部使用我的小数据是有前提的,如果医疗健康类企业,要知道我身高体重,没问题,需要根据我制定的规则办事,你要”IAgree”我的数据使用条款,不能到处传播。同时,还规定使用时间和使用范围,比如给你3个月只能用于某个特定医疗设备研究,用完就得永久删除,否则被我小数据监测到,可以依照里面的法律条文,咱们法庭上见。

小数据让个人作为个体信息的真正拥有着,通过小数据,制定个人信息的使用范围和授权, 以及监督机制。任何企业组织甚至政府,都要事先同意遵守我定的规则才能使用。设想有个名人想要美国总统奥巴马约个吃饭时间,他该先和白宫办公室联系,同意白宫办公室的条件:不能和外界事先透露总统行踪后。同时,白宫只能跟回答比如说晚上7点总统有没有空,喜不喜欢吃牛排,而不是把总统的全部的行程安排包括总统吃什么药片都告诉对方,这个可是最高国家机密。小数据让你享受总统待遇,你的个人信息就是你的小数据王国里的最高国家机密。

小数据还能做到绝对隐私, 比如那天你累了想彻底清净一段时间,或者你要和老婆老公有私人空间,你跟小数据系统下指令, 彻底停止所有个人数据监测,这下就清净了,你在数据世界就真的有一段时间人间蒸发了

2. 对统一全面管理分析个人数据的巨大需求。

小数据的产生还有一个主要原因,对统一全面管理分析个人数据的巨大需求。 信息时代,我们被铺面而来的信息狂轰滥炸,我们面对的问题是信息太多,不是太少。我们最大的挑战是如何能快速,方便,一目了然的定位有用的信息,如何从纷繁复杂的数据中提炼出有价值的信息,从而真正解放个人,让自己多点时间去思考,去创作,多陪小孩家人,多去体验生活。

小数据通过对个人信息的全面收集,反馈,整理,分析,能提供最贴心的数据服务,提供最有价值的决策支持, 甚至比你还了解你自己。你问问奥巴马谁最了解他,答案不是他太太还是他父母,一定是白宫工作人员。

我举个亲身体会的很小的例子来说明未来小数据的价值。 纽约这边水表都实现电子自动读数,隔几个小时家里的水表自动发送数据到自来水公司,上网查看。这个是个很原始很简单的数据,看起来没有任何价值。有天,我突发奇想,用大数据的思维,把这些数据下载下来,结合我家的出行旅游时间记录,发现了个问题。

这水表显示没人在家的时候继续不断地用水,3年来一直如此。 我进一步挖掘,把家里每天使用水的大概时间拿来对照,最后断定,一定是某个地方悄悄的持续的漏水。经过排查,终于在不经常去的地下室洗手间里的抽水马桶盖子里,找到一个阀门没旋紧,从这里漏水直接进下水道。3年多来从来没被发现。如果没有数据分析,这么隐蔽的地方不可能被发现。 我计算一下,这3年来这个阀门浪费了600多美金的水费,如果我在这里住10年,这个简单的数据分析就能省下我2000美金的无端水浪费。 这个就是小数据的个一个很简单的案例。

我进一步把我可以找到的个人数据:当地温度历史,电气水历史用量,财务数据,健康数据, 统统有机结合起来(当然数据收集废了好一番功夫)。这个很原始的小数据给我展现出我从来没有看到过的一面,在我决策过程中提供非常多有价值的分析。而这只是一个雏形,一个开始,如果有成熟的小数据系统,真正全面的把个人全部数据有机结合起来, 其能发挥潜在价值不可估量。

(三)小数据的特性和大数据的对比

小数据和大数据有者本质的区别, 虽然以创造数据价值为目的思维和大数据是相类似的, 但是在具体方式上,还有以下几点不同:

1. 数据处理方式: 大数据强调标准化(去背景化),只有数据标准化,才能大规模采集,以后的数据处理概率统计才有了可能。 可是数据一标准化,就失去了其数据产生时的特性和背景。而小数据的用户数据的最大特点,就是来源和使用者是同一个人,只不过存和取时间和背景不一样而已,这就让数据标准化失去存在的理由。为什么要用标准化来抹去我对数据的主观色彩呢和背景呢。

比如我说“喜欢吃的这家店的臭豆腐”。这个信息,存在我小数据的数据库里,不能单单只存标准数据:比如时间,臭豆腐形状臭豆腐店地址等。这些还不够,还要把我喜欢的程度和重要性:是非吃不可否则活不下去呢,还是一般的喜欢过两天就忘记了。还有当时的语境:是我陪老婆去吃她喜欢我也跟着喜欢,还是我恭维臭豆腐店老板,因为他是我一个朋友呢。这些都是小数据需要处理的信息, 而大数据的标准化方式是无法做到的。

国外这方面已经有初步的研究, Dr. Ofer Bergman 在2003年最先提出“用户主观方式”(User Subjective Approach )来存储个人信息。2009年他在这方面开创性研究在美国信息技术学院 (American Socieity for Information Science and Techonology )一发表获得极大轰动。被美国图书馆协会(The American Library Association)评为当代十大科技前沿的研究方向之一。

2. 人的不可替代的作用: 在大数据模式下, 数据从人身上产生被收集后,接下来的数据处理分析,就再也跟数据的主人无关了。而在小数据里,所有数据都是围绕一个人, 所以人在系统的发挥中心的作用。 就比如说白宫团队再怎么庞大,都要根据总统的旨意,很多重要决策,还得总统拍板定夺。虽然小数据里不可避免要使用人工智能来提供帮助,但是人工智能如今发展还没有大的跨越,远远不能胜任代替人脑的作用。 这个有利有弊,坏处就是人还要不时的参与决策。好处就是,使用者比较放心,因为这些数据就是你的全部信息,你放心让一个人工智能代替你做重要决定吗?说真的,我还真不放心。

3. 其他数据性质的区别,比如是小数据数据量相对比大数据的数据量小。小数据对数据不全部需要快速反应,比如说你的胆固醇,一个月收集分析一次就够了,而大数据对数据的反应要快。小数据更加注重非结构化数据的之间的关联, 重深度挖掘, 而大数据重在包容所有个体的数据重在广度。
综上所述,小数据不是简单大数据的小型化,而是大数据的补充和延伸

(四)小数据发展的广阔前景。

小数据解决大数据无法克服的保护个人隐私矛盾。在主动保护个人隐私的同时,小数据提供给大数据最直接数据传输,避免了大数据的重复收集和模糊预测,提高数据使用效率和价值。同时小数据利用全面的个人数据优势,结合外部大数据,提供给个人最个性化,最独特,最有价值的数据服务。

Amazon的名言“最成功书籍推荐应该只有一本书, 就是用户要买的下一本书”,即使大数据的先行者如Amazon,预测用户要买的下一本书并不容易。 它最多能根据你在amazon的交易记录,和有限的片面的个人信息来模糊预测。如果有小数据,身为最了解主人的个人数据系统, amazon只要跟个人小数据接口查询:”你的主人最有可能买下一本书是什么?”小数据先查查主人设定,是否同意和amazon交流,在不泄露个人重要隐私的前提下,做完个人分析,看看主人最近最关心什么,最需要什么类知识,列出主人最有可能买的1本书,告诉amazon。 第二天,主人一开门,发现门口摆了一本自己最需要的书,上面写着:“Amazon通过和您的小数据系统交流,得知您最可能需要这本书,把书给您送来了,需要就拿去,我会跟你小数据系统结账。” 多方便,多和谐的一个过程啊 。
大与小是相对的,无论是面向企业还是个人,还是整个社会,关键是如何为需求方提供精准的,满意的服务。再拿一个大数据里被津津乐道的一个案例来说, Target 超市用孕妇怀孕可能购买的商品用户购买记录,通过构建模型分析购买者行为的相关性,能推断出孕妇的具体临盆时间。这是在大数据模式下。 如果大数据和小数据配合,小数据在主人授权下,直接把主人临盆告诉Target的大数据不就得了, Target可以根据接受的小数据的临盆时间,加上小数据愿意透露的主人年龄和对商品的个人偏好,能更加准确无误预测个体的购买情况。这其实已经超越预测,应该叫洞察了把。

其实“小”数据,更加准确应该叫“个人”数据, 不过为了借大数据的号召力,才叫“小”数据, 因为现在的大数据更多的倾向于弱化个人特性, 我同意大小只是相对的。

大数据很多时候被运用在广告投放的目标客户的分析上:到底这个广告对这个人来说,是雪中送炭还是让人讨厌。 大数据时代这只能从用户以往的购买历史,旁敲侧击。然而在小数据时代,小数据直接告诉大数据,主人喜欢这个品牌那个颜色,如果不是符合主人口味的广告,就不要来骚扰。 在这种精确无误的洞察,就好比给决策者一个清晰透视未来的水晶球。用户,企业和政府可以最大限度的的利用大小数据的配合,进行所有的数据活动:个人财务投资分析,个人健康监控,个人疾病治疗,企业策划营销,企业战略分析,政府宏观调控,公共卫生安全防范,预防犯罪等等。

小数据和大数据的完美结合,必将让市场营销人员, 理财投资分析师,房地产中介,医生,律师等等专业服务人员全部失业。 可以这么说 ,大小数据,双剑合璧,天下无敌。

小数据还有一个意想不到,却让人想想就睡不着觉的用途: 数字永生!小数据精确记录从出生到死亡,无时不刻,细致入微的所有细节,它就是数字化的你,是你在虚拟世界最真实的数字投影 。你的世界被数据化了, 因此复制你的世界成为可能。 这就涉及到人类永恒的梦想:永生。 肉体的永生还有待科技水平的提高,但是数字化个人的永生,在小数据时代就变成可能。你的小数据,就是你在数字世界里最真实的载体,即使肉体的消失,你的小数据还能依据一生的数据历史分析,可以对外界信息做出反应(当然这个反应只能是依照历史,不能主动创新,否则就可怕了)。

对于别人来说, 你的数据载体,将永恒的停止在肉体消失的一刻。 如果思念一个逝去的亲人,你可以和她留下来的小数据聊天,问她问题,向她倾诉,听她讲她的过去,小数据会根据历史记录,最完整的呈现出逝去的亲人的一举一动一颦一笑,包括她所说和所做的,甚至推断出她所想的。如果未来机器人和人体仿生的的进一步发展,制造出一个一模一样的人作为小数据物理载体也不是不可能。这个是不是想想就让人激动不已!

(五)小数据的发展最需解决的三个大问题:

1. 个人数据处理的进一步研究和开发。虽然“用户主观方式”(User Subjective Approach )来存储个人信息是一个重大突破,但其研究也只是理论上的初步构架,到真正实现还要有一段时间,需要科学家进一步探索和完善,加快其现实的运用。 同时,国家要把小数据和大数据一样,作为国家的战略核心资产来投入和研发,并在法律法规上保驾护航。

2. 安全保护,小数据如果安全不到位,这个问题大了, 这个好比在数据世界被人绑架了。所以小数据对安全级别要求很高,这不是一个企业组织有足够的信誉和能力能做到的,需要提到国家层面,需要国家统一规划。但是即使在很高级的安全保护算法里,只要是算法,都会有漏洞,所以,人的参与就成了拟补算法漏洞的法宝。

3. 人工智能在小数据系统里占有至关重要的作用, 在白宫里的地位相当于总统办公室主任,整体处理白宫各个方面大小事务。 人工智能的发展至今裹足不前,需要国家把它提升为战略地位进行科研开发和投入。

人,是一切数据存在的根本。人的需求是所有科技变革发展的动力。可以预见,不远的将来,数据革命下一步将进入以人为本的小数据的大时代。

谢谢,这就是我今天的分享。

You may also like...