丁健:大数据的价值在于应用

让我解释大数据觉得比较困难,其实从大数据的角度来讲,因为我们确实投大数据时间很长,亚信做大数据也很长时间。大家都知道中国电信数据时间很长,我们在做BI,大概七八年以前在做,帮他们挖掘整个电信数据来指导他们的营销。所以亚信BI的人才几乎在最近两三年,被各个公司的大数据部挖的七零八落了,包括现在在腾讯、阿里,很多领导大数据的开发、分析。

我们自身从金沙江角度来讲也在四年以前投了,几乎是在大数据概念出来之前我们就投了业界第一、第二大数据的公司。坦率的说,大数据到今天的的确确像很多人说的这样,有一点被炒的过热了。道理其实最主要的是我们把很多概念混淆了,我们第一个概念就是把数据自身的价值和数据开发的价值混淆了。

其实大数据本身有没有价值和大数据开发利用以后的价值,这两个是完全不同的,我喜欢在我们内部讨论这些事情,喜欢用一个比喻,就是矿石。就是一块石头你给农民他就会用来盖房子,你说值多少钱?你要给炼铁的,他炼出来很有价值的铁,要给一个炼金的,他可以从里面炼出金子来。所以石头本身的价值,在很多人手里,如果没有后面的炼金术,炼铁术没有任何价值,只能盖房子。所以我们要看大数据,主要是看它如何把现在的数据能够开发利用起来,而开发利用数据的并不是近几年才有的。

近几年之所以被炒热了,一是随着互联网,随着特别是移动互联网的到来,数据量的产生远远比以前要大得多,特别是很多的实时数据产生了。第二个就是计算能力也大幅度的提高了,大幅度提高之后对数据加工分析产生出来的新的价值也比以前大得多,所以这个时候大数据的价值被真正的用起来了。所以实际上你要仔细的看,大数据的发展,他最终的价值之所以到今天,并不是因为数据本身的价值提高了,而是开发利用数据的能力在大幅度的提高。

那么从这一点的角度上讲,我们谈大数据,很多人就是因为自己有很多的数据,就是说自己是个大数据公司,这是一个非常错误的观点,甚至还有做餐饮的也说自己是个大数据公司。实际上你要仔细去看的话,我们现在看在很多做大数据的高科技公司里面,你会发现他的数据处理能力是在现在大数据里面最大的一个瓶颈。所以我们现在之所以说大数据被炒得过热,是因为我们的期望值对大数据加工处理能够的期望值,远远高于现实能够提供的大数据。

所以前一段时间我在圣地亚哥见到一些人,说大数据已经被炒得不行了,被微软一挖,被别的公司一挖就双倍公司的给,因为这些人才太稀缺了。我不知道我能不能从一个角度把大数据稍微正一正名,就是我们要谈大数据,先要专注在大数据的开发利用这一块,所以我先讲这么多。

问答

丁健:刚才因为我第一个发言,所以我留了一半,正好刚才维嘉也在问我,从投资角度上来讲现在小公司有没有机会,又谈到隐私的问题。我最早讲的就是大数据有被夸大的地方,另一方面就是刚才建光讲的,就是大数据从长远角度来讲,它的意义和对高科技的颠覆性是巨大的。其中很重要的一个地方就是这样,就是大数据从最早到现在,实际上是完全不同的主题。

第一个阶段是类似于刚才讲到的企业内部的结构化的东西,而今天实际上我们大多数情况下讲大数据的时候,往往指的是类似于完全没有各种各样散在各个地方的东西,这个难度是很大的。也就是包括像刚才讲到谷歌和百度,这些新的技术是专门在处理的,这个实际上在大数据领域已经算是一个现实发展的,而真正现在再进一步,包括像IBM,像谷歌,像最近百度在搞的深度学习,微软也在做,实际上又上升到下一层。就从我们所谓的叫仿人脑进行对数据进行工作,这是什么概念?就是以前的数据我们是告诉计算机怎么去分析,我们在这里面又是完全不同的了。

谷歌做了一个非常有名的实验室,在斯坦佛,就是他把一堆YOUTUBE上的视频进行操作,开始电脑有意识。当他看完这一些东西的时候,没有人告诉他里面有什么,就让他看,他自己总结出来了一个猫的形象。这个很有意思,当他把这个东西解决出来了,又用它认识了视频里面所有的猫。所以这就是电脑开始真正进入到所谓的智能化,这就是现在谈的最多的起点。就是我们原来觉得这是不可能的事情,就是电脑超过人脑是不可能的事情,现在把电脑和超过人脑的点叫起点或者是基点,这个时间现在已经有的人说我这一生看不到我孙子能看到,有的人说没准我这一生就能看到。

现在包括很多道德问题等等都开始出现了,但是这个问题我们就不谈了。我觉得现在的大数据,我把最基本的大数据到基点这两个作为光谱的两端的话,我们可能是在1/5的阶段。那我们要做的,对企业来讲非常重要的一点,其实现在所谓各企业在处理数据的话,还是太基本的数据了。有很多的其他数据都没有办法处理,你让电脑自己去学的这些数据只有几个公司有这样的能力做。

我觉得最后的深度学习,人工职能的技术是谁最早掌握了对这种大数据的处理能力,他实际上会对它的预测性,决策,甚至包括炒股各种各样的都有巨大的影响。现在股市上已经有了,有机会大家可以去看一看。“失控”他已经预测到了一些股票很精准了,他的一些走向,都属于非常保密的状态了,这是相对来讲远远超过我们想象的,它的难度是超过我们想象的。我觉得企业并不需要害怕,企业还是要重视这个数据的应用,特别是对自己企业的数据,还有特别是公共企业的数据,就是公共平台上的数据怎么样利用起来,这是一个。

第二个学习就是维嘉讲的数据合作,现在在国外有很多这样成功的公司已经开始了,包括做数据市场,做数据的交换、合作这些方面,在这里面有非常重要的一点就是安全,这里面既涉及到隐私保护又涉及到合理使用,那在这个平衡点上怎么做?用一个时髦的词来讲就是法治非常重要。就是政府如何能通过立法,既可以合理的让大数据更快的使用,而不是来阻碍大数据的发展,又能够让大数据隐私保护也能做到。其实现在这方面已经开始做了,电信现在有一些投资的公司在合作,他们很正常,把数据开放出来,他们第一步就是去隐私化或者去敏感化,他去敏感化了之后就可以向外公开数据了。

最后再引用别人说的一句话,他认为人工智能的未来,深度学习的未来在中国,这个他是觉得我们既有很大的数据量,因为我们的人口要比美国大好多倍,同时在数据的方面来讲,还有数据的应用方面来讲又有巨大的优势。我们既是数据产生的巨大方向,又是数据应用的巨大方向,还有大量的高科技人才,又是大数据处理技术最有希望的部分。所以我觉得无论在创业角度还是从我们的企业应用角度来讲,大数据的未来在中国还是有巨大潜力的,谢谢。

作者:金沙江创业投资董事总经理 丁健

You may also like...