俞渝:数据是当当网核心资产

我觉得有些公司从一开始就是以数据为生的,我认为电子商务行业就是这样。因为电子商务没有实体,然后做电商的公司,无论是准备商品还是他找到目标客户,他所有全部都是数据。我觉得在2004年、2005年早期做当当的时候跟今天不一样,我们那时候用一个词叫数据挖掘。然后过了几年那个词改了,就是要根据挖掘出来的数据建立一些模型和仓库,还有数据的迁移,大数据什么时候热门的我没有特别注意过。

1、销售大数据应用

我觉得以当当或者个案,或者是我们这个行业来讲,数据的应用我想是分几个层面的。一个是在销售层面上,我们可能要推出,比如说还看了什么,还买了什么,还浏览了什么,他的历史,和你相像的人,他在关注什么,这个数据是毫秒性的。以前计算成本比较昂贵的时候我们可能是几天更新一次数据,后来变成当天更新数据,现在计算能力没有以前那么昂贵了,我们可以实时更新数据。像这些数据的应用,对于软体,对于硬件还要有一定的考虑。

2、供应商大数据应用

当当第一层是销售企业的应用,主要还是你相似的人在买什么,可能感兴趣的人做一个考虑。第二个是供应商的,像当当的商品是上百万种,在全国20个仓库有40万平方米,我们不可能在每一个仓库都做平行库存,无论是当当网自己还是供应商都是做不到的。所以我们要把我们的供应分成几个级别,有的叫地方化仓储,有些是起到一个蓄能的作用,很多是根据当地的购买情况去做调配,这个数据的应用是让周转更快,不断货,及时贴补,让供应链更小。

像最近这些天特别热的一个词叫冰桶,现在可以区分冰桶是个社会现象,那我们还可以做点分析,它还没有影响到某几类商品的销售,所以我们还要再去看哪些会影响消费行为,我们怎么在不同的角度认为是全国性普及还是地区性普及。

3、评论大数据挖掘

在当当网数据运行的第三个层次,我认为是评论层次。因为网络的常规性和大家的去中心化,更愿意听人家去说什么,而不太愿意听一个媒体权威说什么,所以人之间的影响半径和沟通,跟三年前比发生了很大的变化。我们现在整个社交行为都发生了很大的变化,那这个产生出来的东西是会影响到很多顾客行为的,所以这种评论,怎么让一个评论,就是有用的评论,相关性强的评论,怎么定义相关性?这个东西一定是巨大的计算量。统计,和很多用户的属性黏贴在一起,再给大家一个指南。

所以总得来说,像当当网这种基于互联网,基于消费者行为的词,他从第一天开始,数据完全是阐述公司行为的一部分。不管这个名字怎么叫,是数据仓库,数据迁移还是大数据挖掘,我们永远是以数据为生。对于其他一些行业来讲,我们看到几个事情。一个是数据和有用的数据之间千差万别,数据哪儿都有,怎么把这个数据挖出来,提炼出对自己有用的东西是很大的挑战。

还有一个东西想要纳税人为自己公司服务,一定要积累数据,我觉得很多公司和行业没有底层可以使用数据。我们经常会看报纸说河南的菜卖不出去,实际上我就在想一个城市每年耗费的生活用品,白菜、大枣,一段时间是恒定的,除非都听张悟本的,大家都吃一样东西,这是很特别的形象。那到一段时间可能会有所波动,但是这些数据去挖掘和使用的很少。

还有经常有人把数据和信息两个事情混淆,就是可以计算,可以公式的这个是数据,而信息是不可以切开处理的,做分析的。对于一个企业行为,商业行为和预测行为是相互的,我就讲这些。

DataCN问:如何保护隐私

俞渝:当当不提供原始数据,因为当当网增值的部分是我们对于顾客的支持,所以这里面等于是我们把行为和产品他们想要什么东西我们理解完了以后,给他一些建议,原始数据是不会给的。

我再举个例子,我们最近买了一个国外信息服务,他里面有一条,软件数据他们可以给我们共享,我们看到以后立即把这一条取消掉。因为我们作为当当网来讲,我们想可以和别人分享的是成果,不分享的是数据,这是原则。

我想更正一下,我们不卖数据,和这个数据是当当的核心能力两者的关系。首先它是核心资产,这个核心资产我们涉及的是几千万顾客,十几年的购买。真正去处理这些数据能力的人,除了我们自己别人也用不好,就是把生的数据,哪怕把张三李四都隐藏,给奶粉公司还是给房地产公司,他也抓取和使用不好,这个东西是很关键的。

另外有的时候我们也不能直接货币化,有时候我们拿一些成果去换了一些商品的折扣,或者是广告的投入等等。所以它的变现形式不见得永远是货币化的,跟其他也有关系。所以我觉得卖和不卖,跟抓取和处理能力是很相关的。

作者:当当网董事长 俞渝

You may also like...