李大学:京东的大数据应用情况

DATACN.NET注:2014年11月27日,李大学(京东集团副总裁)接受媒体采访时表示,除了部分财务系统之外,京东从前端的交易系统到供应链,到仓储、配送、客服以及售后等的技术支撑体系,全部由自己研发,“这样全流程数据的积累,也是京东大数据区别于其他厂商的地方”。李大学表示,其2008年刚加入京东时,技术团队仅有30多人,现在短短几年已经发展到4000多人的队伍,其中负责大数据部分的团队有300多人。

1、问:外界对京东物流的覆盖、速度和服务印象比较深刻,相对而言对京东技术板块了解不多。是不愿意说,还是没什么可说?

李大学:京东送货速度快,给用户很好的体验,再加上正品,买东西放心,没假货,发展速度特别快。至于技术,我们确实说得不多,这和老刘(刘强东)的习惯有关系,我们愿意做一个务实的企业。我们的技术人员也更愿意用事实和结果来说话。其实物流,背后也是技术。我们双11前上线的亚洲一号,处理量很厉害,里面很多自动化设备的流程就是靠技术系统实现,包括拣货的路径、货品暂存区域等,通过大数据的使用可以大大提升库房的效率。这就是技术。今天我们谈大数据,其实京东在大数据方面有很多目标和战略,我认为其中不少在业界是比较超前的。

2、问:京东的整个技术架构是怎样的?大数据在其中处于什么位置?

李大学:现在京东技术团队4000多人,大概有300多人在负责整个大数据的平台,以及大数据的一些创新。

从技术架构来看,最底层是基础设施,就像电信运营商要铺光纤一样,我们也要网络和服务器,机柜和机架等。这些基础的设施我们会用云的方式给它管理起来。

再往上的话,就是我们的数据层,解决数据的存储、运输、加密,以及加工处理、挖掘。大数据的工作就在这一层。

再上面我们叫API层,就是应用接口层。我们把功能、数据、接口等全部抽象成API,大家可以公用。一个团队可以共享很多知识产权,而且相互之间接口变简单了。比如说有三个部门,你的功能我要,我的功能你想调,怎么办?我们做一个API层,大家都可以写都可以调。

第四层才是应用层,就是与用户交互的界面层了,有时候是APP程序,有时候是网站,他都是应用。

3、问:京东的数据有什么特征?

李大学:讲大数据大家都知道四个V。其实,京东的数据最大特征还不是四个V,而是我们数据的价值链特别长。

你到我网站上来看了什么东西,停留多长时间,看没看评论,有没有把他加入购物车,加入购物车买没买,每天看了几次,乃至买了以后的行为全部都有。然后下了订单到库房、配送的过程都有,数据链最完整。如果你有售后问题和返修问题,我也有数据。不像一些友商,就是一个网站,一个点击流。

京东为什么敢做白条业务?因为我们有信息。所以京东数据的特征,就是一个“全”字。很多人谈大数据,一上来强调数据量大,其实我不认为量大是一个问题。

我有一个观点,其实要把大数据玩小,不要整天强调大数据,但是根本落不了地。就像小时候写作文,不要写长篇大论,而是要从小处着手,以小见大。

传统的大数据组织都是按照主题来,商品、订单、物流、广告都是不同的主题。这样是有缺陷的。我的理念是数据要按照用户来。每一个用户到京东,我都给你开一个数据银行,围绕着用户来存储、处理。

当然以用户为中心,看起来小,其实也很大,就是要做到完整。如果这个过程完成了,用户体验还可以优化,技术架构还可以有一个升级,这是我们最近在研究的东西。当然,现在还没有正式形成成果,只是做一些研究,但是这是方向。

4、问:大数据对京东具体带来了什么价值?

李大学:大数据最核心的还是用户画像。这一点做好以后,我们对用户更了解,接下来就可以做一系列工作,比如围绕着用户进行精准营销,然后围绕网站和APP可以做千人千面,让用户转化率更高。目前千人千面在移动端已经上线,网站在测试后也将上线。

有了用户画像技术还可以对用户分群,我们就知道哪个人群可以赚钱,发优惠券的时候就更有针对性。

第二个层面的大数据应用是预测。对销量的预测决定我们定多少货,从而提高库存管理能力和资金周转能力。再比如,对用户的行为也可以预测,算出你下一个点击是什么。

第三个我们比较重视的应用,就是围绕着商品的价格弹性,进行采销互动。盲目的降价不一定带来销量,以前让我销售额增长就降毛利,让我毛利增长销售额就不增长。大数据告诉你两个都可以增长,通过采销互动可以模拟给你看,毛利有多少,销售额涨了多少,没有采购之前给你模拟出来。

第四个方面,大数据应用就是在运营的其他环节里面,去提高效率,去降成本。比如说库房里优化检货的路径,货架上的摆货逻辑。还有我们的配送网络,一个配送站或自提点该不该开,怎么开,怎么覆盖用户,全国的配送网络怎么优化,全部可以大数据算出来。电商里面成本效率这件事情,没有大数据做不到的。

第五个就是大数据影响我们的决策。通过大数据来判断品类怎么去拓展,未来的机会点在哪,公司是否要做战略调整等。领导脑子里面想的东西要经过大数据验证,到底是不是这回事。

京东的决策过程已经渐渐成为用数据说话。

5、问:京东的大数据能力,形成了哪些具体的产品?

李大学:产品有很多,可以说涵括电商的全价值链。我具体讲一个。大家都知道京东有一个JDPhone计划。京东通过这个计划与很多手机厂商合作,通过大数据来决定下一代产品的方向。这背后所涉及的就是我们的一个大数据产品——慧眼。

传统的制造商要做一款手机,先去做用户调研,然后闭门造车在家里设计,设计完了生产一堆库存,把库存发到各个零售渠道。我们认为大数据时代,这个模式要变。我们和手机厂商合作,把京东的大数据开放给他们,手机厂商就可以以此为参考,决定他们的产品定位、配置和设计。努比亚和荣耀通过这个计划发展得都很好。

这里面的关键是长期的数据积累,如果没有这个数据积累,大数据技术再牛也没用。

6、问:京东现在的大数据平台也是基于Hadoop,那么发展的过程中是否存在从集中式到分布式变化的过程,或者说“去IOE”的过程?

李大学:大数据平台非常复杂,Hadoop本身解决的是分布式大数据存储,在这上面还要有实时计算的技术、分布式的挖掘系统。当然这里面还有安全。

所以企业没到一定的规模,没有一定的研发投入很难管理大数据平台。仅仅抓一个Hadoop容易,但是要把他玩转比较难了。你可能几百台Hadoop容易管,像我们上万台的Hadoop集群,就必须有二次开发能力。

京东也在想,未来这些技术,怎么为业界所用,把它开放给行业去用,这是我们未来想去做的,我们希望2015年能在这方面有更多探讨。

至于你说的“去IOE”,这个过程并不明显。京东从中关村起家,最初服务器就是DIY,自己来定义规格。而且我们即将宣布和IT产业核心企业的合作,让更多电商和互联网行业的伙伴分享京东在这方面的成果。基于我们对电商的这种理解,现在市场上的服务器存在很大的浪费,表现在内存和CPU不匹配。

7、问:京东包括大数据在内的技术系统几乎采取自研的模式,这是否与社会分工理论相悖?

李大学:其实我们也跟业界不断做交流,我们研发团队有一句话,“请进来,走出去”。我们的技术开放日,报名的人人满为患。

但是对于京东这样规模的公司来说,我们基本上找不到服务商能解决自己的大数据问题。互联网行业有个规律,叫幂律分布。放在电商行业也一样,“高个子”就那几家,市场上的电商解决方案提供商,只能也只会为“矮个子”服务,因为这部分企业数量大,有规模效应,而为高个子服务它挣不了多少钱。因此,京东这样的企业只能自己发展,自己摸索。市面上服务商的产品和技术,也没有机会在京东这种级别的平台上进行验证和演化。

没人能为京东提供解决方案,市场上的成熟解决方案也解决不了京东的问题。但是反过来京东技术可以为他们所用,高个子都能用,矮个子用就没有什么问题,无非剪短一点。

8、问:那么,京东在开放自己的大数据能力方面有什么具体想法?

李大学:应该说开放的话,我们目前还处在一个初级阶段,未来还要深化。我的考虑是“数据API化”,你要数据可以调,调了就可以用,而不用管后台的模型。

目前业界在这方面的所谓对外开放,主要还是开放计算能力和存储能力,属于基础设施层面。我认为应该再往上走一个层次,在应用层和商业层去做,而不是在底层拼价格。

京东2015年5月会落成一个非常大的数据中心,在万事俱备的时候,我们会公布具体的商业策略。

内容来自《21世纪》

数聚大数据玩家,尽在DATACN.NET