王磊:新浪微博如何建设数据能力

新浪微博准确的讲是从2013年开始做大数据这方面的建设,其实在没有大数据这个理念之前,微博的产品有自己的经营方式。在运用了大数据之后,在具体实践过程当中新浪微博也有五个方面的分享,跟大家一起来探讨。

1、聚合、计算、输出、反馈形成数据和业务闭环

微博大数据其实是一个很闭环的业务,从底下的原始数据开始,微博一条一条的文本,实际都是非结构化数据。通过自然语言处理的技术,把每一条文本内容提取出来,之后放在底层网络上。如一个客户对一家饭的评论内容,将内容提取后就放到这个饭店的边框上。

基于文本处理还可以做语义的分析,把这些非结构化的内容进行结构化,再上一层达到算法层,这个算法实际就是跟不同场景不同的算法,到达用户端,用户端再回到底层的数据算法当中。因此整个过程并不是一个孤立的,而且跟场景的理解关系非常大。每个点都非常灵活,要把这个合力用到整个闭环上。

2、平台化思路建设计算能力、数据能力、服务能力

大数据本身的建设如果从效率提升来讲,其实是一个平台化的东西。微博的在线场景非常多,每个在线场景都会留下用户的行为。所以对微博来说,大数据的建设是一个平台化的思路。所谓平台化的思路,要从不同的场景里面去做足够的抽象,这个抽象有三层含义,一个数据结构的抽象,还有一个是策略算法的抽象,还有就是输出的抽象,三个层面的抽象。

从场景上来说,会分成内容流,用户流,推荐搜索,还有开放平台的输出,还有离线报告的应用,不同的业务,不会去针对每个业务特点去做,而会把场景要用的策略算法做一个梳理,具体在工程实施的时候,有一些是需要批处理的,有一些是需要流处理的。

3、结合云计算技术挖掘大数据价值

新浪微博数据类型非常多,内部分基本是几十个领域,而每个领域从一开始都是从底层往上做,做数据非结构化到结构化的转化。但是走到一定阶段,如果想要做到场景级别,还是需要垂直领域的理解。新浪有各个频道,跟音乐、电影这些门户频道有比较深入的合作,到这个阶段并不是技术层面的事情,而是跟垂直领域,跟行业关系密切。

另外新浪微博也跟外面合作伙伴有一些合作,这些合作伙伴会把算法部署到新浪的计算环境当中来,因为毕竟涉及到一些数据的问题,不可能把这个开放的程度过大。如果能够有技术合作的公司把垂直领域的理解还有他们的算法部署在我们这个环境之上的话,他们获得数据的范围可以更大,这个也是新浪微博后面的一个发展方向。新浪微博提供一个云环境,在这个环境里面,可以用到基础的数据,微博基础数据。另外还可以用到大数据这边已经做到的一些标签,还有自然语言处理这些内容,甚至就是这些合作伙伴可以基于新浪微博提供的基础数据,还有挖掘出来的标签,他自己挖掘的标签,做一些APP,来满足用户的诉求。

4、建立合作更好的满足客户需求

新浪微博跟一些其他领域合作伙伴进行多方面的尝试。目标主要是围绕用户的衣食住行各种需求,目前已经跟央视索福瑞有一些合作,这是已经上线的产品,后台的数据包括给微博文本打上标签,还有大家平时见到的曲线图。

在微博电视指数里面,想表达的是某一款电视在播出的时候,在社交媒体上会有口碑的影响力,还会有用户的覆盖度,这些都是节目制作方,电视台都非常关心的内容。我们从后台的数据来看,某一款节目在播前、播中、播后都有一个曲线,这个曲线那来之后,比如《爸爸去哪儿》,比如《中国好声音》,这款产品究竟在哪个地区哪类用户有非常好的反响,这个用户是什么年龄群的,微博上观众经常关注什么,看什么,在这样一个场景里面新浪微博都能够获得。前端展示出来的就是一个微博电视指数,但是后台其实还有很多要做的事情。

5、开放微博大数据和云计算环境

整个微博大数据建设的过程当中,也希望能够跟有共同服务用户这一点理解诉求一致的行业的合作伙伴去进行合作。这里面微博这边能够开放出来的就是UGC的内容流,还有基于微博这个生态体系所打的用户方面的一些标签。

还有能够提供一个开放云计算的环境,具体合作也有三个层面,最基础的就是数据这个层面的合作,比如数据的互补,对奇。第二个是场景层面,比如在微博这个场景上面一些功能,用户在使用微博的时候,互联网产品本身就是在创造场景,不断满足人细分场景下的需求。新浪微博跟这个垂直行业的伙伴一起寻找,在其他场景还有哪些可以做的。第三个就是产品的层面,这个形式不一定在微博内,具体什么形式不确定。

作者:新浪微博大数据产品总监 王磊
ps:欢迎关注我们的微信公众号datexii

You may also like...