邓庆旭:剖析新浪财经大数据战略

一休注:2014年9月24日,新浪财经大数据战略发布,推出新浪理财师平台(互联网金融咨询)、i指数、行情数据中心和新浪模拟交易平台,下面是新浪网副总编辑邓庆旭的演讲全文。

非常高兴,今天很多新老朋友又见面了,是一个特别的日子,这个事件对我们意义重大,形式上也是很特别的,我们是第一次在电影院举办这样一个发布会,我21014年第一次到电影院就是今天,我们策划发布会的时候,他们说我们挑选一个什么场合呢?后来好多人提了电影院,我当时有点儿犹豫,但是我觉得现在改变就是我们需要做的,我觉得我们最需要做的是改变的勇气。今天不管这个发布会大家是不是印象深刻,但是改变的勇气是值得肯定的。非常感谢。

今天的主题是“Big Data,Big Future”新浪财经大数据战略发布会,说到这里我们还是从几个数字开始,-2000亿,2013年4月23号这一天,美联社的一个账号发布了白宫发生两次爆炸、奥巴马受伤,这条消息在世界传播,在非常短的时间内,资本市场就有反应,很快美国股市蒸发了两千亿美金。

三亿,这个数字跟我们在场的每一个人说出来都不陌生,是中国A股市场上每天4个小时的交易时间产生的逐笔成交数据,一共是三亿条。在这样一个高频交易逐渐到现实中的环境下,这些大的数据给我们带来什么呢?不光是中国的,还有美国的,美国股市每天成交量是70亿股,其中2/3都不是人操作的,很多都是通过基于大数据的程序化的交易工具,基于一些已有的算法,由机器来操作的,这就是大数据在驱动着交易的行为。

在我们国内,证监会也好,交易所也好,也在准备着大数据的稽核。

新浪财经大数据战略-百晓生

第三个,这幅图片中间HFT是高频交易的缩写,最上面的Progressive这是一家保险企业,在车险,目前美国有15万用户。在中国,有了事故了,事故会影响你明年保费的多少,这家公司是把每个人的开车习惯记录下来,这个人容易抢道,你这个人速度一般高于要求的速度,这些作为大数据分析,它甚至会提醒你车的速度,把这个跟你投保的数额关联起来。等于在我们目前的基础上又前了一步,真的到用户行为的层面解决问题。

左边是Caymen Atlantic对冲基金,也是通过大数据分析市场用户的情绪,包括大宗交易市场、趋势等等,这个对冲基金两年的收益率在22%以上。

最右边是气候有关的,天气保险公司,在美国的天气保险公司做什么呢?把联邦的农业险跟农民农田,美国两千多万农田的数据结合起来,农田遭遇的温度的变化,湿度的变化,通过传感器记录,这个数据作为补偿联邦的农业险,跟农户因为自然灾害遭受的农业损失之间的差额,是这家保险公司在做的,他们也是基于分布在所有的农民每一块农田里的天气数据的变化,气候变化来做出它的投资的决策的行为。

Lending Club是P2P的公司,个人的行为,个人跟机构之间如何决策的行为,这个有可能对车贷、房贷一系列基于个人信用的变化产生一些有益的帮助。

DataSift,这是一个美国大数据概念的公司,分析的是瞬时的社交行为数据的变化,每条微博的变化传递给市场什么信息,分析这个。现在就凭这个概念,已经是十亿美金的市值。

OnDeck是利用大数据对中小型企业进行分析,评估我该不该支持,做多大借贷行为是比较安全的,应该给它什么帮助,也是通过大数据的。

CitiBank,也是通过大数据分析在银行界走的比较前面的。

所有这些东西,都是在现在这个世界上人们开始尝试大数据的一些结果。

“与时俱进的大数据”,在现在这个时代,数据时代,商业社会时代,适应科技已经成了这个商业社会发展的必然。

我们看几个字母,Technology,T,反映了大家印象很深的技术变革的时代,数据存储技术的变革,网络通信技术的变革,超级计算数据的变革,这个时代已经过去了,我们能够想起的大公司,IBM也好,英特尔也好,就是这个时代的产物。

Information,I,这些公司正在影响着我们的生活,最典型的Google。

我们看第三个字母,就是V,四个单词分别代表四个意思,Volume、Velocity、Variety、Veracity,数据量、速度、类型多样化、数据的真实性,对他们的处理,让我们商业世界在今天的发展走向一个未来更高的层级有了可能,也意味着我们更多的走向大数据的时代。

从数据到大数据,这些都是一个技术环节,很多数据每个人每天都会有,新浪财经的数据也不是今天才有,发展了十多年为什么今天才开这个大数据的发布会?就是我们今天才发现了大数据的商业价值,大数据的商业化推动了大数据和数据的发展,同时大数据和数据的发展也会进一步的让商业化的行为往高级的方向驱动,这个数字,534亿美元,预测到的,到2016年在全球范围内单纯的大数据本身产生的价值空间。

2015年480亿,2014年321亿,比较直的曲线往上升。

25%,这是我们今天所有金融企业都关注的,在这样一个500多亿的空间里,25%,1/4的空间是金融企业,银行、保险和其他一些机构。第二我们看到服务行业的比例,占15%。金融和服务业占大数据产值的40%。

国内在这块的挖掘基本是在一个起步阶段。我们想大数据的应用在国内的可能范围跟国外是一样的,基于三个领域,金融产品的创新和营销,高频的程序化策略,风险控制跟预测。中国国内这样一个大数据市场的发展是不完备的,跟国内的现状也有关,国内的数据提供商万得、同花顺等是相对比较封闭的,金融机构的都知道,我们装一个客户端,你要想往外扩散,它不是开放的,这个行为一定程度上束缚了数据行业的发展。

国外大的数据商,路透也好,彭博也好,对中国市场的了解还不够深,适应变化的速度即使跟万得比,还有些慢,造成整个国内大数据市场就是起步阶段。

为什么呢?我们前面讲的都是我们为什么要关注大数据,大数据对我们意味着什么?现在就是为什么,为什么是新浪,为什么是新浪财经,为什么是我们在做这个大数据,为什么我们在谈大数据。

新浪财经2014年逢五逢十,2014年是15年,在这15年过程中,有些时候我们也不知道自己创造的价值,完整地看是个什么样的价值链。我们原先认为每条新闻,我们可能对市场上提供的每个信息是我们的价值,直到2013年我们才发现,原来围绕整个产业链本身的数据就是个价值,我们每天看到新闻的链条,谁在看这个新闻,他是从什么路径看这个新闻,他一天看几次,他看完这个新闻去什么地方了,谁在看这个行情,看完做了什么决策,看完又做什么投资行为了?谁是我们的用户?完整的浏览路径是什么?谁是我们社交平台的链条?我们社交平台每一个用户的点击对我们意味着什么?我们拥有的用户市场到底在什么地方?这些直到2013年之前我们都不知道。

这些东西到今天我们才发现。我们的基础数据覆盖了15年的用户的阅览的数据,点击的,跳出的,基于资本市场最紧密的一些数据,真正是最有价值的东西。

结合我们前面的四个V,我们看看这六个方面的数据到底是哪些。

第一个V,大量的,比如我们有一千多万的活跃用户,这是每天的数据。中国6800万股民,有1/7的股民在使用我们的自选股。日均三万条资讯,在中国金融市场,没有第二家能够持续这么长时间每天提供这么样一个数据量。第四,超过四十万条的评论。第五个是每天一百万条的财经类的博文。这是第一个V。

第二,我们说速度。不管从报道上来说,还是我们在一些合作伙伴规模、行情的使用上,我们真的体现了速度。第一我们是7×24小时的全球市场直播,所有能够引起全球市场,金融市场也好,财经市场波动的都在我们关注范围内,我们有一个团队,7×24小时在工作,当时想这个名称,我们想用什么名称给这个栏目做个定义呢?我们有一位干了十多年的老编辑是我们美股的负责人,他每天下午四点到单位,绕着单位的大楼跑一圈,对他来说那是晨跑,然后他再干到晚上三四点,四点多钟再回家,十多年了,他都是这么干的。十多年过程中买了房子,买了车,娶了老婆,生了孩子,他说我们就叫它“7×24”。他是我们7×24这个名称里或者我们实践这个的行为中最难的一个环节,就是这十多年都是夜间工作。真正的在全球范围,马航事件也好,国内的一些突发事件也好,我们都把它反映到我们页面上,因为它对市场有影响。第二我们数据日志分析速度是1分钟,用户访问数据也好,点击数据也好,1分钟分析一次。第三,我们行情,美股实时行情,我说不能再快了,再快就比交易快了。用这样的速度手机会不会担心流量?后来我们想,中国炒美股的人也不会担心流量,几乎大家都是wifi环境,也还是比较好。这个速度,在国内如果你真正体验过美股的数据,你可以做一个比较,你会发现我们的产品和另一个产品比,我们的产品刷新要快很多。

第三,多样。我们是国内沪深互联网行情产品用户最多的,也是国内第一家覆盖美股全市场的,我们正在进行中的,马上要推出的200多种外汇行情,现在基本上其他对手的行情都在十多种,二十多种。第四,我们覆盖了OTC的市场,是我们跟数库第一家推出的,现在也是国内第一个,好像也是唯一的一个。第五,我们除此之外还有一些日常海量的视频、文本、博文和其他数据。

所有这些东西都要依赖最后一条,真实性。我们跟73家境内外的行情、数据合作伙伴,670家国内外的媒体展开合作,我们到今天为止,有562个高端的专栏作家,这些高端专栏作家包括世界银行的行长金镛,包括原先银监会的主席刘明康,包括现在还活跃在各个金融触角里的像国泰君安的董事长万建华,包括原来工商银行的杨凯生,都是我们专栏的作家。我们有超过20个国家和地区的记者站。我们有85%以上的可信度代表投资者总体,我们这个数据对照了中登公司新开户的比重,12省份,基本上曲线是重叠的。

我们为什么说我们是数据市场最合适的介入者,我们有这些,同时我们追求专注、极致、细节致胜的大数据的追梦人。这些人他们是怎么做的?我们每个产品有三个月的孵化周期,我们2014年4月份开始筹划需求,接下来三个月迭代开发,三个月之后这个产品出来。我们会不断的分析数据,分析的数据量是75TB,原先这个数据是他们告诉我的,我那天问75TB是什么概念呢?他说怎么讲呢?如果把它换算成看影片的容量,相当于四千部蓝光高清影片的容量,这是我们三个月分析的数据量。同时,这些数据量覆盖了我们的新闻、评论、微博的博文、自选股等网站日志,还有其他的浏览记录。

这些追求极致的人在产品开发过程中要做一千次以上的内部测试升级,包括产品的设计,前端、后台开发、测试人员,等等等等,每个产品都是这么过来的。所以,我们做的就是不断超越自己,向我们的梦想靠近。

我们的梦想是搭建一个能够让投资者轻松跑赢大盘的平台,通过金融产品创新企业合作平台,通过三个具体的产品方向,大数据指数、量化策略产品、高频交易策略。大数据指数我们已经看到,我们跟南方基金、深证信息联合出的i指数,刚才主持人又是艾诚,又是i指数,我们打造的就是一个i,就是属于你的,你的行为反映在市场的情绪是资本市场最重要的一环,之前的市场对这个行为是漠视的,市场没有反映你的指标,你的欢笑,你的泪水,你的投资行为,你对一支股票的好恶,对一个投资产品的好恶,之前是没有体现的,现在有了,我们i指数,我们的i100、i300。

第二,量化策略产品,我们会通过大数据的投资量化产品,降低市场波动和个人能力等对决策的影响,形成跟机构合作的量化策略产品。

高频交易策略,通过计算机捕捉市场的突发热点和情绪的变换。

这就是我们的i指数的Logo。2014年9月12号上市,为什么叫i指数呢?不仅仅是“我”,i还是互联网internet,i指数表达我们对这些指数的期待。它是中国第一个互联网大数据的指数,是中国第一个互联网情绪的指数,还是中国第一个国内出来的权益类的互联网的指数。

这个数字对比很明显,第一个数222%是我们i100指数,2010年截止到2014年7月31号,这个指数累计的收益率。-29.8是中证100的,我们不是特别愿意做这个比较,但是为了更好的解释这个东西,这就是两个指数的差异。i100年化收益率29.7%。第二数字,142跟-21.7%,这是i300,累计的收益率是142%,沪深300是-21.7%。

还有一万亿,i300这支指数所覆盖的流通市值是一万亿,在这样一个宽基的背景下能够容纳很多产品。这也是具有一定市场操作性的重要方面,能够支撑起比较大体量的产品,我们也不集中于个别的行业,而且我们会及时的调整,月度调整,保证这个产品能够及时反映市场的情绪,但是i100也好,i300也好,核心编制方法是保密的,如果你知道会影响到投资者情绪的行为,就不是一个自然的状态。

我们还有一个梦想,我们的梦想是能够搭建一个让人人都有机会成为基金经理的平台。这是一个什么平台呢?我们说的模拟交易的平台,在这样一个平台上,我们有三种可能的方向,一个是金融产品创新的方向,一个是实盘投资平台的方向,一个是主题投资平台的方向。金融产品创新我们可以利用模拟投资的数据复制产品,来获取超额收益。实盘投资平台可以筛选投资的高手。主题投资可以成为一个互联网集中民间智慧的主题投资平台。人人都是基金经理,市场上有很多人他们有能力,但是没有名声,他们有梦想,但是没有平台,他们有实力,但是没有资本。我们要做的就是依靠这样一个STP+MoM的模式给他们圆梦,也给广大投资者提供一个机会,真正让有能力的人开发出产品来,让我们投资的价值呈现。

STP是投资模拟平台的简称,模拟平台我们几天前上线了,MoM也跟一些机构在谈类似的合作,在美国相对比较成熟的市场,MoM规模目前上万亿美元,包括巴菲特、盖茨他们也都投了这些方向的一些基金。

未来的资管市场谁能抢到互联网上众多的明星基金经理谁就能抢占到这个市场的先机。

对他们来说,对这些未来的基金的经理人来说,对一些有梦想,有实力的人,他为什么要做这样一个事情呢?这是一个数字,1%。我们的希望是能够分享基金管理费的1%,他们会把他们的梦想在这样一个数字前提下能够带领大家跑赢基准。

第三个我们希望搭建一个专业理财师投资咨询的平台,其实我们面对很多的产品,宝宝类产品现在可能有上百个了,当你在选择宝宝类产品的时候不知道你是不是已经开始感到迷茫了,看收益率,看看流动性,看看其他的,这已经是比较简单的最基础的产品上你已经迷茫了。下一步在资本市场,在资管时代更加充分爆发式的时代,老百姓无从选择,但是我们有一个平台,这个平台就是一个专业理财师给你提供服务,给你提供投资咨询的平台。

这个平台上我们也有三个方面。一个是基于这个做理财精英的指数,我们正在进行的模拟的炒股大赛,每天有四千个来自于券商的专业的分析师,专业的投顾在上面进行擂台赛,每天有很多新人出现,你看到比较让你惊讶的投资的比较精准的行为出现,他们的行为是理财精英的行为。基于这个可以做理财产品的创新。我们可以实时的,能在这个平台上发现用户的需求,用户每一个不明白的地方,每一个向理财师征询的地方都是用户的需求所在,根据这些需求我们能做深度的理财产品的创新。第三我们能做潜客的挖掘,用户跟专业理财咨询的时候,我们发现他关注的领域正好是我们某一类产品的领域,就会成为这个产品领域潜在的客户。

专业理财师的观点能够洞察这个市场,理财师能表达对市场的观点,他的统计分析,专业投资行为,是从专业人士的角度表达他对市场的情绪。同时,订阅理财师观点人数的多少,转发多少,评论多少,又是老百姓作为普通投资者他在这个市场的情绪行为。在理财师的平台上依然在产生大量的有价值的数据。同时理财需求和供给的数据也能匹配。比如理财的需求,我们有一个新的产品开发,跟你理财需求表达的数据和理财用户画像的数据,特征特点的数据,产品的匹配,等等都在市场上形成一个有价值的数据,这是理财师的平台。

我们还有一个梦想,希望能够搭建一个创造数据新价值的平台。这个平台就是我们一开始讲到的,我们的大数据市场为什么现在还在起步阶段?就是我们市场是相对封闭的,而且真正国际的巨头又不了解这个市场。所以,我们能够从三个方面,数据市场的联盟,比如每个人都是数据生产商,但是在自己的家里不公开,你可以放在我这个平台上公开,第三方也好,应用方也好,需求可以标价,也可以免费。第二我可以做精准的挖掘。第三我可以做应用者开发的聚合。我需要这一类数据,但是我在市场上找不到,不知道冲谁找。搭建这样的联盟市场,可以让应用者有一个方便的发现数据或者获取数据的地方,他也能够真正成为一个互联网创新产品聚合应用的地方。

数据联盟市场。我们希望通过这个数据联盟市场提供第一流的数据服务,第一流的应用开发服务,第一流的财经金融互联网的创新服务。同时,因为在我们市场上,我们植根了十多年,我们了解用户需要什么,我们有人口统计的数据,我们有用户的标签数据,他关心什么,喜欢什么,我们有人生阶段的数据,我们有生活事件的数据,我们有网站行为的数据,他什么时候来,什么时候跳出去,关注什么爱好,从什么页面又跳出去,这些是我们了解用户的数据。这些数据,这些标签都可以在应用上产生帮助。

同时,这样一个联盟市场也给我们带来比较广阔的前景,只有你促进了数据的生产,才能让数据的生产者可以创新的开发数据,他也很方便的把数据跟你发布和分享。同时,促进数据的消费才能让数据消费者在市场上快速高效的获取稳定、高质量的数据。我们也只有加速应用的创新才能在财经金融领域,不管是Web,还是桌面开发端移动的应用都可以快速的开发、上线、获得用户,这是一个广阔的前景。

同时,我们还有一个梦想就是搭建一个简单的易用的可视化的数据平台。我们现在看到数据平台,不管是万得的还是基于客户端的页面,第一我不敢用,一用我的机器就会慢很多,如果是其他的不好的机器,可能都转不开。第二,应用的可视化、便捷性比较差,我了解这个数据,解读这个数据本身就得先成为一个专业人士,不用说我从纷繁复杂的数据里找到我想要的东西,这是一个很高的门槛。我们希望把数据简单化、直接化、可视化。让数据不再是一个枯燥烦琐的表格。

(操作演示)

今天我们有三个事情,第一是我们大数据战略的发布会,第二个是我们大数据研究中心成立的仪式,第三个是我们数据平台的体验版的上线。我们可以看到全球市场上今天的表现,或者这段时间的表现,这个观察期你是可以看到的,红色是上涨的国家,深绿色是跌的最惨的,特别红的是涨的最高的国家,你可以很直观的感受到目前这个市场上谁,哪个地方是我们可以关注的。我们在全球配置资金的时代,资产管理面向全球的时代,我们可以很清楚的看到全球的变化。

这是一张图片,当然我们放大了变化的幅度,可能现实中这个幅度是比较慢的。我们这个图,每一个中国都是那么绿,其实就是可视化的很典型的一个图片。

A股实时大单,每个红色和绿色的圆点,比如从14:44—14:47这个时间之内,市场的大单情况。红色的代表一些买方势力比较强大,绿色的是卖方势力比较强大的一些数据。点击能看到这个大单每一个圆点具体的情况,每支股票多少笔,多少量,等等等等,价格是多少,这是一个很直观的,这个数据也可以拖拉,上面9:25—10:00,10:00—10:30,这是我们反映A股实时大单的可视化的数据。

这是一个热图,它的价值在什么地方?左侧的方块是我们按成交额从前到后排列的A股的行业的,我们现在点到金融行业,公司数量,平均价值,右侧是行业的个股今天的表现,按成交额从前到后排列,我们也看到从前到后是成交额,颜色的深度也代表这支股票今天在市场的表现。这样我们就比现在能够看到的一些数据简便很多,我们一眼就能看到在今天这个行业里这个市场在发生什么样的变化。

期货可以从两个维度,涨跌幅的热图和成交量TreeMap图,我们可以察看所有的,主力合约,次主力合约,非主力合约,也可以按成交量来筛选,颜色也是代表今天的表现状况。

还有微博的舆情倾听,我们可以看到股票热度的趋势图,这是在两个小时,在微博里提及的股票的热度情况,方块的大小表示了它热度的大小,方块越大提及率越高,颜色表示它的涨跌幅和今天价格的表现情况,你能看到今天,你可以选择两小时、六小时,一天,一周,一个月的股票的热力图。你也可以及时看到微博股票提及数变动,比如安硕信息,一段时间提及率非常高。一些数据比对可能价值更大,这个图形跟市场的这些股票的变化波动情况是有内在关联的。

还有我们看到市场热点追踪的图片。全市场股票点击,新闻也好,整个全部在里面,可以做全市场的总览,市场层次的,行业的,市场概念的,比如我们可以看到对于大盘股、中盘股、小盘股,高价股、中价股,他们市场行为热点的反映。

行业分析,上涨行业、下跌行业,鼠标移到这个图会提示你什么行业。例如飞机制造行业日均变化的趋势,实时关注。它的日均价格的变化跟用户关注的变化这个曲线基本是吻合的,基本上能够重叠。我们开发i指数的时候,发现它有前瞻性,能提前反映市场的波动,这样这个指数就有了投资的价值,关注度上发生变化我可以买入这个投资产品获利。i指数去年2013年表现,如果开发产品它是80%多的收益,远远高于同期市场。

这是我们给大家展现的,大家也可以在外面有一个体验的版本,我们也会近期把体验版本放到网上。这只是一部分,这里面还集纳了我们美股、港股、A股、期货、基金等等一系列的市场数据。

我们的梦想,搭建一个移动化的数据平台,我们有一些产品已经在移动上实现了,比如我们的理财师的平台,通过手机可以访问理财师,可以跟理财师互动,看理财师的观点,我们模拟交易产品的平台也在手机上可以很直观的实现,这是一个移动化的,很多产品我们可能不在PC上开发,我们只在移动端开发。

为什么这么做呢?我们已感知,从去年的Q4,我们在移动端的用户已经超过了PC端的用户的总量,每天我看数据会先看移动端是多少,然后再看PC,新浪财经的APP数据发展,日活跃用户,最近半个月累计增长率超过100%。因为市场现在也是个爆发的阶段,同时也是因为在APP或者手机移动领域越来越成为大家关注的焦点。

所有这些我们展现了一个产品,一个平台,一个技术的核心竞争力。在这样的基础上,我们的最终梦想是搭建一个开放的互联网金融数据的创新平台。

这个路径图告诉我们最近在做的,比如2014年5月份,我们上线了OTC市场数据,全市场第一家OTC市场数据。6月份中国第一个投资顾问的理财师的平台,给理财师服务最广大的投资者提供了一个阵地,也为投资者获取有价值的信息提供了阵地。2014年9月份,我们跟南方合作的i100、i300上市。今天我们新浪数据平台体验版正式上线。

在这样一个架构下,我们可以看到我们的逻辑分成三层,最底层的是我们的数据中心、数据市场,这是一个财经大数据的平台,这样的平台为上面两层提供了基础,也是数据生态发展的内生环境,这个平台上可以集纳来自各方的数据,不管你是农业企业或者其他类型的企业,不管你是一个研究机构或者其他机构,都可以把数据放到这儿,既能产生本身数据的价值,对市场开放,同时也可以让第三方应用者很轻易的,比较便捷的获得他需要的数据。

从底层上去,数据共享平台,再往上是数据的发现平台,数据发现是基于大数据的基础构造的数据分析的平台。金融产品创新企业合作平台,模拟交易的数据分析平台、新浪理财师的价值发现平台,同时我们有数据营销平台,营销平台基于一个是用户画像,一个数据研究服务,一个是数据聚合,这是数据发现和数据挖掘的平台。

最顶层数据应用的平台,我们叫大数据应用,例如大数据指数,包括将来的MoM,“人人都是基金经理”,理财师和财经数据市场就是在顶端的,这是一个比较清晰的平台构建的图片。

今天2014年的9月24日,对我们来说,对新浪财经来说,是值得纪念的一天,是重要的一天,我们也期待着我们从今天开始,放飞梦想,我们也期待着这一天能够也成为大家的一个重要的日子,我们一起放飞梦想,一起拥抱未来,一起成为大数据时代的追梦人。谢谢!

You may also like...