高步云:大数据掘金教育蓝海

投身教育学领域之前,我一直在通信领域,现在研究的方向是教育学里边的大数据的基础应用,今天过来分享主题是讲一下跟教育相关的一些大数据应用。

先说点关于大数据的题外话,互联网很推崇《失控》,很推崇KK,尤其是大数据出来之后,各种商业模式越来越验证了这种技术推动下的商业模式或者说是人类社会组织模式的变迁,可是我觉得大家其实都忘了另外一个人,他的预言比KK更早,穿越时空,在几百年前就指出了大数据的终极发展方向,他就是我们都学习过的马克思。他很早就预见到了,人类社会的最高形态是按需分配,只不过他当时没有回答这个按需分配怎么来的问题?科技发展到今天,最后我们看到,物联网+大数据,很可能到最后就可以帮助我们实现这种人类社会的终极目标。

除了已经成为我们生活一部分的智能手机,还有就是逐步走进我们生活的智能汽车,接下来智能的手环,智能眼镜,可穿戴设备——这个方向肯定会越来越火,这些“智能设备”跟我们所有的生活都无缝融合在一起,你的数据从一开始就会被采集,在大数据技术推动下,慢慢地形成你这个人的数字肖像。

回到正题,大数据从步骤上来说,有五步,就像把大象关进冰箱一共要分三步一样,大数据其实是分获取、整理、存储、分析、呈现这五步,我们看刚才大家提到很多的问题,主要的问题还集中在数据获取阶段。

其实再往深入走一步,涉及到具体的技术手段的时候,你会发现数据的过滤很重要。因为当你把所有的数据都扔在一起的时候,你在这个数据里面会有很多的干扰项,做数据分析的时候,要取得一个好的效果,先要把数据提纯,把无关的数据过滤掉。然后接下来就是海量的存储数据,最后才是我们现在说的核心的分析这一块儿。

数据分析这一块儿在学术界,其实很早就有专门的研究了,只不过当时还不叫大数据,而叫做数据挖掘,很早就有这个概念,到最后现在统一被大数据代替了。相对应的,在云计算这个概念出来之前,我们有网格计算等等一系列的概念,但到最后就慢慢的都用云计算来代替了。现在基本上已经统一为云计算和大数据的天下。

这些概念之间,它有什么样的关系和区别呢?我个人感觉有商业的因素,也有很多更深层次的原因,但是如果从学术角度来说的话,我想引用加拿大著名教育科技学者的乔治·西蒙斯的解释:数据挖掘和大数据,可能最大的区别就是在后面的自适应,因为你的数据挖掘,强调的是有点儿静态的东西,这个东西就在这里,不断地去挖就行了,而大数据是一个动态的概念,你分析一下,我再反馈给你,你看见的东西就是不一样了,我分析的数据,与我的分析方法之间是不断调整的,有一种实时的互动关系,而不是把分析的对象当做静止不变的。这一点好象也比较好理解,因为在数据挖掘这个词出现的时候,大部分的数据还不是在线数据,就算是实时分析了,也无法产生反馈,而大数据这个术语出现在互联网时代,兴盛于移动互联时代,甚至有人强调,数据的“在线”以及“活性”是他与其他传统的数据分析最根本的不同,我个人感觉这种解释还是比较合理的。

那说到我相关的领域,落在学习这块儿的话,那就是学习分析,目前主要用于自适应学习领域。这里有两个术语,一个叫学习分析学(learning analysis),它实际上偏算法一些,然后就是自适应学习(adaptive learning),实际上就是整个策略和调整这一部分。

目前慧科教育拥有泛IT领域最大的在线教育平台,开课吧,每天会产生几十万的PV,这其中有大量的学习数据,根据后台记录的学习数据,对学习者进行分析,加以自适应的指导和相关推荐,这是教育技术提升教学成果最核心的地方,目前在这个领域慧科已经走得非常前沿,慧科教育研究院也有专门的小组进行自适应学习的相关研究,已经发表了不少翻译文献和研究成果,并且陆续还会继续发表。

但是我们要客观地说,教育这个行业跟大多数行业相比,还是比较落后的,尤其是K12领域。以前有一个笑话,100年前的医生坐时光机器到现在,他去手术台会立马傻眼,因为所有的东西都不会用了,但是100年前的教室穿越回来之后,他会发现到课堂上还是粉笔、黑板,没有什么特别先进的东西。

而且如果真的从大数据的角度来说,学习分析也是在互联网教育兴起之后才慢慢地开始,因为在这个之前,根本就没有那么多的数据量的供你分析。举一个最简单的例子,今天我们的这个分享也可以看成一堂课,大家看我们现在这个环境,有哪些过程的行为记录呢?这个东西都没有被捕捉到、记录到,还是一个很简单的这么一个环境。所以数据获取这块,我们依然还很初级,尤其是在现在的课堂上,还很难有真正的数据被记录下来。在这个领域的努力是我们的一个基础方向,我举两个比较前沿的例子:

一是电子教材。我们北师大的知识工程中心负责研究制订国家电子教材标准。电子教材不是简单地把以前的书扫描进去,而是必须要有互动性,要有分享性,大家经常可以看到有一些科幻片里,比如说一人拿一个Pad一甩对方就可以看到我的Pad上写什么东西,这种应用现在已经实现了,而且在这种教材本身,国家现在已经是有规划了,未来几年所有的教材类产品,都必须配电子版,方便将来学生的答疑、试题等等一系列的东西,都能电子化了,包括老师的组卷等等。

二是智慧教室。目前教室和十几年以前的相比没有什么太大的变化,连课桌椅摆放的方式都一样。智慧教室就会在教室里面装各种各样的传感器,然后在教室的桌椅板凳,让它可以变得更适合这些,比如说小组讨论,因为他可以在这儿来回地拼接,可以按小组来坐。

电子教材和智慧教室结合起来,就能获取很多学习活动中产生的数据。

我们在人大附中的分校,有一个实验班,他们就是整体来做的。上课的时候门口会放一个苹果的设备,是一辆小车,PAD可以直接插放进去,有接口,那个车就是连数据带充电一块儿搞定,课件直接灌进去。学生上课的时候,人手一个抽出来,用自己的ID登录,你的个性化的学习记录,就自动推送过来了。大家坐的时候里面也很随意,就不是一排一排的,老师站在正前方讲,而是很随意,可以分组,老师走到哪儿,讲到哪儿,写到哪儿,Airplay一下,所有的东西大家就都能看得见,学生自己坐在这里,也是用一整套的软件实现共享、提问、回答等等,这样他基本上在学习的状态,就有一定的记录了。

还有一部分隐性的东西没法记录,这就只能靠智能的设备,台湾有的一个学者做了一套智能坐垫,就是考察这个学生是不是真的在听讲,如果学生不停地扭来扭去的话,他把这个东西记录下来之后就会分析,孩子的行为特征,跟他的这个过往的特征是否匹配,如果发现有一段时间这个学生突然不动了,稳稳地坐在那儿了,有可能睡着了,睡着的时候,前后的感应会不一样的。

所以这块儿的话,通过推广这些设备,把在教室里、课堂上发生的活动的数据,慢慢地收上来,这是我们要做的第一步。

我们现在看到的话,就是从数据获取层面,包括智慧教室也好,包括电子教材也好,只是一个开始,那可能未来的话,就是更多地靠手环、眼镜等等。

有了数据,我们就可以做自适应学习。

现在的自适应学习一般有两种思路,一种是比较适合中国特色的,它是基于知识空间的自适应诊断系统,通俗的说,就是他把所有的考点都给你列出来,考点(知识点)之间的关联性给你获取出来,然后通过几个题来测试,然后看你到底是哪个知识点不行,因为现在我们出一套卷子所有的人都考一套试卷,这个东西的毁灭性打击就是,你对那些层次比较差的孩子,就是中档次的这些孩子,你只是在证明他很笨而已,你不会的东西再让你不会一遍,对学生的兴趣是挺打击的。

那这个自适应的诊断系统出来以后,基于知识空间,基于这些知识点的话,这个方向就是对你是循序渐进的,你没有掌握的这些东西那我来再换一套,如果太难的话,我就换一个稍微容易一点的,现在其实这套东西并不复杂,我们很多人考过Gmat,基本上很久以前就是这个思路了。

然后现在的方式的话,就更科学一点,就把这个知识点之间的关联性做出来了,通过这几道题测试出来,你这个孩子到底是,比如说三角函数的某一部分没懂,还是在运算里面出了错误,然后我给你对接相应的学习内容,所以这是一种基于知识空间的一种算法。

然后现在的话,我们也有很多的这个C端的厂商,搞互联网教育的这些厂商们,他们在做这种基于知识空间的个性化的题目推送和诊断,有很多的这种方向。因为大家一般都认为诊断是一个入口,就是一般学生来到一个辅导机构,辅导机构都会很开心地说,先给你几道题做一下,就像医院一样,先做一个测验,你到底哪儿有病,你有病我有药,然后我就可以治,现在基本上是这么一个思路。

但是实际上我个人更看重第二种研究思路,他是基于学习风格的,就是跟知识点没有什么关系,这种数据分析实际上是你对一个人的认知领域的建设问题,是把这个人的认知模型抽象出来,但是更多的时候你做题的过程中,到最后抽象出来是人的电子肖像,是你的学习者风格,现在这块儿是自适应学习领域的前沿,他集合了认知、行为、心理、人工智能、神经网络、机器学习等各种领域,很多教育技术领域的大牛,都集中在做这个方向的研究,因为大家认为这个地方是最有前途的。

我们看到像BAT三家包括移动这样的运营商,已经收集了很多数据,但是如果说一个人终身的数据生成,教育领域绝对是第一个入口,倘若有一天你从上学开始这个数据被采集,就是你这个人到底怎么想,你是一个什么样的人,你会对一个事情作出什么样的判断,都会形成数字肖像,这是最恐怖的。

我根据与你类似发展经历的人的数据,来推演你未来的发展,然后系统会自适应的推荐一些教育的资源,不断的塑造一个人,而且塑造的越来越科学,真正做到因材施教。

抽象来说,未来数据只会有两类,一类是机器与机器间产生的数据,比如说信令数据,另外一类就是人本身产生的数据,这种数据是沿着人的一生的成长曲线来的,真正的入口是从娃娃抓起,所以大数据真的,你要从一开始一个人的行为的获取的话,他一点一滴的东西积累起来的,而不是说他成年以后的数据获取,这些人我们在教育学领域叫做数字土著,而我们这些人包括甚至80后这些,都属于数字移民。

然后怎么能从这里面,把人的模型提取出来,行为特征提取出来,那才是我们现在最重要的,就是现在从教育学领域,包括这是教育学、心理学,计算科学的交叉领域,这也是我们认为现在最前沿的东西。

除了上述大数据在教育领域的科研实践,我还想补充一些大数据在教育领域的产业实践。产业这部分比较独特,因为他很明显的分两拨人在朝一个方向努力:

一拨人是以政府为主导的,包括学术界在内的,搞的是教育信息化。

第二拨人马是以市场为引导,以培训机构和商业企业为代表的机构,搞的是互联网教育。

两头都在组织会议,但是他们之间基本上不怎么互相沟通,各自有各自的语境,一个语境是2C的,一个语境是2B的,思路和做法不太一样。

我们这块儿如果从2B的角度来讲,是完全的政府主导的,而且这个应用点大部分是在K12领域,也就是我们的小学、初中、高中。这一块儿教育天生它有两个特性:效率性和公平性。

社会主义市场经济就是既要强调效率性,又要强调公平性,我们市场这一部分永远是提高效率的,就像那些最优秀的人得到所有的资源,让他去发挥。但是教育这一块儿还有一个非常重要的就是保证公平性,我们现在看到教育改革往往被别人诟病的东西,就是教育越来越多地偏向那种功利主义的,提高了它的效率,但是教育的公平性越来越难保证了,这块出了很大的问题。

不能保证教育的公平性就会使社会分层会越来越严重,因为我们看发达国家,其实经过几十年的发展,就会出现像纽约明显的富人区和穷人区,像我们现在这两天世界杯,大家也看转播,巴西这边是特别豪华的富人区,隔了一个墙就是世界上最壮观的贫民窟,我们现在还没到这么明显,但是也会先发现由于人群收入的分层,你的教育资源也会越来越偏向,这就是有可能会出现自此寒门无贵子的现象。

即便是在北上广,这个趋势也非常明显,首先一个户口就限制了很多人上不了学,其次就算你有户口的话,你会发现优质的教学资源分配的话,是靠这个学区房,到最后还是变成了少数的特权的东西,受教育慢慢成为一种特权。

解决教育公平性的问题,在我们国家这种地大物博的情况下,到最后就落到了教育信息化,尤其靠电化教育这一块儿,因为你不可能把优质的教师资源扔到偏远地区,扔到比较差的地方,因为人家是要拿市场化的薪酬的。当然你可以通过志愿者,通过一些公益性的活动,我知道像腾讯在这方面确实做了很多努力,腾讯专门有一个基金会做这种公益性活动的,真是做了不少好事儿,但是这种事情是不能建立一个长效的机制,那怎么办呢?现在就考虑到这个教育信息化的工作。然后就是做很多的各种各样的终端,把优质的内容推送出去。

顺便提到管道的选择,特别是要感谢我们的运营商伙伴。我之前去过几个挺偏远的地方做一些课题和考察,发现真正能下去的往往还是移动的基站,往往在一个很破的村里,基本上就有两个大型的电子化设备,一个是村村通工程的卫星电视接收器,那个东西因为有村村通工程,它基本上能下去,还有一个就是中国移动手机卡,一边耕地一边打,真的是很贴切,电信运营商在偏远地区的网络覆盖上面那真是下了大力气的。

而且现在到了4G阶段,真的是我们发现让孩子用上好的这种远程的教育资源,往往是走的无线信道,就从运营商这条信道走,这块儿我觉得未来搞教育公平这块儿,肯定是通过运营商的管道来传递的。

最后再补充一条具体案例,在国家整个的教育信息化里面,跟大数据有关的政府的相关的惠民工程,我认为目前做得最实在的,可能就是学生的数据学籍卡。在座各位小的时候都有一个学生手册,每期中期末的时候,班主任老师就会在学生手册写下这一学期的表现。现在我们提出要做电子学籍卡,所有的评语、平时考试成绩和大考的成绩,全都记在这个里面,甚至包括学生的身体状况,每年体检的信息,比如身高体重等等,也记录下来,然后这里面搜集到学生的一些个人基础信息,能把学生的发展状况体现出来,而且也方便做教育管理。

大家看这两天世界杯,荷兰踢完了以后,立马出现了一个图,就是罗本的跑动热度图,大家有没有看到这个图?这张图现实他作为一个踢前锋的人,基本上满场跑,于是把这个人的效果就评估出来了,他是怎么记录的呢?就是从视频里面提取出来的。

然后大家看NBA,某球员一个赛季多少次投篮、多少次抢断,都是有数据体验和支撑的,以前在教室里面发生了什么我们全都不知道,如果有了这套视频的采集、传感,记录这个东西以后,一个学生上课的时候睡觉多少分钟,举手多少次,跟同桌小姑娘递多少次纸条,全都在我们掌握之中,这里面对一个学生的状态是有纪录的,实际上能分析出这个人的状态特征,这都可以计入统计。

有了这套学籍卡,不光对学生的数据有了记录,对老师的教学成果也有了客观的统计。学校里面的老师,都会有一个电子ID,你这个老师教孩子的记录,也都会记录在这个里面,那跟你的老师的评级,是不是就能挂上勾?当时来你这个班之前,大概60分的学生,经过一个学期、两个学期的指导,变成了80分,那你这个老师的能力是不是应该得到评价和体现?以前的话我们都是靠什么呢?老师在这儿讲课,后边坐一排专家就去评测,当这个专家一进这个教师的时候,你会发现所有的学生举手都特别积极的,老师都说好了,然后都安排好了托什么的。这一切东西就随着我刚才说的这个智慧教室、电子教材,还有电子学习卡普及,有可能就会有所改变,因为智慧教室的时候,都有录像系统,你根本不知道有没有人在听课。当然这里面也涉及到隐私的问题,到底该怎么处理,现在还没有一整套完整的东西,但是现在整个的教育领域也在向着大数据的方向在狂飙。

作者:高步云
日期:2014年7月10日

You may also like...