大数据改变教育
——写在大数据元年来临之际
上诲思来氏信息咨询有限公司创始人 张韫
1 抓住2013年——大数据时代元年的历史契机,是传统的教育研究走向科学实证的重大机遇。如果我们再一次“输在起跑线上”,未来的差距鸿沟可能将更为惊人。
2 大数据时代的到来,让所有社会科学领域能够借由前沿技术的发展从宏观群体走向微观个体,让跟踪每一个人的数据成为了可能,从而让研究“人性”成为了可能。而对于教育研究者来说,我们将比任何时候都更接近发现真正的学生。
人们还没有来得及搞清楚信息时代是什么,数据时代已然来临。大数据,更成为近一年来十分流行的热点关键词。各行各业都已经意识到,谁能率先实现大数据,谁对大数据的挖掘更为深刻,谁就将抢占未来先机。这种前沿技术领域的巨大变革对于在数据实证研究中处于不利位置的国家与领域来说既是一种压力,也是一种好消息:在大数据理念面前,所有传统数据的实证研究将被重新洗牌,过去无法收集与分析的数据都被新的技术手段赋予了可能性。可以想见的是;在教育领域,大数据也必然会成为全世界项尖教育研究者竞相争夺的前沿研究阵地。
所以,抓住2013年——大数据时代元年的历史契机,是传统的教育研究走向科学实证的重大机遇。如果我们再一次“输在起跑线上”,未来的差距鸿沟可能将更为惊人——数据时代的1年制造的领先优势也许并不逊于信息时代的10年。当所有人都在雀跃而又紧张地期待着大数据给自己带来的冲击之时,我们更有必要思考:大数据将给教育带来什么?教育研究是否已经做好了迎接大数据时代的准备?如何通过大数据真正实现“以学生为本”的理念,真正读懂我们的学生?大数据离我们有多远一张试卷,它带给我们的数据是什么?可以是简简单单的一个92分。但如果我们拥有足够的技术与耐心,我们还可以得到许多充满想象力的数据:可以是每一大题的得分,每一小题的得分,每一题选择了什么选项,每一题花了多少时间,是否修改过选项,做题的顺序有没有跳跃,什么时候翻卷子,有没有时间进行检查,检查了哪些题目,涂改了哪些题目……等等,这些信息,远远比一个92分要来的有价值得多。不单是考试,课堂、课程、师生互动的各个环节都渗透了这些大数据。
大数据离我们并不遥远,它就在我们身边,在每时每刻发生着。
我们先从我们最熟悉的一些传统数据看起。在我们的教育学院、学校档案室中,是否有堆积如山的试卷和调查表?我们朦朦胧胧地意识到,这些资料是有价值的,但却困惑于不清楚这些数据究竟能说明哪些成绩以外的深层次问题:该如何去处理与统计?这些数据究竟可不可信、有没有代表性?数据又如何成为决策的依据?
同样的问题也困扰过美国的教育研究者们,因此他们早在 1968年就在教育部成立了全美教育数据统计中心。通过34年的长期摸索与反复试错,终于形成了一套完整的教育数据处理方法的方法论,并在2002年通过了《教育科学改革法》,明确了数据在教育决策中的决定性地位:所有教育政策的制定都必须由实证数据进行支持。同年,美国教育研究所与全美教育数据中心合并重组后成立了教育科学研究院(IES,Institute of Educational Science);成为了全美最重要的教育决策咨询机构。
因此,即使以2002年作为标志,我们对于传统数据的理解与处理水平,也至少与国际先进水准有着11年的差距。但本文要着力表现的,不是差距,而是机遇。大数据的到来必将颠覆传统研究格局,所以我们面临着后发制人的机会。
大家不禁要问,大数据到底是如何颠覆传统的?如果我们把目光投向教育以外更广阔的学科与行业,我们不难发现这样的事例。比如,在2002年发生了一件重要的事情,诺贝尔经济学奖竟然授予了心理学家丹尼尔·卡尼曼教授。卡尼曼教授反驳了传统行为经济学的假设,他指出,人的经济行为与决策并非绝对理性,是十分错综复杂,无法预测的。但是,10年之后发生了一件更具影响力的大事,奥巴马连任美国总统,而这次胜利被世界媒体与科技界总结为一场“大数据”的胜利。奥巴马的数据团队对数以千万计的选民邮件进行大数据挖掘,精确预测出了更可能拥护奥巴马的选民类型,进行有针对性地宣传,从而帮助奥巴马成为了美国历史上唯一一位在霓远经费处于劣势情况下。实现连任的总统。奥巴马的例子告诉我们,只要数据量够大,够及时,挖掘够深刻,我们完全可以洞悉每个选民的投票几率。
这样的例子,对于帮助我们去认识千差万别的学生有何启示?
所以,大数据的在教育中的应用,其最重大的意义,就是能够“让我们走近每一个学生的真实。”
大数据与传统数据的区别
大数据所带来的,并非源于我们电脑的硬盘变大了,CPU处理速度更快了——所以我们可以处理更大规模的数据了。大数据与传统数据的区别在于人们对于“数据”的理解更为深入了,许多我们曾经并没有重视的,或者缺乏技术与方法去收集的信息,现在都可以作为“数据”进行记录与分析了。
举例来说,一个学生读完9年制义务教育产生的可供分析的量化数据基本不会超过10KB,包括个人与家庭基本信息,学校与教师相关信息,各门各科的考试成绩,身高体重等生理数据,读书馆与体育馆的使用记录,医疗信息与保险信息等。这样的数据量,一台较高配置的普通家庭电脑,初级的EXCEL或SPSS软件就能进行5000名以下学生量的统计分析工作。操作者也只需要中级水平的教育与心理统计知识,一套可供按部就班进行对照处理的数据分析模板,经过两三个月的操作培训就能基本胜任。
而大数据的分析则完全是另一种层面的技术。根据荷兰著名的行为观察软件商NOLDUS公司的研究,在一节40分钟的普通中学课堂中一个学生所产生的全息数据约有5-6GB,而其中可归类、标签、并进行分析的量化数据约有50-60MB,这相当于他在传统数据领域中积累5万年的数据量总和。而要处理这些数据,需要运用云计算技术,并且需要采用Matlab、Mathematica、Maple等软件进行处理并进行数据可观化。而能够处理这些数据的专业人才一般来自数学或计算机工程领域,需要极强的专业知识与培训,而更为难能可贵的是,大数据挖掘并没有一些的方法,更多需要依靠挖掘者的天赋与灵感。
大数据与传统数据最本质的区别体现在采集来源以及应用方向上。传统数据的整理方式更能够凸显的群体水平——学生整体的学业水平,身体发育与体质状况,社会性情绪及适应性的发展,对学校的满意度等等。这些数据不可能,也没有必要进行实时地采集,而是在周期性、阶段性的评估中获得。这些数据,完全是在学生知情的情况下获得的,带有很强的刻意性和压迫性——主要会通过考试或量表调查等形式进行——因皮也会给学生带来很大的压力。
而大数据有能力去关注每一个个体学生的微观表现——他在什么时候翻开书,在听到什么话的时候微笑点头,在一道题上逗留了多久,在不同学科课堂上开小差的次数分别为多少,会向多少同班同学发起主动交流,等等。这些数据对其他个体都没有意义,是高度个性化表现特征的体现。同时,这些数据的产生完全是过程性的:课堂的过程,作业的过程,师生或生生的互动过程之中……在每时每刻发生的动作与现象中产生。这些数据的整合能够解答教课程是否吸引学生?怎样的师生互动方式受到欢迎?……而最最有价值的是,这些数据完全是在学生不自知的情况下被观察、收集的,只需要一定的观测技术与设备的辅助,而不影响学生任何的日常学习与生活,因此它的采集也非常的自然、真实。
所以,综合以上的观点,我们不难发现,在教育领域中,传统数据与大数据呈现出发下区别:传统数据诠释宏观、整体的教育状况,用于影响教育政策决策;大数据可以分析微观、个体的学生与课堂状况,用于调整教育行为与实现个体化教育。
传统数据挖掘方式,采集方法、内容分类,采信标准等都已存在既有规则,方法论完整:大数据挖掘与新鲜事物,还还没有形成清新的方法、路径以及评判标准。
传统数据来源于阶段性的、针对性的评估,其采样过程可能有系统误差;大数据来源于过程性的、即时性的行为与现象记录,第三方、技术型的观察采样的方式误差较小。
传统教育分析所需要的人才、专业技能以及设施设备都较为普通,易获得:大数据挖掘需要的人才,专业技能以及设施设备要求较高,并且从业者需要有创新意识与挖掘数据的发感而不是按部就班,这样的人才十分稀缺。
大数据如何改变教育
“不得不承认,对于学生,我们知道得太少”——这是卡耐基·梅隆大学(Carnegie Mellon University)教育学院介绍中的一句自白,也同样是美国十大教育类年会中出镜率最高的核心议题。
在大多数教研活动,评判一个课堂的好坏,更多是专家审美型的——教师的环节设计是否层层递进,提出的问题是否有效,环节设置与本节活动的目标是否契合,等等。而学生在这个课堂中的体验,大部分时间是被完全忽略的,即使获得了关注,也往往是“被代表”的——听课果者会根据自己的经验来假设学生的体验,而学生真正的体验如何,却没有强大的技术与数据源可提供分析与实证。
大数据的到来,恰恰正是能从技术层面让体验者的感受紧以量化与显现。学生在一个课堂中的需求与态度,经由大数据的处理变得可视,这也提供了教研活动以更为为鲜活的素材——倾听 学生成为了可能,教师有了了解学生的途径与方法,从学生的需求出发改变教学行为成为了可能。第一个变化在于思维路径的改变——从演绎转向归纳,在“去经验”的过程中找到真正的重要的教育影响因素。传统的教育研究往往是经验式的,我们总是认为某些因素对学生很重要,对课堂很重要,比如提问有效性,课堂的节奏等。然后,我们通过一次次反复的实践来验证这些经验。但是,这些因素真的是重要的吗?在大数据的思维方式下,真正的重要因素来自于数据挖掘而非想当然的经验。
我们来看一个经典案例。作为一个笔记本电脑销售门店的主管,哪些方法可以帮助提高销售额呢?有许多专家、专业人士会给出建议,比如提高存存管理的能力,提供员工更多专业培训,做更新更炫的广告,或者搞一些促销活动。这些方式当然都会很有效,分别能够提高2%-9%左右的销售额。
但是,历来讲求创新的苹果公司偏偏不信这个邪,而是将门店中所有能够收集到的数据,不管看不上去是不是有关联,全都办理入了软件。然后发现了一个惊人的现象,电脑屏幕和桌子呈70度角左右的电脑俏售量比其他电脑高出15%,比其他任何经验式的建议更有效。这是为什么呢?因为当我们走到一个70度角的电脑前,会觉得反光非常地不舒服,而当人觉得电脑屏幕反光不舒服,很自然而然地会伸手去扳动屏幕。心理学理论告诉我们,一旦潜在客户与货物发生了肢体接触,他购买这个商品的可能性就上升了15%。
这个例子,对于我们改变课堂与校园环境有何启示呢?许多对学生真正起作用的影响因素-未必是我们经验中认为重要的因素:而我们内心认定的重要因素,也未必真有如此重要。
大数据带来的第二个变化在于信息真实性的凸显,让信息从可疑到可信,使研究者能够真正获悉真实的情况。比如,我们肯定都或多或少地接触过问卷调研这种方法,但是对于问卷调研的结果,我们又有多少信心呢?
斯坦福大学的教育评估权威哈代教授曾经做过这样一个有趣小实验,他关注的内容是不同国家师生在做量表与问卷时的F值。F值指的是被试者填写问卷时出现的掩饰倾向。结果发现,中国学生的F值比美国与以色列学生分别高23.4%与27.6%:而中国教师的这一倾向则更为明显,达到36.5%与41.4%。在中国的文化环境下,师生更容易认为一个量表和问卷是用来评判自己的,从而更倾向于掩饰自己的真实想法。所以如果想获得真实、客观的数据,问卷并非是个好办法。
另一种情况是,有时即使学生想提供真实的信息,但也无能为力。比如调研学生课外运动的时间,我们最通常的做法是设计一个问卷,问他“本学期平均每周参加课外运动的时间,A、1小时以下,B、1-I.5小时,C、1.5-2小时,D、2小时以上”,且不论选项的设计是否能体现区分度,我们自己又能否比较准确地估算出自己一个学期里平均每周参加多少运动呢?
经常上微博的人也许会关注SOHO中国的总裁潘石屹,他每天早上都会发微博“今天早上我跑了几点几公里”。他的数据是可信的吗?我相信是非常准确的。为什么呢?因为他随身携带的手机上有这样一个App,能够记录他跑了多少公里,花了多少时间,甚至跑步的路线也能记载下来。有了这样的方法,那么要计算每周他跑步的时间与距离就变得可行了。
这样的例子,对我们进行科学的调研有何启示呢?
大数据带来的第三个变化在于个性化教育具有了可能性,真正实现从群体到个体。
我们通常布置作业的方法是“所有人完成第三题到第八题”,给学生推荐书目的时候也是给出同样的推荐清单。这本是无可厚非的,因为集体教学的最初起源就是将同龄的学生聚在一起,把他们看作智力水平差不多的一组人,给予相同的教育以节省成本。但是,当技术能够帮助我们了解每一个学生的需求之后,绵延了两千多年的“因材施教”的理想,是否离我们更近一些了呢?
你现在上网的时候,有没有发现,这些网站正在变得越来越了解你?比如淘宝网,它会根据你买过一些什么,浏览过一些什么商品,来判断你还有可能购买一些什么。比如新浪微博,它会根据你关注了哪些人来判断你还可能对哪些人感兴趣。这种技术实质上是通过数据的归类与分析,来预测“出现某种行为的人还很有可能出现另一种行为”。
如果这样的技术能够应用在作业上,会是怎样呢?比如A同学做对了第4题,系统马上可以告诉他,他可以跳过第7题和第9题,这是因为,做对第4题的学生几乎不可能做错第7题与第9’题,做这些题目是简单重复浪费时间。如果B同学做错了第5题,那么系统也会提示他继续练习第6,第9题,这是因为数据显示,做错第5题的人很可能做出后两题,这个知识点是该学生需要反复进行操练与巩固的。这样的应用,对于我们实现个性化教育有何启示?
因此,大数据给我们带来的改变主要有三点:第一,帮助我们找到真正起作用的教育影响因素;第二,帮助我们洞察学生的真实:第三,帮助我们走向个性化。
实现大数据,教育可以怎么做
在微观实践层面,一些探索已经起步。
第一,对学生的发展进行多元评估,发现学业成绩背后的原因。金山区在小学生学习素养的研究中就发现了许多这样的情况。两个学生的数学成绩都是A,从表面上看他们的学习能力似乎是一样的,但是通过多元能力的评估我们就会发现,第一个学生更多是依靠比较出色的逻辑思维能力进行学习的,而第二个学生的逻辑思维能力并不理想,是凭借比较出色的记忆力获得好成绩。但是依靠记忆力进行学习的方式在低年级时也许比较有效,但对于长期发展,对于培养高级思维能力肯定是无效的。暂时的好成绩完全有可能掩盖他在全面发展过程中的不足与风险。而这一情况的发现有助于教师尽早提供有针对性的策略,帮助学生弥补能力上的不足。
因此说,大数据能够让我们更全面地看待学生的发展,发现成绩所反映不了的发展问题。
第二,大数据实现过程性评估,发现学生的常态,改造课堂的流程。我们经常说,教学评估应该是过程性的,而非只有终结性的。如果我们想象,教师拥有一个课堂观察的终端,可以随手记录学生的发言质量,作业完成情况,课堂纪律等。那么教师在期末时将这些数据汇总起来,就使得撰写评语时不用绞尽脑汁,而有了更加丰富的素材与数据依据,能对学生的发展提出建议。同时,这些数据也可以促使教师反思,自己在哪些地方上需要进行改进。在长宁区的幼儿园主题运动项目中,也正在探索引入这样的观察技术。
如果我们更进一步,不是通过教师的观察,而是直接应用信息化的课程载体对学生的行为进行记录,就能够真正实现大数据与课堂进程的结合。静安区社会性情绪项目正在探索依靠终端去记录每一个学生在课堂中每一个环节的表现。假设在一节拥有六个环节的课堂上,大部分时间内学生的节奏都是紧密跟随教师的。但是在第三环节中,大多数学生停留的时间远远超过了教师。这就提醒我们,这个环节需要着重教研,需要调整,也许这个部分的内容非常吸引学生,也有可能这部分内容难度较高,他们需要更多的时间来阅读与消化。
因此说,大数据通过对于学生在课堂中点滴微观行为的捕捉,帮助我们了解学生对知识的掌握程度以及感兴趣程度,进而反思我们的教学是否满足了学生的需求。
第三,大数据实现学生课外学习轨迹的积累。如果家长通过手机就能获得学校的通知与公告,可以快速地进行各种调研,可以记录孩子每天课余作业时间,包括孩子看过哪些书,去了哪里游玩。这样不但非常快捷,而且积累下了非常有价值的数据,从而我们可以有针对性地帮助家长发现下些现象。比如,他的孩子花在作业上的时间已经远远超过了同班同学。同时可以给他提出如何帮孩子减负的针对性的建议。而对于研究者,我们可以通过后台数据库统计一个学校、一个区域的整体情况,获得有价值的数据报告。所以说大数据,还能够让我们更加了解学生课外学习的轨迹。
可以这样说,人数据时代的到来,让所有社会科学领域能够醒由前沿技术的发展从宏观群体走向微观个体,让跟踪每一个人的数据成为了可能,从而让研究“人性”成为了可能,而对于教育研究者来说,我们将比任何时候都更接近发现真正的学生。
(文见《上海教育》2013年第4期)