推荐阅读

大数据“革命”教育

发布者：上海市教育科学研究院　来源：光明日报　日期：2013-10-24 14:16:00　人气：

胡德维

数据（data），一般而言是指通过科学实验、检验、统计等方式所获得的，用于科学研究、技术设计、查证、决策等目的的数值。通过全面、准确、系统地测量、收集、记录、分类、存储这些数据，再经过严格地统计、分析、检验这些数据，就能得出一些很有说服力的结论。大规模、长期地测量、记录、存储、统计、分析这些数据，所获得的海量数据就是大数据（big data）。在制作大数据时，需要严格的方案设计、变量控制和统计检验等，不然所获得的大数据就是不全面、不准确、无价值或价值不大的。

在教育特别是在学校教育中，数据成为教学改进最为显著的指标。通常，这些数据主要是指考试成绩。当然，也可以包括入学率、出勤率、辍学率、升学率等。对于具体的课堂教学来说，数据应该是能说明教学效果的，比如学生识字的准确率、作业的正确率、多方面发展的表现率——积极参与课堂科学的举手次数，回答问题的次数、时长与正确率，师生互动的频率与时长。进一步具体来说，例如每个学生回答一个问题所用的时间是多长，不同学生在同一问题上所用时长的区别有多大，整体回答的正确率是多少，这些具体的数据经过专门的收集、分类、整理、统计、分析就成为大数据。

分析大数据助力教学改革

近年来，随着大数据成为互联网信息技术行业的流行词汇，教育逐渐被认为是大数据可以大有作为的一个重要应用领域，有人大胆地预测大数据将给教育带来革命性的变化。

大数据技术允许中小学和大学分析从学生的学习行为、考试分数到职业规划等所有重要的信息。许多这样的数据已经被诸如美国国家教育统计中心之类的政府机构储存起来用于统计和分析。

而近年来越来越多的网络在线教育和大规模开放式网络课程横空出世，也使教育领域中的大数据获得了更为广阔的应用空间。专家指出，大数据将掀起新的教育革命，比如革新学生的学习、教师的教学、教育政策制定的方式与方法。

教育领域中的大数据分析最终目的是为了改善学生的学习成绩。成绩优异的学生对学校、对社会、以及对国家来说都是好事。学生的作业和考试中有一系列重要的信息往往被我们常规的研究所忽视。而通过分析大数据，我们就能发现这些重要信息，并利用它们为改善学生的成绩提供个性化的服务。与此同时，它还能改善学生期末考试的成绩、平时的出勤率、辍学率、升学率等。

现在，大数据分析已经被应用到美国的公共教育中，成为教学改革的重要力量。为了顺应并推动这一趋势，美国联邦政府教育部2012年参与了一项耗资2亿美元的公共教育中的大数据计划。这一计划旨在通过运用大数据分析来改善教育。联邦教育部从财政预算中支出2500万美元，用于理解学生在个性化层面是怎样学习的。部分综述了该计划的数据和案例已经在美国教育部教育技术办公室2012年4月10日发布的《通过教育数据挖掘和学习分析增进教与学（公共评论草案）》中披露出来。

美国教育部门对大数据的运用主要是创造了“学习分析系统”——一个数据挖掘、模化和案例运用的联合框架。这些“学习分析系统”旨在向教育工作者提供了解学生到底是在“怎样”学习的更多、更好、更精确的信息。举例来说，一个学生成绩不好是由于他因为周围环境而分心了吗？期末考试不及格是否意味着该学生并没有完全掌握这一学期的学习内容，还是因为他请了很多病假的缘故？利用大数据的学习分析能够向教育工作者提供有用的信息，从而帮助其回答这些不太好回答的现实问题。

许多人因此会问，大数据能拯救美国的公立教育吗？全球最大的电脑软件提供商微软公司（Microsoft）的创始人、前首席执行官比尔•盖茨（Bill Gates）今年3月7日在得克萨斯州首府奥斯汀举行的一个教育会议上打赌说，利用数据分析的教育大数据能够提高学生的学习成绩，拯救美国的公立学校系统。他称过去十几年里教育领域的技术发展陷入了停滞，研发投入远远不够。盖茨充满信心地认为，教育技术未来发展的关键在于数据。在这次大会上，5000多名参会者讨论了教育数据应用的前景。

教育大数据市场前景广阔

美国高中生和大学生的糟糕表现——高中生退学率高达30%（平均每 26秒就有一个高中生退学），33%的大学生需要重修，46%的大学生无法正常毕业——在让教育部门忧心忡忡的同时，也让教育科技公司找到了淘金的机会。近些年来，许多教育科技公司纷纷开始抢滩大数据学习分析的市场，竞争极为激烈。

美国的一些企业已经成功地商业化运作教育中的大数据。全球最大的信息技术与业务解决方案公司IBM就与亚拉巴马州的莫白儿县公共学区进行大数据合作。结果显示，大数据对学校的工作具有重要作用。当IBM刚刚开始与这一学区合作时，除了学生成绩不好之外，该县还面临着辍学率已增加到48%的严峻情况。根据联邦政府的《不让一个孩子掉队法》（No Child Lift Behind，NCLB），学生成绩糟糕的地方政府将受到惩罚。为了应对这一巨大的挑战，该县此前已经在学生数据的基础上建立了一个辍学指示工具，并将其用于全县层面的决策。但IBM认为这仍不足以改善莫白儿县窘迫的现状，需要借助IBM的技术支持重新建立大数据，进而利用大数据分析来改善学区内所有学生的整体成绩。

在美国的教育大数据领域，除了处于领先地位的IBM，还有像“希维塔斯学习”（Civitas Learning）这样的新兴企业。“希维塔斯学习”是一家专门聚焦于运用预测性分析、机器学习从而提高学生成绩的年轻公司。该公司在高等教育领域建立起最大的跨校学习数据库。通过这些海量数据，能够看到学生的分数、出勤率、辍学率和保留率的主要趋势。通过使用100多万名学生的相关记录和700万个课程记录，这家公司的软件能够让用户探测性地知道导致辍学和学习成绩表现不良的警告性信号。此外，还允许用户发现那些导致无谓消耗的特定课程，并且看出哪些资源和干预是最成功的。

在加拿大，总部位于安大略省沃特卢的教育科技公司“渴望学习”（Desire 2 Learn）已经面向高等教育领域的学生，推出了基于他们自己过去的学习成绩数据预测并改善其未来学习成绩的大数据服务项目。这家公司的新产品名为“学生成功系统”（Student Success System）。“渴望学习”声称加拿大和美国的1000多万名高校学生正在使用其学习管理系统技术。“渴望学习”的产品通过监控学生阅读电子化的课程材料、提交电子版的作业、通过在线与同学交流、完成考试与测验，就能让其计算程序持续、系统地分析每个学生的教育数据。老师得到的不再是过去那种只展示学生分数与作业的结果，而是像阅读材料的时间长短等这样更为详细的重要信息，这样老师就能及时诊断问题的所在，提出改进的建议，并预测学生的期末考试成绩。

像美国的“梦盒学习”（DreamBox Learning）公司和“纽顿”（Knewton）公司这类领先性的开发者们，已经成功创造并发布了各自版本的利用大数据的适应性学习（adaptive learning）系统。在2012年国际消费电子展的高等教育技术峰会上，世界最大的教育出版公司培生集团（Pearson）与适应性学习领域里的先行者纽顿公司共同发布了主要由培生集团开发的适应性学习产品——“我的实验室/高手掌握”（MyLab/Mastering）。这款产品在将全球范围内向数百万名学生提供个性化的学习服务，向他们提供真实可信的学习数据，让学校通过这些数据提高学生的学习效果并降低教学成本。首款产品将在美国的数十万名学生中使用，包括数学、英语，以及写作等技能开发课。

纽顿的创办人、首席执行官何塞•费雷拉和培生高等教育分公司的总裁格雷格•托宾共同出席了“我的实验室/高手掌握”的发布会并介绍了合作的细节，讨论了高等教育的未来。托宾说：“个性化学习是未来教育的一个关键点。我们把纽顿的技术整合到‘我的实验室/高手掌握’这个产品中，是整个行业进入个性化教育新时代的引领风气之举”。费雷拉说：“从今年秋季起，培生的课程材料将在纽顿技术的支持下，开始适应性地满足每个学生独特的学习需求。学生能够生成大量有价值的数据，纽顿可以分析这些数据，以此确保学生以最有效、最高效的方式学习。这是教育的一个新的前沿领域”。按照已经达成的协议，这两家公司2013年将进一步扩大合作，把大学数学、大学统计学、大学一年级作文、经济学以及科学等领域纳入其产品中去。

此外，由总部设在美国纽约的麦格劳•希尔公司（McGraw-Hill）、总部设在英国伦敦的培生集团和其他出版公司共同开发的“课程精灵”系统（CourseSmart），也允许教授们通过让学生使用电子教科书来跟踪他们的学业进展，并向助教们显示学生的学习参与度和学习成绩等大量的数据信息，只是这一系统尚不具备预测的功能。

大数据让考试变得更科学

教育中的数据挖掘是迈向大数据分析的一项主要工作。教育中最近的趋势是允许研究者积累大量尚未结构化的数据（unstructured data）。结构化的数据（structured data）是从教育部门多年的数据——特别考试成绩和出勤记录——那里收集而来。互动性学习的新方法已经通过智力辅导系统、刺激与激励机制、教育性的游戏产生了越来越多的尚未结构化的数据。这就使得更丰富的数据能给研究者创造出比过去更多的探究学生学习环境的新机会。

教育数据与其他领域中的数据比较起来，有一些独特的特征。总结起来就是教育数据是分层的（hierarchical）。美国教育部教育技术办公室在《通过教育数据挖掘和学习分析增进教与学（公共评论草案）》的第18页中写道：“教育数据是……分层的。有键击层（keystroke level）、回答层（answer level）、学期层（session level）、学生层（student level）、教室层（classroom level）、教师层（teacher level）和学校层（school level），数据就寓居在这些不同的层之中。”

当某个学生回答一个问题时，一些变量就需要一起分析了。例如，学生回答正确率低的问题就是好问题吗？此外，时间也是重要的因素。比如，一个学生在考试的第一部分耗时太多，是否意味着其接下来就会飞速、凌乱地答题。一道问题的答题顺序、结果、具体情况，都给研究者提供了许多前所未有的大量数据。运用这些数据，研究者就能揭示学生的学习模式。研究者利用所有这些数据就能获悉到底是什么因素对学生构成了最好的学习环境。理解这些重要的问题有助于教育工作者给学生创造一个个性化的学习模式。

监测学生是“如何”考试的能让研究者有效定型学生的学习行为。大数据要求教育工作者必须超越传统，不能只追求正确的答案，学生是如何朝着正确答案努力的过程也同样重要。在一次考试中，学生个人和整体在每道题上花费了多少时间？最长的是多少？最短的是多少？平均又是多少？哪些此前已经出现过的问题学生答对或答错了？哪些问题的线索让学生获益了？通过监测这些信息，形成数据档案，能够帮助教育工作者理解学生为了掌握学习内容而进行学习的全过程，并有助于向他们提供个性化的学习模式。

监控学生的每一个学习行为是可能的。为了改进学生的学习成绩，我们需要知道他们回答一个问题用了多少时间，回答这个问题使用了哪些资源，哪些问题被跳过了，为了回答这个问题做了哪些研究工作，这个问题与其他已经回答了的问题之间存在什么关系。此外，老师对每个学生提供什么样的建议才是最佳的？学生写作业和答题的信息能立即被自动地监测到，老师还能在第一时间将这些信息反馈给学生。

用这些学生学习的行为档案创造适应性的学习系统能够提高学生的学习效果。利用学生是“如何”学习的这样重要的信息，考试的出题者们就能为学生量身定制出适合学生的个性化问题，并设计出能够促进记忆力的线索。通过分析大数据，研究者发现从教育的效果上来看，当被问到一系列难度逐渐增加且互相关联的问题时，学生的表现要好于围绕一个共同的知识点而随机挑选出的问题。美国标准化的研究生入学考试（GRE）中的这种适应性考试已经显示出朝这一方向努力的趋势。

五大技术利用教育大数据

需要特别注意的是，如何收集数据对于它们未来的使用性非常重要。接收数据汇入背后的挑战是从一开始就要标准化，以便今后对数据进行仔细分析。这样做并不是意味着将未结构化的数据转化为结构化的数据，而是要用直观的方法对接收的数据进行分类。

应该说，获得相关数据并不是一件容易的事。对于大学阶段的学生而言，数据的收集并不是主要问题。然而，对于中小学阶段的学生而言，挑战却很大，因为有些数据的收集存在法律问题，有的则存在伦理道德的问题。

数据收集者的人数和技能也是一个问题。对于公司而言，通常通过网络上的小型文本文件（cookies）来收集用户的相关信息。但是对于美国联邦政府教育部而言，则需要依赖于全国众多学区和研究者的网络来提炼和确认数据。

教育工作者和研究者已经开发出从大数据中提取价值的5种主要的技术。

1.预测（Prediction）——觉知预料中的事实的可能性。例如，要具备知道一个学生在什么情况下尽管事实上有能力但却有意回答错误的能力。

2.聚类（Clustering）——发现自然集中起来的数据点。这对于把有相同学习兴趣的学生分在一组很有用。

3.相关性挖掘（Relationship Mining）——发现各种变量之间的关系，并对其进行解码以便今后使用它们。这对探知学生在寻求帮助后是否能够正确回答问题的可靠性很有帮助。

4.升华人的判断（Distillation for human judgment）——建立可视的机器学习的模式。

5.用模式进行发现（Discovery with models）——使用通过大数据分析开发出的模式进行“元学习”（meta-study）。

实施这些技术就能够通过大数据来创建为提高学生成绩提供支持的学习分析系统。研究者们相信这些技术将帮助教育工作者更加有效地指导学生朝着更加个性化的学习进程迈进。

总而言之，通过大数据进行学习分析能够为每一位学生都创设一个量身定做的学习环境和个性化的课程，还能创建一个早期预警系统以便发现开除和辍学等潜在的风险，为学生的多年学习提供一个富有挑战性而非逐渐厌倦的学习计划。因此，有识之士经预言未来的学习将是大数据驱动的新时代。我们应该积极迎接这个新时代，通过大数据来分析学习，进一步改善教学的方式与方法，进一步促进学生学习成绩的提高。

《光明日报》 2013年10月19日 5版