您的位置: 主页 > VR虫洞 > 雷俊聪:基于教育数据挖掘的学习者聚类分析与研究

雷俊聪:基于教育数据挖掘的学习者聚类分析与研究

时间: 2018-12-05阅读:

摘要:数据挖掘在教育领域的应用随着数据的增多变得极为重要,该文主要针对在线评测系统中学习者相关数据集进行分析与研究,构造多个学习者特征,并以此对学习者进行聚类分析,从而得出不同学习者之间的特点,并对每类学习者进行深入分析,挖掘出隐含信息。一方面教育者可以针对不同类别的学习者采取不同的教育策略,另一方面使学习者更好地了解自己,发现不足的原因。将挖掘到的知识应用到教育环境中,不仅完善了在线教育平台,同时也使学习者和教育者达到了双赢的目的。

关键词:教育数据挖掘;在线评测系统;学习者;特征;聚类分析

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2018)06-0154-03

1概述

随着开源教育平台的兴起,教育数据挖掘技术融入教学已成为一种趋势,将教育系统的数据通过数据挖掘技术转换为有用的知识,并将挖掘到的知识再次应用到教育环境中去,提供更多更客观的反馈信息,一方面使教育者能够更好地调整和优化教学策略、改进教学过程、完善课程开发,基于学习者的学习情况来实现教学内容组织、创新以及构建教学模式等;另一方面可以使学习者更好地了解自己,有助于自己更好的学习。

本文中主要研究XXX大学在线评测系统(Online Judge,以下简称OJ),此系统是学习者通过在线提交代码,系统即时检测代码的正确性并给出判定结果。OJ中,存储着学习者的相关数据,通过分析这些数据,更深入的了解学习者,以便针对不同类别学习者提供不同的教学方法。本文主要是通过分析学习者数据,建立特征,得出不同类别学习者的特点,使教学者有针对性做出策略。

2数据挖掘介绍

数据挖掘,就是从大量无序的数据中发现隐含的、有效的、有价值的、可理解的模式,进而发现有用的知识,并得出时间的趋向和关联,为用户提供问题求解层次的决策支持能力。

随着开源教育平台的兴起,平台上的数据分析变得异常重要,将数据挖掘应用在教育领域成为一种趋势。如通过研究大规模教育数据中,可以为教育者提供更多潜在的不易发现的信息,以解决某教育中存在的问题,或者来预测学习者所需要的服务。

3问题提出

学习者数据存储在数据库中,因此在选取数据时,可以直接从数据库中导出数据,然后在其中提取具有研究价值的完整的数据集。

如何更深入的了解学习者,挖掘出不同学习者之间的差异,以及如何找出需要进行考前预警的学习者,是本文研究的重点。

3.1山东某大学在线评测系统学习者群体的数据介绍

自2011年以来,注册用户的提升和题目的增加,使OJ系统的学习者数据集更加完备,便于研究和学习分析。

OJ系统中的学习者主要涉及计算机,软件,网络,物联网,电科,数字媒体,信息安全,数学等专业,学习者按时完成专业老师安排的作业和规定的考试,表1是五个年级学习者数据的汇总,表示学习者的对题目的提交情况。最终选取了2014级,2015级,2016级学习者数据。

3.2问题解决的角度

由于数据繁杂,各个年纪的学习者提交记录都存储在一个数据表中,学习者的分类仅仅依靠成绩是不够的,而且也是片面的,影响学习者做题的因素很多,所以对于学习者进行有效的分析至关重要,对于教学者也有很好的帮助,可以对于不同学习者采取不同的教育方式。

不同于以往仅仅按照成绩将学习者进行优良中差的分类,本文采取多个学习者特征,建立一个基于在线评测系统的学习者模型。克服了单一分类标准所得最终结果的片面化的弊端。

4学习者数据集的预处理

4.1数据集成

2011年以来,随着题目数量的增加,在教学方面,题目数据的涵盖的内容越丰富,越有利于学习者学习,从而才能更好地针对学习者的数据集进行分析。所以,本文选取2014级,2015级,2016级的学习者数据。

数据集成主要将很多数据的属性集合在一起,本文中主要将数据从数据库中导出,按照学号的特点,针对不同的年级,不同的专业,不同的班级,依次整理,下图是将2014级学习者的信息进行集成。

表2 2014级总提交记录

图中包括提交号,题号,用户,提交时间,用户IP,竞赛号,判题情况,代码长度,判题时间等,涵盖了学习者在本系统的所有属性。

4.2数据清理

数据清理试图填充缺失的值,光滑噪声并识别利群点,纠正图中數据的不一致性。去掉不合理的、异常的数据,比如只注册者、注册学号不合法、学习者补考数据、缺失数据等。

对于学习者数据中,一些重要的属性缺少属性值,对于本部分的空缺,可以使用数据清理技术来填充。填补缺失值补全主要有下面几个方法:

1)忽略缺失数据;

2)人工填写缺失值:此方式比较费时,数据量较小的情况下可以行得通;

3)使用均值填充;

4)使用最有可能的一个值进行填充:通过回归或者使用贝叶斯形式化的基于推理的工具或者决策树归纳确定。

本文中的数据清理,选取学习者参与度较高的十四次程序设计基础作业。

①因某种原因缺失作业较多学习者直接删除,只缺少两次甚至更少的学习者,通过其前几次作业的做题情况,使用第四种方式填充。此方式主要用于学习者的做题时间。包括平均做题时间和每次作业的第一次提交时间。

②非法用户、不按照学号形式注册一律删除。

③缺失值补全主要采用第四种方式进行填充。

④删除数据量过少的用户,比如只登录过几次,或者提交次数过少。

⑤偏差检测,发现噪声、离群点和需要考察的不寻常的数据。

通过数据清理,数据更加规范,合理。

4.3特征构造

上一篇:塔希提岛位置:基于遗传算法的机械传动决策的建模与仿真
下一篇:没有了

相关阅读