基于MOOC学习平台的文本挖掘与分析开题报告

 2021-11-28 09:11

1. 研究目的与意义(文献综述)

1.1 研究目的及意义

随着大规模信息通信技术的发展,传统的学习模式迎来了新的机遇和变革,诸如人工智能、虚拟现实、云计算以及数据挖掘等高新技术使得在线教育蓬勃发展。全球掀起了mooc学习的热潮,世界各地的学校都认可“互联网 教育”,意识到自适应学习和个性化学习的重要性和紧迫性。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

本次设计的基本内容是通过学习文本挖掘技术,以基于Python的编程方式来实现对中国大学MOOC平台挖掘出相关课程评价、学习者的评论以及师生互动留言等文本数据,最后使用相关文本分析数据工具来对挖掘到的文本进行量化分析和质化分析,从而进行文本内容分类、高频关键词提取、内容分析等研究工作。挖掘中国大学MOOC平台具体文本内容的流程为:选择网站、站点分析、解析网页、模拟用户登录、文本数据挖掘以及分类处理和存储。

先是确定文本数据挖掘工具,编程语言采用Python,由于Spyder具有精简的交互界面,因此本次设计中选择使用Spyder编译器。因为需要在网页上进行挖掘,也即是网络爬虫,本次设计采用构建正则表达式和selenium WebDrive交替使用的方式进行网页爬虫。使用 Chrome浏览器。网页中有大量的网页源代码,要从这些源代码中获取各项文本数据,就要对网页进行解析。本次设计选用网页解析工具为Beautiful Soup,Beautiful Soup是Python的一个库,最主要的功能是从网页抓取数据,通过解析文档为用户提供需要抓取的数据。在进行模拟用户登录时,当涉及到页面更新等操作,就需要反复登录。所以本次设计通过设置 Cookie 信息保存登录会话信息,爱课程网站的登录方式笔者选择用邮箱账号进行登录。

然后经过爬虫而挖掘到的文本数据是需要进行处理分析的,本次设计将其分为数据量化分析和文本内容质化分析。所有爬取到的文本数据都可以导入Mongodb或MySQL数据库进行存储,Python能够连接Mongodb和MySQL数据库。因为Excel表格形式的文件查看方便、应用广泛,并且xlrd、xlwt和pandas库都能够处理Exce文件,所以本次设计中以Excel表格中xlsx的格式存储文本数据。数据存储后需要使用到文本分析工具,目前最常用的专业中文分词工具包含:jieba和THULAC等,经过比较最终发现jieba工具的分词效果要更好,所以在进行文本分析时使用jieba工具。经过这么一个分词过程,可以将课程文本关键词分类提取,从而达到挖掘课程重点难点,提供一个可视化的结果供MOOC学习平台和教师参考。

3. 研究计划与安排

第1-4周: 完成题目调研,进行相关资料的搜集,完成文献综述以及开题报告的撰写。

第5-7周: 使用python编程实现对中国大学mooc相关课程的学习评论等文本数据的爬取。

第8-11周: 对爬取到的文本数据进行量化分析以及相关的存储。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1] yahya al-ashmoery, rochdimessoussi. learning analytics system for assessing students’performance qualityand text mining in online communication[c].ieee intelligent systems andcomputer vision.doi:10.1109/isacv.2015.7105544.

[2]pedregosa, fabian, varoquaux,gael,gramfort,et.al.scikit-learn: machine learning in python[j]. paralleldistributed processing, 2013: 34-39.

[3]hsu,j.l., chou,h.w.,chang,h.h. eduminer: using text mining for automatic formative assessment[j]. expertsystems with applications, 2011,38(4):3431-3439.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。