基于Spark大数据平台的高校学生就业系统设计开题报告

 2021-08-08 05:08

1. 研究目的与意义

如今大数据渗透到生活的方方面面,多行业由于历史积累产生了tb、pb甚至eb级数据量,由于传统机器的软硬件不足以支持如此庞大的数据量的存储、管理及分析能力,因而专门应对大数据的分布式处理技术应运而生,如高性能的spark。

spark框架是一个针对超大数据集合的低延迟的集群分布式计算系统,启用了内存分布数据集,提供交互式查询并优化迭代工作负载,和hadoop相比能更好地适用于机器学习和数据挖掘等需要迭代的mapreduce算法。

该研究的目的在于部署spark环境,以其高速、易用、通用、支持多种资源管理器的优点,高效地处理庞大的高校学生就业信息数据,以构建出大型的、低延迟的高校学生就业系统。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 国内外研究现状分析

spark是加州大学伯克利分校amp实验室(algorithms, machines, and people lab)开发通用内存并行计算框架。

项目在2010年早些时候开源,很多早期关于spark系统的思想在不同论文中发表。

matei zaharia在他的博士论文中阐述了大型集群上的快速通用数据处理架构,为spark技术奠基。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的基本内容与计划

(1)研究内容一、spark环境部署、安装配置二、spark平台上实现如kmeans、svm、lda等ml算法三、研究和优化ml等算法在spark上的实现四、高校学生就业数据的收集五、系统的架构功能的设计,部署六、调试优化(2)研究计划3.1 -3.20 搭建spark的环境,初步实现ml算法并研究。

3.21-4.20 收集高校学生就业数据,设计高校学生就业平台的架构、数据库。

4.21-5.10 搭建和调试系统。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

将高校就业系统搭于spark大数据平台,可以更加快速便捷地处理海量数据,生成有效信息。

这也是对spark应用的一次有效落地。

在本系统中,我将生成高校就业流动全国地图,更生动地显示就业给社会变迁带来的影响。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。