1. 研究目的与意义、国内外研究现状(文献综述)
1.1 课题意义在过去的几十年里,互联网蓬勃发展,随之而来的是互联网用户的飞速增长以及大量用户数据的增加,从而提出了互联网时代大数据的概念。
大数据(big data)指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
[1]人们发现自己手中的数据不再毫无用处,通过强大的技术手段,无形的数据即可转化为有形资产。
2. 研究的基本内容和问题
2.1 研究目标本课题的主要目标就是要开发一个对简书用户画像进行分析以及可以按不同类别对内容进行检索的网站,旨在解决难以获取想要的数据、分析数据无从下手的问题,本网站以数据可视化的方式,更加直观的反映简书内容以及简书的用户画像,完成了从收集数据、清洗数据、分析数据到最后展示数据的一个闭环。
2.2 研究内容本课题的主要研究内容是获取简书的用户和内容数据,并对该数据进行分析,最终在网站上进行结果的可视化展示。
该系统可以实现自主查询单个用户的画像、简书用户和内容的整体情况以及按需检索自己想要的内容。
3. 研究的方法与方案
3.1 研究方法1)学习python的基础语法知识2)研读scrapy、django等开源项目在github上的源码及说明3)去stack overflow、开源中国、csdn等论坛寻找问题解决方法4)去豆瓣、知乎、简书、qua等知名问答社区收集有关简书的数据需求问题5)研读相关内容的优秀期刊论文6)利用google、百度等搜索引擎收集相关的学习资料7)查阅相关书籍3.2 技术路线1)使用python作为编程语言进行开发,选择pym作为开发平台2)基于scrapy自行设计关于简书的爬虫3)利用mongodb实现数据的持续化4)在elasticsearch的基础上,定制自己的打分机制5)基于django框架设计网站3.3 实验方案该系统以python作为编程开发语言,使用pym作为开发工具,以python3.6作为开发环境,使用mongodb进行数据的存储。
1)按照毕业设计要求,设计系统功能,并制定工作计划2)针对该网站的需求分析和技术要求,收集相关资料自行学习3)研读相关的期刊文献,学习论文的撰写思路4)经常和指导老师进行沟通和交流,在导师的指导下完成毕业论文3.4 可行性分析1)技术可行性python作为一门编程语言有着简单、简洁、库强大、开发效率高的特点,python能够用来做的事情有很多,例如通过python入门爬虫,它比较简单易学,不需要在一开始就掌握很多底层的知识就可以很快上手,而且可以很快就做出成果。
除了爬虫之外,python还广泛地应用到web端程序,例如知乎,它的主站后台就是基于python的tnado框架,除了这个框架之外,还有常见的web框架如flask、django等等。
4. 研究创新点
本课题的特色在于完成了从数据获取、数据处理到数据分析的一个闭环。
在大数据时代,数据量巨大,但是有时并不能直接获取到自己想要的数据,从而之后的一系列分析工作也不能很好地开展下去。
而通过这次项目,一方面解决了获取数据难的问题,另一方面增强了数据分析能力,数据并不只是无意义的数字,它也有它的价值,在很多方面都有指导性的意义。
5. 研究计划与进展
起止时间 工作项目 备注2018.1.1-2018.1.31 1、确定论文题目,完成开题报告2、阅读相关参考文献3、学习相关开发技术,如python基础知识,了解Scrapy框架4、学习爬虫的相关知识,完成有关简书的爬虫设计 5、完成开发环境的准备 2018.2.1-2018.2. 15 1、对爬虫各方面的性能进行进一步的优化2、收集对简书分析的需求3、清洗获得干净的数据 2018.2.16-2018.2.28 1、学习Python有关数据可视化的相关库2、安装Elasticsearch,学习Django框架,得出网站设计的初步框架 2018.3.1-2018.3.19 1、完成中期考核报告2、完成数据分析的可视化展示 2018.3.20-2018.4.19 1、完成内容检索功能2、完成系统的整体测试3、完成系统使用说明书4、完成毕业论文的撰写
