基于豆瓣影视的数据获取及可视化研究和实现开题报告

 2022-01-21 21:25:05

1. 研究目的与意义、国内外研究现状(文献综述)

1.本课题的意义在互联网技术高速进步的今天,互联网上的信息含量以极快的速度增长,数据急速膨胀,致使如何从庞大的数据中获取需要的、有意义的数据这一问题变得越来越重要,其中,爬虫技术就被看做是搜寻数据技术中最关键的技术之一。

与此同时,随着人们需求的进一步提升,有关网络信息获取的问题越来越多,例如,数据类型越来越丰富,页面分析不够细致,得到的内容要经过更深度的分析才能使用。

因此,对爬虫技术的研究更加侧重于对搜索到的页面进行页面分析,从而获得用户需要的信息。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容和问题

1、研究的目标和内容在本次的设计中,主要是对于指定Web网页内容的获取及实现对应的可视化。

具体内容如下:(1)查阅相关资料,了解网络爬虫的工具及方法;(2)对拟爬取的网页的结构特点进行分析,设计基本的网络爬虫逻辑结构(3)按照需求设计并编写爬虫程序,并利用获取爬虫程序获取指定网页的各项内容;(4)对获取到的网页文本信息进行进一步的处理,包括页面解析、URL去重和数据存储等;(5)实现相应的可视化2、拟解决的关键问题本次的设计过程中,关键问题有:针对于特定网页的网络爬虫程序的设计、对获取到的网页信息进行页面解析、数据库的设计与存储、信息的多种可视化呈现;

3. 研究的方法与方案

1、研究方法本设计通过阅读文献,具体研究方法和技术路线如下:(1)通过阅读文献,理解网络爬虫以及数据可视化的相关知识;(2)利用java设计针对于指定网页的网络爬虫程序,利用广度优先爬行策略对指定网页内容进行爬取;(3)对获取到的网页文本内容进行处理,包括url的解析与去重;(4)设计数据库结构,将处理好的数据保存到对应的mysql数据库中;(5)实现对应的可视化。

2、技术路线(1)阅读并学习有关文献;(2)理解网络爬虫和数据可视化的原理;(3)设计网络爬虫程序,并利用广度优先策略对指定网页进行爬取;(4)对获取到的页面进行url的解析与去重等一系列的处理;(5)设计数据库,并将处理好的数据存储到mysql数据库中;(6)实现相应的可视化展示;3、实验方案及可行性分析如今的网络爬虫技术日趋成熟,对页面内容的爬取策略主要有广度优先爬行策略、深度优先爬行策略和聚焦搜索策略,其中用的比较广泛的有广度优先策略和聚焦搜索策略,能够获取较为全面的信息。

同时,对数据库数据的可视化研究也十分普遍,利用html css javascript的前端可视化展示也十分直观明了。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

1、网页抓取功能部分拟利用Java语言进行网络爬虫程序的编写,采用广度优先的爬行策略对网页内容进行爬取,并且能够实现信息的增量爬取;2、数据库部分拟采用MySQL关系型数据库,能够对处理好的数据进行持久性存储,方便后续的一系列操作;3、本文主要采用HTML CSS JavaScript来实现系统的可视化,并利用ECharts库来实现图表可视化;

5. 研究计划与进展

2017.12-2018.01完成开题工作2018.01-2018.02查阅并分析文献,学习相关理论知识2018.02-2018.03学习并完成网络爬虫程序的设计,获取所需要的网页基本信息以及处理2018.03-2018.04 设计相应数据库用来保存处理好的数据,并实现可视化展示2018.05 完成毕业设计报告准备毕业设计答辩

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版