基于豆瓣影视的数据获取及可视化研究和实现开题报告-开题报告网

1. 研究目的与意义、国内外研究现状（文献综述）

1.本课题的意义在互联网技术高速进步的今天，互联网上的信息含量以极快的速度增长，数据急速膨胀，致使如何从庞大的数据中获取需要的、有意义的数据这一问题变得越来越重要，其中，爬虫技术就被看做是搜寻数据技术中最关键的技术之一。

与此同时，随着人们需求的进一步提升，有关网络信息获取的问题越来越多，例如，数据类型越来越丰富，页面分析不够细致，得到的内容要经过更深度的分析才能使用。

因此，对爬虫技术的研究更加侧重于对搜索到的页面进行页面分析，从而获得用户需要的信息。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容和问题

1、研究的目标和内容在本次的设计中，主要是对于指定Web网页内容的获取及实现对应的可视化。

具体内容如下：（1）查阅相关资料，了解网络爬虫的工具及方法；（2）对拟爬取的网页的结构特点进行分析，设计基本的网络爬虫逻辑结构（3）按照需求设计并编写爬虫程序，并利用获取爬虫程序获取指定网页的各项内容；（4）对获取到的网页文本信息进行进一步的处理，包括页面解析、URL去重和数据存储等；（5）实现相应的可视化2、拟解决的关键问题本次的设计过程中，关键问题有：针对于特定网页的网络爬虫程序的设计、对获取到的网页信息进行页面解析、数据库的设计与存储、信息的多种可视化呈现；

3. 研究的方法与方案

1、研究方法本设计通过阅读文献，具体研究方法和技术路线如下：（1）通过阅读文献，理解网络爬虫以及数据可视化的相关知识；（2）利用java设计针对于指定网页的网络爬虫程序，利用广度优先爬行策略对指定网页内容进行爬取；（3）对获取到的网页文本内容进行处理，包括url的解析与去重；（4）设计数据库结构，将处理好的数据保存到对应的mysql数据库中；（5）实现对应的可视化。

2、技术路线（1）阅读并学习有关文献；（2）理解网络爬虫和数据可视化的原理；（3）设计网络爬虫程序，并利用广度优先策略对指定网页进行爬取；（4）对获取到的页面进行url的解析与去重等一系列的处理；（5）设计数据库，并将处理好的数据存储到mysql数据库中；（6）实现相应的可视化展示；3、实验方案及可行性分析如今的网络爬虫技术日趋成熟，对页面内容的爬取策略主要有广度优先爬行策略、深度优先爬行策略和聚焦搜索策略，其中用的比较广泛的有广度优先策略和聚焦搜索策略，能够获取较为全面的信息。

同时，对数据库数据的可视化研究也十分普遍，利用html css javascript的前端可视化展示也十分直观明了。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 研究创新点

1、网页抓取功能部分拟利用Java语言进行网络爬虫程序的编写，采用广度优先的爬行策略对网页内容进行爬取，并且能够实现信息的增量爬取；2、数据库部分拟采用MySQL关系型数据库，能够对处理好的数据进行持久性存储，方便后续的一系列操作；3、本文主要采用HTML CSS JavaScript来实现系统的可视化，并利用ECharts库来实现图表可视化；

5. 研究计划与进展

2017.12-2018.01完成开题工作2018.01-2018.02查阅并分析文献，学习相关理论知识2018.02-2018.03学习并完成网络爬虫程序的设计，获取所需要的网页基本信息以及处理2018.03-2018.04 设计相应数据库用来保存处理好的数据，并实现可视化展示2018.05 完成毕业设计报告准备毕业设计答辩

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

基于豆瓣影视的数据获取及可视化研究和实现开题报告

1. 研究目的与意义、国内外研究现状（文献综述）

2. 研究的基本内容和问题

3. 研究的方法与方案

4. 研究创新点

5. 研究计划与进展

您可能感兴趣的文章

最新文档

联系我们

登录

注册

找回密码

1. 研究目的与意义、国内外研究现状（文献综述）

2. 研究的基本内容和问题

3. 研究的方法与方案

4. 研究创新点

5. 研究计划与进展

您可能感兴趣的文章

最新文档

联系我们