上市公司关系网数据的爬取与清洗开题报告

 2021-12-14 09:12

1. 研究目的与意义(文献综述)

1.1研究目的与意义

上市公司关系网数据的爬取与清洗的研究即利用爬虫技术到统计上市公司的站点去爬取上市公司的股权结构等相互关联的关系数据信息,将它们存储到数据库里,再利用知识图谱及自然语言处理的知识分析企业的基本属性数据、企业与其他实体的关联数据,整理并构建企业间的关系网络,最后尽可能使系统简洁明了、人机界面友好、易于操作,并进行企业关系网络的可视化展示。研究的目的就是利用爬虫技术、自然语言处理技术和知识图谱知识去爬取上市公司的基本信息和与其它公司的关联信息,实现构建完整全面的上市公司关系网,做到快速检索股权结构、法人信息,得到公司关系网络的功能。

意义一:帮助股民和投资者快速而全面了解一个上市公司的体系结构以及与其它上市公司的牵连关系。我们发现像前瞻网这样统计上市公司信息的网站都只是单纯罗列公司的各种信息:股本结构、董事会成员、公司属性等,没有实现关系网的检索与可视化功能,我们希望实现检索一个公司的最上级的法人、检索公司涉猎的各类行业等检索功能,并利用建立可视化图表等方法全面分析一个上市公司。总的来说就是希望通过本研究成果实现对上市公司关系网的可检索化与可视化,这样投资者和股民就能直观了解一个上市企业的体系结构,帮助他们作出合理的投资。如果能定期爬取各大关于统计上市企业信息的站点,并完善查询功能,查询界面美观化,这个研究的成果就能面向公众,得到商业化的推广。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

2.1基本内容

关键技术:网络爬虫、知识图谱、自然语言处理。

利用主流爬虫框架scrapy爬取上市公司信息统计网站,将有用信息存储到数据库里;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

2019.12.30之前:完成毕业设计选题;

2020.02.18之前:结合选题和任务书的目标要求,完成开题报告撰写;

2020.05.10之前:完成系统的设计和实施、提交论文初稿;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1] 马联帅. 基于scrapy的分布式网络新闻抓取系统设计与实现[d]. 西安: 西安电子科技大学, 2015.

[2] 张笑天. 分布式爬虫应用中布隆过滤器的研究[d]. 沈阳: 沈阳工业大学, 2017.

[3] 阮阳, 刘禹, 韩港成, 等. 基于爬虫的定向数据检索系统[j]. 软件, 2018, 39(5): 118-120.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。