Web页面表格检测与内容提取软件设计与实现开题报告

 2022-10-19 10:10

1. 研究目的与意义

随着互联网的飞速发展,我们迎来了真正意义上的信息时代,如今的互联网已经发展成为一个全球的分布的共享的信息空间,越来越多的机构,个体,团队,通过网络来发布信息同时又从网络接受信息,人们从网络源源不断的获取信息的同时,无法避免的会出现一系列的问题,因为互联网中存在着大量的涉及各个专业领域的数据资源,但其中绝大多数并不向普通用户提供直接的访问权限而是通过某个网站将所含的各种信息数据嵌入到相关的网页当中去,以html文档的出现在web上,限制网络用户只能通过网页浏览器浏览查看信息数据,一方面,人们不能够直接有效的使用这些信息,另一方面,人们往往从网页上获得的信息,不是他们所想要的,有太多的不相关文档,不仅浪费时间而且消耗了大量的信息资源,因此人们急切地需要一种技术和工具来提取网页中自己所需要的相关信息,于是web数据提取技术应运而生。

经不完全统计得知,在各种类型的web页面中,表格结构的数据信息占了一大比例,大多数的网页或多或少地都在使用表格结构,由此,使得web数据提取技术的研究的主要方向集中在了网页表格信息的提取上。

本文主要的研究目的就是设计web页面的表格检测与内容提取软件,实现的主要功能包括简单的判断网页中是否存在表格并做检测,并提取表格内容和建立数据库,查询并展示相关内容,以满足用户对web页面的表格数据的快速理解和需求。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 课题关键问题和重难点

关键问题1、首先要解决的问题是如何判断网页中是否存在表格并做出判断是否为简单表格;2、其次要解决的关键问题是如何提取表格内容,并在数据库中建立表格相关模式,将数据存入相应表内;难点1、首先读取用户输入的URL,将相应的HTML文档解析成Document对象实例,然后进行识别,根据表头识别网页中是否存在表格,再对表格类型进行二元判断,难点在于选择调用什么方法判断以及遍历表格中的数据。

2、其次是提取表格中的内容,难点在于如何获取表头属性,进而遍历获取表格中的数据,难在根据属性-名类型进行数据提取,提取出来的信息易于理解,最好存入数据库中,并进行查询和展示。

3. 国内外研究现状(文献综述)

1、前言目前,在国内外关于web页面数据提取的技术和信息很多,但是针对与表格数据提取的研究却很少,国内外的web数据提取研究主要是集中在正文数据的提取方面,但其实根据统计,大约半数以上的web页面都带有table标签,甚至有些网页会使用全表格模式进行设计,因为根据需求,某些网页使用表格设计模式,数据容易让使用者快速理解方便查找,由此,就更加需要专门针对的对web页面的表格数据进行更深入的研究。

2、主体杨少华,林海略,韩燕波等人提出了一种针对模版生成网页的一种数据自动抽取方法,由于html的内部结构特征的不同,针对的设计了一种算法,它会先假设提取的web页面的结构特征相似,然后设计整个的网页结构模版提取网页内容,这种算法使用分装器来提取网页正文数据,从而达到提取用户所需内容的目的;沈凯,张卫华,童云海等人提出在分布式计算环境下产生的一种web挖掘,发现了web结构和web内容的规律和动态特点,网页的读取模式,在web挖掘分类问题上,也从三种不同的角度分析了web内容,结构和使用挖掘直接的关系;刘慧等人在基于表格结构的web信息提取技术研究中,从标记和视觉特征的角度出发,将基于表格结构的web信息划分为列表和表格,然后针对不同的结构分别研究出一种具有领域独立性的信息提取方法,首先提出了基于html结构树的提取方法,其次提出了一种基于特征向量机器学习的web表格识别方法,最后提出了一种融合多阶的二维条件随机场模型;张瑞雪, 宋明秋, 公衍磊等人提出了逆序解析dom树以及网页正文信息提取技术,摒弃了传统的方法,提出了逆序解析法,并结合dom树相似理论和传统的顺利解析算法,从部分信息开始分别向后顺序和向前逆序解析dom树,同时定位并获取其他目标信息,减少了解析树结构花费的时间;王能斌和丁宝康的数据库系统教程,从基础到深层,由浅入深地讲解了,数据库的基本使用操作,并做了相关的拓展练习使得我们能从小的项目中了解到关于数据存储的魅力所在;3、总结综合了以上的参考文献,目前国内外在 web 表格信息提取方面的研究很多,然而对表格数据系统分析方面的研究却很少。

因此,本文就本项目所涉及到技术研究现状介绍如下,主要包括三个方面,网页信息提取技术、表格识别与表格数据抽取以及表格数据的存储和展示。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究方案

设计方案1、系统功能结构图图1 系统功能结构图2、各主要功能的描述介绍表格数据检测功能:该功能主要是读取用户输入的URL,将相应的HTML文档解析成Document对象实例,然后进行识别,根据表头识别网页中是否存在表格,再对表格类型进行二元判断,判断是否为简单表格,如果是则转入下一个功能模块,反之该返回;表格数据提取功能:该功能为主要的核心功能,获取表头属性,进而遍历获取表格中的数据,然后在数据库中建立表格的相关模式,存入数据库相应表中;表格数据查询显示功能:该功能主要是查询并展示数据库中存储的网页中的表格内容;3、数据库模式设计图及说明数据库设计模式使用名值关系设计模式,因为处理的是系统设计阶段不能完全确定属性的对象,这些对象的属性在系统允许是会有很大的变更,或者是多个对象直接的属性差异很大,需要设计一个属性模版表,然后设计一个存储数据的额外属性表;4、业务流程图 图2 表格数据检测流程图 图3 表格数据提取流程图

5. 工作计划

首先大量翻阅文献,尽量多了解与本课题相关的研究和技术,根据任务书,明确要完成的成果和相应的技术指标,从整体上先把握大致的内容,然后进行拆解分析,不懂的关键技术内容要去查阅书籍资料或者是向导师请教;其次是进行系统的需求分析和总体设计,画出相应的功能结构图,分析各个功能子模块,并相应的做出需求分析和系统流程分析,进而完善系统的非功能性需求分析,分析关键的问题和难点,逐一击破,要将各个模块的结构图和流程图不断的测试,完善和揣摩,尽可能的达到预期的效果;最后是进行详细设计和最终的实现,要根据各个功能的子模块进行结构和类图设计,并逐渐完善,设计出原型,然后进行调试,完善,测试系统,进而准备设计论文的撰写,并作进一步的修改与完善,多做总结。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。