基于WEB的社交网络信息抽取系统开题报告

 2021-08-08 01:53:53

全文总字数:3163字

1. 研究目的与意义

随着Interent的迅猛发展,Web已经成为最重要的知识库之一。虽然这些知识使我们更方便、更快捷的获取知识,但是因为互联网的开放性,使得网络里面的信息越来越多,而我们查询我们需要的信息的时候也就越来越容易受到其他信息的干扰。所以,如何快速、准确、高效的获取我们需要的知识,就具有良好的研究前景和应用价值。 本课题的内容是从社交网络Web站点中定位和识别感兴趣的信息,并将抽取结果以统一的结构化形式表示。目的在于将Web编程与信息检索和数据挖掘相结合起来,形成一个集成化的表示系统。意义在于提高学生的Web编程能力和Web信息检索能力。

关于信息抽取的概念有多种描述方式。1997年,Proteus工程的创建者Grishman描述信息抽取的概念:信息抽取涉及到为从文本中选择出的信息创建一个结构化的表示形式(比如:数据库),微软亚洲研究院2005年信息抽取技术暑期研讨班将信息抽取的概念描述为:信息抽取是抽取和链接基于用户详细说明的相关信息的过程。结合种种对信息抽取概念的描述,以及过去2O年里一系列的消息理解会议(Message UnderstandingConference,MUC)对信息抽取的讨论,我们可以将信息抽取的概念界定为:(文本)信息抽取(Information Extraction,IE)是指从一段文本中抽取指定的一类信息(例如事件、事实),并将其形成结构化的表示形式(比如数据库等)供用户查询使用的过程。

2. 国内外研究现状分析

从2O世纪8O年代末开始,信息抽取系统研究蓬勃开展起来。1、SRI组织的FASTUS系统SRI的FASTUS系统是一个从自然语言文本中抽取信息并将抽取的信息输入数据库或者作一些其他应用的系统,以一种级联的,非确定性的有限状态自动操作的模式操作,属于纯粹的模板匹配,它与原来的TACITUS系统(该系统是基于理解的系统)相比,不仅速度快了许多倍,而且准确率和召回率高许多。2、Cymfony公司的InfoXtract系统InfoXtract系统是一个领域独立、可定制、可移动的中间级的信息抽取引擎,它把语法规范和机器学习融为一体,代表了信息抽取的一个超级模型,并支持开放领域的问题回答(Question Answering)。它的主要特征之一就是能够快速地为一个特殊领域定制信息抽取引擎。3、BBN公司的SIFT系统从MUC一3开始,BBN公司在信息提取过程中逐渐增加统计训练的份量。在MET一1中,BBN的命名发现结果就已经是纯统计的输出了,基于HMM的模型和使用统计方法的Identi Finder模型也用在了MUC一7的NE任务中。针对MUC一7的TE和TR任务,BBN开发了SIFT(Statistics forInformationFrom Text)以代替需要手写模式的PLUM模型。SIFT完全采用统计的方法,代表了在这个发展方向上跨出的重要一步,它是一个单一的集成训练模型。4、国内要就概况国内对中文信息提取系统的研究起步较晚,还集中在命名实体识别方面,遵照MUC规范的完整的中文信息提取系统目前还处于探索阶段。Intel中国研究中心在ACL一2000上演示了他们开发的一个抽取中文命名实体以及实体间关系的系统。在MUC一6和MUC一7上,增加了中文系统的评测项目,国立台湾大学(National Taiwan University)和新加坡肯特岗数字实验室参加了MUC一7中文命名实体识别任务的评测,测试了中文命名实体(人名、地名、时间、事件等名词性短语)的识别,取得了与英文命名实体识别系统相近的性能。当然,这只是对中文信息提取作了比较初步的工作,并不能真正进行中文信息提取。另外,北京大学计算语言所对中文信息提取也作了比较早的和比较系统的探讨,承担了两个有关中文信息提取项目的工作,即自然科学基金项目中文信息提取技术研究和IBM一北大创新研究院项目中文信息提取系统的设计与开发。其目标是研究中文信息提取中的一些基础性和关键性的问题,为开发实用的信息提取技术提供理论指导,并具体探讨信息提取系统设计的各个环节。

3. 研究的基本内容与计划

研究内容:

1、微博爬虫设计

爬虫功能:和其他网络爬虫类似,用于爬取微博用户公开信息,包括微博用户的个人信息、微博信息、粉丝和关注。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

随着互联网的不断发展,Ajax技术获得了广泛应用。Ajax采用JavaScript驱动的异步请求/响应机制,而传统爬虫缺乏对Javascript语义上的理解,无法模拟触发Javascript的异步调用并解析返回的异步数据。此外在Ajax的应用中,Javascript会对DOM结构进行大量地变动,通过DOM操作动态更新页面内容,而传统网络爬虫默认页面的DOM结构是相对静态不变的。Ajax技术的应用给传统网络爬虫造成很大障碍,必然影响搜索引擎的信息采集。而且由于异步的JavaScript是AJAX框架网站的构建基础,而传统的Web信息抽取并不能抽取出AJAX框架网站中的信息。这就出现了传统的Web信息抽取对AJAX框架网站无能为力的同时基于AJAX框架网站又不断的涌现。那么就意味着传统的Web信息抽取技术无法抽取出用户感兴趣的有用信息。针对上述问题,本文通过HTTP请求,获取网页源代码信息。构建DOM树并对页面进行分析处理,去掉噪声信息。通过遍历DOM树提取其中JavaScript脚本代码和文件。构建浏览器内置对象,然后利用开源的脚本解析引擎Rhino跟踪执行这些JavaScript代码,从而实现Ajax页面内动态加载的超链接地址的获取。并进一步对解析后的页面采用XPath表达式快速定位需要抓取的内容,生成抽取规则,以XML格式存储抽取规则和数据,并使用XSLT进行转换最终以HTML页面的形式呈现。最终解决Ajax网站中URL获取以及动态内容的获取。本文在对传统信息抽取技术进行分析的基础上提出了基于AJAX的Web信息抽取技术,并达到了抽取AJAX框架网站信息的目的。对页面分析,页面处理、规则生成等模块之间的相互操作提出了理论支持及技术方法,为AJAX框架网站的信息抽取提供了解决方案并简单的设计了针对AJAX框架的信息抽取系统。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版