面向特定领域的知识图谱构建开题报告

 2021-08-14 02:38:40

1. 研究目的与意义(文献综述)

随着互联网中信息的飞速增长,互联网已成为人类获取知识和信息的最重要的途径。然而,随着信息的爆炸式增长,从海量信息中寻找有效需求信息变得越来越困难,为应对这种困难人们设计了搜索引擎。虽然其一定程度上解决了用户从互联网中获取信息的难然而,这些传统的搜索引擎的局限性也非常明显。搜索引擎并不对搜索查询目标进行深入理解,只是简单对字符串或关键词进行搜索,返回的对象为包含这些关键词的页面,所以在搜索准确度上存在明显缺陷。造成这种显现的原因是网页形式的数据虽然易于人类理解,却无法被计算机有效识别。为了解决互联网信息的语义问题,人们提出了下一代互联网——语义的概念,其已经成为标准。在语义中,所有的信息都具备一定的结构,这些结构的语义通常使用本体来描述,当信息结构化并具有语义后,计算机就可以理解其含义并对其进行有效检索了。

在此基础上,知识图谱的概念被提出,其初衷是改善搜索结果。知识图谱可以看成是一张巨大的图,图中的节点表示实体或概念,而图中的边则由关系构成。按照覆盖面,知识图谱可以分为通用知识图谱和行业知识图谱。目前已经发布的知识图谱基本都是通用知识图谱,它强调的是广度,因而强调更多的是实体,很难生成完整的全局性的本体层的统一管理,主要应用于搜索等业务,对准确度要求不是很高。行业知识图谱则相反其对准确度要求非常高,通常用于辅助各种复杂的分析应用或决策支持

互联网大数据背景下,数据的类型包括结构化数据、半结构化数据和非结构化数据,这些数据的最重要的特点为数据量大、结构复杂多样和缺乏语义,因此这些数据的使用非常困难。而只是图谱是一种有效的知识组织形式,其在语义检索、数据挖掘、人工智能、知识组织和智能问答等领域的应用非常广泛的应用。本毕业设计的目的为搭建特定领域知识图谱,对特定领域内多源多类型数据进行整合理解,并提供简单地查询应用。当知识图谱搭建完成后,可在其上语义检索、知识导航、决策支持、数据挖掘等衍生任务。

2. 研究的基本内容与方案

毕业设计的主要内容为特定领域知识图谱的搭建及简单的查询、可视化应用。其中知识图谱搭建过程包括数据获取、清洗、本体构建、实体关联等。知识图谱的应用则包括提供网络查询接口,数据组织及可视化等模块。其主要内容如下:

1. 从互联网获取特定领域下的数据,原始信息的准确性直接影响知识图谱质量,互联网信息纷繁复杂,页面中的信息分为结构化信息,半结构化信息及非结构化信息,本部分目标为从互联网上获取特定领域内的结构化信息作为搭建知识图谱的原始数据

2. 构建本体并进行实体对齐、关系提取。通俗地说,本体描述了知识图谱的概念和概念间的关系,其中的概念既可以是某种分类层次也可以是描述的实体。来自互联网的信息有不同的结构,不同来源的信息间有可能有重复信息,本体地构建不只是确定知识图谱的结构,还要完成多源信息的对齐及实体关联任务。

3. 提供网络查询服务,为了在知识图谱构建完成后测试其效果并提供服务,要搭建web框架提供基于网络页面的查询及数据可视化服务

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

1.2016.3.1~2004.3.15 完成知识图谱构建的调研

2.2016.3.15~2016.3.31 学习python语言及web框架、图数据库

3.2016.4.1~2016.4.7 获取构建知识图谱所需源数据

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1].万晶晶. 基于知识图谱的我国产学研合作研究现状分析[j]. 情报探索, 2014(7):55-60.

[2].庄严, 李国良, 冯建华. 知识库实体对齐技术综述[j]. 计算机研究与发展, 2016(1).

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。