1. 研究目的与意义(文献综述)
知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它能为学科研究提供切实的、有价值的参考。
一方面,随着金融科技的发展和全球资本市场的不断扩大,在金融领域,每一天都有海量的数据产生,而与之形成强烈对比的是有限的人力以及人脑所能处理信息的极限能力。现阶段依靠传统的人工方式已经无法应对投研分析、风险控制、金融监管和事件关联等需求,如何引入新的技术提高信息处理效率是目前亟需解决的问题。知识图谱作为近几年提出的一种新的自然语言处理技术,通过结构化的架构描述海量文本中蕴含的相互关系,有利于提高金融文本的处理效率。
目前国外主流的知识图谱平台有dbpedia和yago。dbpedia是一个大规模的多语言百科知识图谱,可视为是维基百科的结构化版本。dbpedia使用固定的模式对维基百科中的实体信息进行抽取,包括abstract、infobox、category和 page link等信息。yago是一个整合了维基百科与 wordnet的大规模本体,它首先制定一些固定的规则对维基百科中每个实体的infobox进行抽取,然后利用维基百科的category进行实体类别推断。获得了大量的实体与概念之间的 isa 关系。
2. 研究的基本内容与方案
2.研究(设计)的基本内容、目标、拟采用的技术方案及措施
2.1.研究(设计)的基本内容、目标
随着金融科技的发展和全球资本市场的不断扩大,在金融领域,每一天都有海量的数据产生,而与之形成强烈对比的是有限的人力以及人脑所能处理信息的极限能力。现阶段依靠传统的人工方式已经无法应对投研分析、风险控制、金融监管和事件关联等需求。知识图谱作为近几年提出的一种新的自然语言处理技术,通过结构化的架构描述海量文本中蕴含的相互关系,有利于提高金融文本的处理效率。现阶段较成熟的实体关系抽取模型是以双向长短期记忆网络算法(BiLSTM)为基础,以此为研究起点并完成相应改进。
本次设计需要解决的难点包括:
1.金融文本数据的采集
2.金融实体间的关系抽取
3.知识图谱的构建
2.2.技术路线
2.3.拟采用的技术方案及措施
2.3.1.采集相关文本数据
在金融文本数据采集领域,目前主流的金融信息主要来自于各上市公司官网所公布的年度报告;或主流媒体如微博,微信公众号所发布的相关新闻信息,以及政府部门所公布的具体信息。为批量获取相关信息,本次设计计划使用Python平台所提供的Request等第三方库向网页发出请求,根据新闻消息公布的URL地址访问相关网页并获取文本信息。并且保存相关的文本信息便于后续的训练样本的标注以及最后知识图谱的搭建。
2.3.2.句子实体关系的提取
在实体关系抽取方向,基于自然语言处理领域的相关算法。本次设计计划借助word2vec库将文本信息映射为多维向量从而搭建神经网络的Embedding层,实现文本信息到向量数据的转换。
获取文本的向量信息后进行双向长短期记忆网络的搭建。由于文本信息普遍较长。若使用RNN模型可能会出现梯度爆炸或梯度消失的情况,因此利用BiLSTM网络中的遗忘门功能可以解决上述缺点。而且双向的LSTM网络可以同时捕捉前文和后文信息对当前信息的影响,从而获得每一单词的特征值。在本次设计中利用Keras库中的LSTM模型实现嵌入层的搭建。
获得文本信息的特征值后进行采用条件随机场(CRF)层以及注意力(Attention)层的神经网络的构建。在文本实体提取方面采用采用条件随机场(CRF)模型。在获取文本信息的特征值后通过预训练获得文本信息属于各个类别的可能性,利用马尔可夫模型以及概率计算的方式推算出其具体属性实现实体分类功能并获取文本中的句子成分,例如人名,地名,动词等。通过CRF模型结合BiLSTM模型可实现文本信息中实体提取。
在文本实体关系抽取方面采用注意力(Attention)模型。神经网络文本语言进行识别时,每次集中于部分特征上,识别更加准确。因此注意力模型的结果就是在每次识别时,首先计算每个特征的权值,然后对特征进行加权求和,权值越大,该特征对当前识别的贡献就大。通过特征值的比较分析得到句子之间实体的关系。通过Attention模型获取文本信息的关系抽取。
2.3.3.知识图谱的构建
将Attention层获取的实体关系以及CRF层获取的实体信息组合构成一个完整句子的三元组并将具体信息存储为csv文件用于知识图谱搭建。
构建知识图谱方向,目前主流的图数据库是NEO4J,NEO4J是一个高性能的NOSQL图形数据库,它将结构化数据存储在网络上而不是表中,可以应用更加敏捷和快速的开发模式。因此可以将获取的实体与实体之间的关系信息存储到csv等文件中,并且将其导入NEO4J数据库并且利用MYSQL语句批量实现金融知识图谱的搭建。
3. 研究计划与安排
3.进度安排
第1周-第3周:查阅相关资料,了解知识图谱的发展历程,确定拟使用的相关研究模型并完成开题报告
4. 参考文献(12篇以上)
4.参考文献
[1]ccks2018知识图谱发展报告
