面向知识库问答的查询图构建方法研究文献综述

 2023-08-04 12:01:48
  1. 文献综述(或调研报告):

自动问答系统(Question Answering System,QAS)作为新一代的信息检索系统,是自然语言处理与人工智能相结合的产物,它允许用户使用自然语言问句提问,并将准确、简洁的检索答案返还给用户。[1] 早期有一些基于知识库的问答系统研究,包括基于本体的问答系统,受限语言的数据库查询系统,问答式专家系统等。这些系统可以在特定的领域中达到比较好的性能。

由于利用知识图作为信息来源的系统的复杂性可能相当大,我们通常将整个任务分割为按顺序执行的多个子任务,包括命名实体消歧(NED)、关系抽取(RE)和查询生成(QG)等[2]。但是,这种分割很少能与应用系统架构中的模块相对应,这导致了较差的系统扩展性。为了解决这个问题,研究人员提出了QA模块化框架[10,11]来实现可重用组件(如OKBQA),但其中查询生成部分很少被关注。例如,OKBQA包括24个可重用的QA组件,其中只有一个是查询生成器。随着问题复杂性的增加查询生成任务面临以下挑战[2,12]:

1. 应对大规模知识库:由于现有的开放域知识库(如DBpedia和Freebase)的规模非常大,需要对大规模知识库特别考虑。

2. 问题类型的识别:例如,可能遇到需要返回布尔型答案的问题,因此应该执行查询构造以生成所需的答案。

3. 处理噪声注释:处理一组注释(包括几个不正确的注释)的能力可能会增加QG构造正确查询的机会。

4. 为支持更复杂的问题,需要特定的查询功能,如聚合、排序和比较。

5. 输入问题的语法歧义:例如,如果忽略了问题的句法结构,“Who is the father of X?”可能会被解释为“X is the father of who?”。

在面向大规模知识库(KB)问答流水线上的QG过程中,尤其是在具有干扰标注和复杂句子结构的问答QG过程中,SQG展现出较好的效果[3]。SQG是一个具有模块化架构的SPARQL查询生成器,可以方便地与其他组件集成,从而构建功能齐全的问答流水线。SQG可用于大型开放域知识库,通过基于不确定输入(从NED和RE组件接收)发现最小子图来处理有噪声的输入。这种能力允许SQG考虑一组候选实体/关系,而不是最可能的实体/关系,这将显著提高QG组件的性能。将一个两步SPARQL查询生成器作为一个可重用的组件,可以很容易地集成到QA流水线中。在第一步中,生成一组候选查询,然后排序,该步骤根据与输入问题的依赖项解析树相关的结构相似性来排列候选查询。在实验中,SQG优于现有的查询生成方法。

捕获的子图包含多个候选遍历,对应SPARQL查询[4]。为了提高排序的准确性,我们提出了一个基于Tree- LSTM的排序模型[5],该模型考虑了问题的句法结构和候选查询的树表示,从而找到代表问题背后正确意图的树表示。因此,查询生成模块可大致分为SPARQL语句生成和排序设计两部分:

1.SPARQL语句生成

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版