关于HTML文件元数据标签的合成外文翻译资料

 2023-03-15 03:03

关于HTML文件元数据标签的合成

原文作者 Patricia Jimeacute;nez ;Juan C. Roldaacute;n ;Fernando O. Gallego ;Rafael Corchuelo

摘要:摘RDFa、JSON-LD、Microdata和Microformats允许为HTML文件中的数据赋予元数据标记,以帮助软件代理理解它们。不幸的是,有许多HTML文件没有任何元数据标记,这促使许多作者致力于合成这些建议。

但他们也有一些问题:作者要么提供了他们的设计的整体图片,而没有太多的细节在幕后的技术,要么关注技术,但没有描述支持它们的软件系统的设计;它们中的许多不能处理使用半结构化格式(如表单、清单或表)编码的数据;而少数能够在表上工作的提案只能处理水平列表。在本文中,我们描述了一个系统的设计,该系统使用一种新的嵌入方法克服了以前的限制,这种方法已经被证明在存储库中使用从40个不同的ent站点随机选择的HTML文件时,其性能优于四种最先进的技术。根据我们的实验分析,我们的方案可以获得比其他方案高出10.14%的F1成绩;这一差异在标准置信水平上被证实具有统计学意义。

关键词:嵌入技术,HTML文件,元数据标签

1. 介绍

通过元数据标记,可以很容易地赋予HTML文件中的数据语义。这些标记将提供数据的HTML元素链接到知识图中相应的实体或模式中相应的类型。简单地说,它们为软件代理铺平了道路,这些代理可以很容易地在网络中筛选并理解它提供的对人类友好的HTML文件中的数据。元数据标签通常使用RDFa编码,JSON-LD,微数据,或Microformats.1例如,图1显示了一个示例HTML文件,它使用RDFa:词汇属性的li元素表明,它们包含的数据可以按照一种名为example.org所提供的酒店模式;span元素中的属性属性指示它们提供的是酒店名称还是邮政编码。图1B显示了浏览器如何呈现这个HTML文件。注意,没有显示元数据标记,但是软件代理可以读取它们来理解数据。搜索引擎是一种特殊的软件代理,它从这些元数据标签中获益,因为它们帮助搜索引擎构建信息框,为其问答系统提供信息

截至2013-14年,元数据标签已经被大约50%的10000个最流行的网站采用,这意味着有数十亿的HTML文件,其数据可以很容易地被许多软件代理理解。不幸的是,这并不意味着它们在一般Web中如此普遍。最近,2019年11月Common Crawl对3204万个域名进行的一项分析显示,只有1192万个域名提供元数据标签1,这显然表明需要一种方法来帮助软件代理处理其余2012万个域名提供的文档。

在文献中,有一个由Dodero等人提出的软件工程建议5,它只能在生成HTML文件的系统可以被重新设计时使用,而通常情况下并非如此。其他的建议可以插入到现有的系统中,而无需进行任何再工程。其中一些以内容管理系统为目标,并专注于内容是用自然语言编写的文件,即:Adrian等人6和Ngomo等人7设计了两个组件,它们拦截系统输出的HTML文件,并自动赋予它们元数据标签;此外,Eldesouky等人8和Guerrero-Contreras等人9设计了两个文本编辑器,帮助作者向文本添加元数据标签。也有一些建议关注以半结构化格式编码的数据,即:Burget10和Efthymiou等11提出了两个建议,试图将HTML文件中的数据记录链接到知识图中的实体;也就是说,它们不能提供元数据标记,除非知识图中有匹配的标记。最近,Oulabi和Bizer 12提出了一个方案,该方案克服了之前的问题,因为它可以识别不在知识图中的新实体,并将它们的属性映射到相应的模式上;不幸的是,它只能处理数据记录水平排列的表,并且标题提供了在知识图的模式中找到元数据标记的线索。

在本文中,我们介绍了一个合成元数据标记的系统,该系统不需要任何知识图,也不需要特定的布局。它的设计由三个部分组成:数据处理器、学习者和标记器。它们提供了几个通过消息队列进行通信的服务,这有助于组装一个可以在分布式系统上轻松部署和运行的微服务体系结构。它最新奇的组成部分是学习者;它有助于学习使用新标签模型图嵌入技术,相反的其他文字真正的,能找到的长度自动嵌入,保留原嵌入属性和分类能力,和学习一个可重用的标记模型,该模型可以应用于类似的HTML文件。我们已经试验了我们的建议和四个最先进的嵌入在一个存储库与HTML文件随机选择从40个不同的网站;我们的目标是用尽可能多的布局来面对我们的提案,并从尽可能少的文档中学习标签模型。我们的结论是,我们的方案可以从最少6个随机文档中学习标签模型,并且可以获得比其他嵌入器好10.14%的F1分数。(先前的差异通过假设检验被确认为具有统计学意义。)总结:我们提供了一种新颖而有前途的方法来为HTML文件合成元数据标签。

文章的其余部分组织如下:第2节报告了与合成元数据标签或计算嵌入相关的工作,然后讨论了它们,并将它们与我们的建议进行了比较;第3节提供了我们设计的总体图,并描述了其组件的细节,包括它们的服务、通信图和数据模型;第4节描述了我们设计的关键服务背后的算法;第5节报告了我们的实验设置,我们的实验结果,并使用统计合理的方法分析它们;最后,第6节给出了我们的结论和一些未来的工作。有一个附录,报告了用于学习标签模型的属性目录。

2. 相关工作

在本节中,我们首先总结我们在文献中发现的标签建议;然后我们报告当前的图形嵌入方法;最后,我们讨论了相关的工作,以便把我们的建议放在一个适当的背景下。

2.1标签建议

最早的提议之一是由Dodero等人提出的,他们描述了一种方法,可以用来重新设计软件系统,从而生成带有元数据标记的HTML文件。这是一种并不普遍适用的软件工程方法,但只适用于公司对更新系统感兴趣的时候。因此,我们将注意力限制在可以插入现有系统的建议上;简单地说,这些建议可以帮助为HTML文件合成元数据标签,而无需重新设计生成它的系统。

最早的此类提议集中在内容管理系统上,其中数据以自然语言写成 10的文本进行编码。Adrian等人提出了一种方法,将HTML文件中的名词短语与知识图中的数据属性值进行匹配。他们建议的复杂部分是他们的启发式tic来解决歧义,它选择匹配,导致知识图中相关实体的尽可能多的数量。这个想法是后来发表的更复杂的方法的核心。Ngomo等人提出了一个组件的体系结构,该组件基本上是清理输入的HTML文件,然后运行一些自然语言处理工具来查找单词、句子、命名实体或关系,这些信息被输入到前馈神经网络中,这些神经网络合成元数据标签。Eldesouky等人8和Guerrero-Contreras等人9提出了两个类似的建议,因为他们的目标是创建一个编辑器,帮助内容生产者在不需要任何底层技术知识的情况下在文本中包含元数据标记。不幸的是,他们的文章描述的是他们的工具的体系结构和功能,而不是幕后技术的细节。

最近的方法主要关注使用规范表、记录清单或表呈现的半结构化数据。Burget10设计了一个方案,将输入的HTML文件分解成不重叠的矩形区域。对于每个区域,它计算其边界、文本、一些样式属性和内部框;然后使用DBpedia Spotlight为每个区域分配一组候选标记,DBpedia Spotlight是一种常规的基于模式的实体识别器,分类器使用字体、颜色、位置或词汇属性等属性进行训练。然后使用一些样式一致性和定位启发式方法消除标记的歧义。Efthymiou等人最近提出的另一个方案关注于表中编码的数据。他们提出了解决该问题的三种基本方法和一些组合,即:查找方法、单词嵌入方法和本体匹配方法。该查找方法试图将行单元格中的数据与知识图中实体的数据属性值相匹配;消除歧义的方法是找到几乎可以统一标识每个记录的最小单元格集。词嵌入方法首先通过对实体属性的随机遍历,将实体嵌入到知识图中;然后,它通过连接相应的列找到表的行嵌入;考虑到前面的两种嵌入,使用距离函数找到每一行对应的实体是相对容易的。本体匹配方法使用列标题作为候选属性名,然后运行第三方本体匹配工具来查找知识图中列和属性之间的对齐方式。最近,Oulabi和Bizer12提出了一个同样关注表格的提案。它首先执行模式匹配,试图找到最能描述表及其列的类;然后,它使用各种评分、分组、选择和融合技术来确定哪些细胞可以被分组并视为单个实体;最后,它检查表中的哪些实体不能映射到知识图中的任何实体上,然后可以认为是新的。

2.2嵌入方案

一般来说,嵌入是一种将多维对象映射到保持原始对象之间距离的低维对象的函数。使用嵌入已经被证明是非常有用的学习分类器,这是不可能学习使用原始对象。通常,机器学习技术处理由实数向量组成的数据集;也有一些技术可以处理类别或序数分量的向量;但是,并没有太多的建议可以使用相关的数据。嵌入技术可以很容易地将这些相互关联的数据转换成实数向量,分类器几乎可以使用任何机器学习技术来学习这些向量。

我们对用于图形的嵌入技术很感兴趣,因为HTML文件可以自然地表示为dom树,这是一种特殊的图形。请注意,为HTML文件合成元数据标签基本上就是找到最能描述其DOM节点的标签。(不失一般性,我们可以假设拥有不相关数据的节点被标记为空标签)。也就是说,图嵌入技术在理论上可以帮助学习相应的分类器。遗憾的是,我们还没有在文献中发现任何将图嵌入技术应用于HTML文件元数据标签合成的记录,这使我们的研究具有创新性。(回想一下Efthymiou等人曾尝试过一种方法,将嵌入用于查找相似的文本,而不是合成元数据标签。)

文献中的建议是关于形式为(N,E,A)的图,其中N表示节点的集合,E表示某些节点之间的边的集合,A是一个赋予每条边一个属性的函数。Wang等人13发表了一项调查,其重点是嵌入图形的技术,其中边缘属性是赋予图形语义的标签;Goyal和Ferrara14提出了一个类似的调查,重点是嵌入图形的技术,其中边缘属性是权重,表明连接节点的相似程度;Cai等人15提出了一个额外的调查,其重点是形式化不同类型的图和嵌入表示在文献中。这三项调查一致认为,最常见的计算嵌入的方法依赖于所谓的因子分解方法、结构保持方法、随机漫步方法和深度学习方法,但也有一些混合方法;不幸的是,它们中没有一个通常优于其他的,这意味着有必要进行一些实验来找出最适合每个场景的方法。

2.3讨论

令人有点惊讶的是,只有Dodero等人的提案从工程的角度描述了解决方案。其他的则提供了作者所设计的工具的浅显描述,或者专注于幕后的技术,而没有提供如何将它们转化为可工作系统的线索。不幸的是,Dodero等人的s5建议只适用于生成HTML文件的系统可以被重新设计为生成元数据标签的环境,而通常情况下并非如此。我们的方案是一个系统,我们提出了一个微服务体系结构,并对其核心组件进行了全面描述,以学习元数据标记;它不需要对现有系统进行任何再工程。

Adrian等人的建议似乎是开创性的,因为他们引入了在HTMLfile中查找与知识图中的实体相匹配的文本片段的想法。最近由Ngomo等人,7 Eldesouky等人,8 Burget,10Efthymiou等人,11或Oulabi和Bizer12提出的建议,在他们用来寻找匹配和/或解决歧义的机制方面基本上是不同的。不幸的是,Adrian et al.、6 Ngomo et al.、7或Eldesouky et al.等人的建议不能应用于我们的环境中,因为他们都要求数据使用自然语言的句子呈现。在我们的上下文中,我们必须处理规范表、记录列表或表中的半结构化数据,它们是非语法编码。Burget10的提议是唯一可以在这种环境下工作的,因为它使用了DBpedia Spotlight组件来提供关于它生成的候选标签的额外线索,但他们的技术可以使用他们的规则模式实体识别器和分类器中的其他线索,它假设数据是使用半结构化布局呈现的。问题是,它需要一个知识图,为输入HTMLfiles中的每一段数据提供实体。这不仅在处理非常特定的领域时是一个问题,而且在处理现有知识图不够完整的一般领域时也是一个问题。例如,Oulabi和Bizer12分析了三个被DBpedia知识图支持得很好的通用领域;不幸的是,他们在HTMLfiles中发现了206690个实体,在知识图中找不到任何匹配。Efthymiou等人的建议11和Oulabi和bizer的建议12也可以用于半结构化上下文;不幸的是,它们只能处理顶部有标题并水平排列数据记录的表。我们的建议是专门为使用HTML编码的半结构化数据而设计的,它不假设这些数据使用任何特定的布局进行排列。

图嵌入技术在这个上下文中特别有趣,因为合成元数据标记可以被解释为一个节点分类问题。图嵌入技术允许将图的DOM节点映射到嵌入图上,使用许多现有的机器学习技术,从嵌入图中学习分类器相对容易我们使用一些最先进的图形嵌入器和许多机器学习技术实现了一个标记器,但结果并不好,因为在我们的实验研究中获得的最好的F1分数是0.69。我们认为这种嵌入器的问题是多方面的,即:首先,它们要求用户预先设定嵌入的长度,这是有问题的,因为它需要执行网格搜索来找到一个通常不是最优的长度;其次,它们试图保持边缘连接的DOM节点之间的距离,这需要将原始属性转换为实值属性,从而失去了原始的分类能力;第三,但同样重要的是:他们学习的不是可重用的嵌入模型,而是只能应用于学习他们的图表的嵌入模型;简单地说:我们需要合成元数据标签的每个HTML文件必须独立地分析dently。我们的方案自动计算最优嵌入长度,保留原始属性,学习可重用标签模型。

总结:我们描述我们的建议以及如何把它变成一个工作系统,不需要我们解决半结构式数据编码使用一个特定的布局,我们使用一个新的嵌入技术,不需要预设嵌入的长度,保持原来的属性,并可以学习可重用标记模型;此外,我们的实验证

剩余内容已隐藏,支付完成后下载完整资料


英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[595997],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。