气象灾害在微博上传播的信息聚合研究外文翻译资料

 2022-12-10 16:23:04

英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料


在 WEB 搜索环境中的组织关键字: 共词分析 METHODOLOGYBASED

在 web 搜索环境中的组织关键字: 基于共词分析方法

摘要

快速发展的互联网和世界互联网为造成一些关键问题信息检索。研究者进行了几个试图解决这些问题。叙词表及主题标题列表作为传统的信息检索工具有被批评他们的效率来解决这些新出现的问题。本文提出了一种信息检索工具生成的共引分析,包括关键字集合与关系基于共现的关键字在文献中。这种工具可以发挥作用的联想的同义词库,可提供信息关于在一个域中的关键字 , 可能 是 有用 为 信息 搜索 和 查询 扩张。

1。 介绍

互联网和万维网的迅速发展已提振了巨大的增长和电子信息资源的可用性,也改变了人们搜索信息的方式。然而,除此之外,搜索和检索所需的信息与相关的新问题出现了。研究人员已经几次试图解决这些问题。

叙词表和主题标题列表已编制索引,并也为用户在查询公式,查询扩展,和等提供支持的不一致的问题长时间解决在图书馆和信息世界中用于。然而,现有的叙词表往往代表一般主体区域, 因此他们通常需要显著增强要量身定做到一个特定的应用程序。结构的叙词表,尤其是描述符之间的关系是也质疑的红外光谱研究人员(哈特 amp; 程,1996年)。与快速发展的各种专门的领域,更多的和更多新的理念、 方法、理论或新子域新兴制作同义词库日。建立或修改叙词表是极其耗时和劳动密集型。陈 amp; 林奇 (1992) 指出 出 , 之间 主要 原因 到 导致 的信息检索缺乏明确的语义聚类的或联系之间相关信息和限制的困难常规关键字驱动搜索技术。在人工智能实验室的一个研究小组,亚利桑那大学对进行了研究自动叙词表 (陈、盐田,报表 amp; 宝贝,1995年)。这种自动生成同义词库组件具有重要的作用在搜索的词汇解题信息中检索。具体算法通过在这类研究包括词过滤、自动索引,和群集 分析, , 是 复杂 和 时间 和 资源 。

在这里我们提出另一种方式为开发工具,包括关键字集群与基于共现的关键字在文学的关系。这种工具可以发挥联想的同义词库可以提供有关的关键字可能有用的信息搜索和查询扩展域中信息的作用。我们的方法基于文献计量学共词分析方法,通常用于分析文件以便找出描述其研究内容和链接文件的关键字,这些关键字来产生一个专业 (国王,1987年) 地图索引 共生的程度。在这里我们有应用这种技术来识别单词间的关系,并创建可用于进行信息检索的关键字映射。

在此研究中,我们选择了信息检索 (IR) 作为域。本文的第一部分简要讨论了在信息检索领域共词分析。然后,共词分析的结果被相比传统叙词表找出差异。最后一部分报告文献计量学信息检索系统的组织和显示信息在 web 环境中搜索的关键字集合。

2. 方法

红外文件取自 SCI (科学引文索引),SSCI (社会科学引文索引) 涵盖 1987年-1997 年期间。检索并没有任何文摘的文章数目或被书评,编辑,会议摘要,通讯或笔记被排除。最后,2,012 的文章被选为共词分析样品。在每一个这些文件,我们不只接受通过 SCI 和 SSCI 数据库索引器添加的所有关键字但有还提取重要的关键词从标题和摘要手动。所有这些关键字被规范化使用丽莎词库,LCSH (图书馆国会主题标题) 和同义词库的信息技术术语 (TITT),使其一致 (单数/复数),统一 (同义词),并尽可能明确 (同音)。

3,227 独特的关键字共收集从空房 2,012 条款。在这些文献中,一些相关的概念由不同的词或短语。这种词汇或短语进行标准化处理,从将代表他们,如从丽莎同义词库,LCSH 和 TITT 词的词汇工具选择一个适当的标题。下面的示例说明了过程:

· 同义词: 引文 引文分析= 引文分析;语言学 语言分析= 语言分析; 导航 浏览 = 浏览;查询 搜索 = 搜索;相关搜索 相关反馈 =相关反馈;数字图书馆的概念 电子图书馆 = 数字 图书馆;

· 反义词: 布尔策略 非布尔策略 = 布尔的战略;所以 上。

· 含糊不清: 策略 搜索策略 = 搜索;光盘 光盘数据库 = CD-Rom;用户艾滋病 用户指南 = 用户培训;所以 上。

· 广泛的术语/缩小词:检索性能措施 绩效 = 性能的措施;最终用户 用户 = 用户;自动索引 索引 = 索引;研究 学生

外国学生 = 学生;教育活动 教育 = 教育;学校的孩子 孩子 = 儿童;光碟 光盘 = 光盘;等等。

· 请参阅 或 看到 而且 词: 信息工作 参考 工作 = 信息工作; 条款 关键字 = 关键字;所以 上。

· 使用或使用的术语: 本科学生 学生 = 学生;所以 上。

· 其他:检索效果评价 性能措施 = 性能的措施;用户组 用户

= 用户;用户需求 用户满意 = 用户需求;等等。

一般条款被排除在外,如: 知识、 理论、 测试、 影响、 项目、 标准、 发展、 错误、应用程序,生产、 竞争、 状态、 执行、 定义、注释和这样 上。

与他们广泛的条款合并的频率的一个或两个字。频率的一个或两个,在我们的列表中没有任何广泛或类似的词与词被忽略了。最后,240 关键字的两个以上的频率与被选为研究样本共词分析。为比较这些词聚类共词分析的基础的动态特征,我们分为整整 11 年期两个连续的部分: 第一个五年计划期间 (1987 年-1991 年) 和第二个六年期 (1992年-1997 年)。

专门构建的 Foxpro 程序被用来计算两个关键字一起出现在同一出版物的次数。因此,我们已经形成 240 * 240 关键字-同现矩阵。在关键字 X 和 Y 关键字的细胞我们放同现频率的 X 和 Y。矩阵的对角值被视为丢失的数据 (麦凯恩,1990年)。矩阵采用皮尔逊相关系数表明相似性和差异性的每个关键字对相关矩阵转化。所以每个关键字有自己相关的关键字。但不同于传统的同义词库,建立了由领域专家,这是更像词表自动提到之前,因为两者都基于词同现,可以建立自动 (陈、 盐田、 报表和宝贝,1995年)。

泥炭和威利 (1991 年) 发现类似条款由对称同现功能标识倾向非常频繁地发生在被搜索的数据库中,因此很少或没有改善原始查询的歧视性力量。他们还得出结论,这可以帮助解释 Sparck 琼斯 (1971 年) 的调查结果,得出的最佳的检索结果如果只少经常发生条款被聚集,并且如果更加频繁地发生条款被留下非聚簇索引。这也发生在这项研究。为了减轻这种负面影响,我们重新计算同现频率与索尔顿索引,可以避免高频词汇研究样本 (Noyons amp; 范交点,1998年) 几乎每个其他关键字链接。

为每个关键字在研究样本中每个时期的研究 (1987年-1997 年,1987 年-1991 年和 1992年-1997 年),我们选择顶尖 20 个单词 (20 岁) 与索尔顿指数高与此关键字与它相应的语义描述符为三个选定的传统叙词表 (TT) 进行比较。在每个单一的同义词库中的一些词的语义描述符是很少或甚至为空,我们结合语义描述符的这三个传统叙词表 (丽莎同义词库、 LCSH 和 TITT) 研究中的每个字样品和减少到表单一整个语义集比较语义重复。通过这两组数据的比较,我们想要找的共词分析与传统叙词表的区别。

3. 结果

与传统叙词表比较共词分析

第一,我们比较共词分析与传统叙词表观察他们(表 1) 之间的差异。为每个期间,围绕示例关键字 50%有相似之处,在其 20 多岁和 TT,但平均每个样品关键字相似性是非常低。这意味着, 协会的词由标识 共词分析了不同于那些从获得传统叙词表。一个重要的结论,走出来,这种比较是有存在的区别共词分析和传统词典。结论是陈的结果 (陈、 吴、 马丁内斯,宝贝,1997年)。它表明,共词分析可以成为一个重要的工具,以支持传统的同义词来生成搜索品种。

表 1。共词分析与传统叙词表的比较

期间

示例关键字

与相似的关键字

关键字与最低相似性

关键字与最高的相似性

平均的相似性

不。

%

不。

相似性

不。

相似性

1987-1997 年

216

102

47.2%

60

5%

2

25%

7.9%

1987 年-1991 年

176

75

42.6%

20

5%

1

100%

12.4%

1992-1997 年

216

92

42.6%

52

5%

1

33%

7.9%

共词分析随着时间的推移的变化

第二,我们比较共词分析不同时期察觉其中 (表 2) 的动态变化。这两个单独的期间,(五年和六年) 有高相似性与整个期间 (11 年)。但两个不同时期的结果,没有那么相似。因此,这种比较捕获共词分析的变化。换句话说,共词分析可以捕捉其域区域,以便为用户提供更好和及时的信息指南的变动。

表 2。共词分析三个不同时期的动态变化

时期

示例关键字

与相似的关键字

关键字与最低相似性

关键字与最高的相似性

平均的相似性

不。

%

不。

相似性

不。

相似性

1987-1997 年

vs。

1987 年-1991 年

193

192

99.5%

1

lt; = 10%

4

gt; 90%和

lt; = 100%

52.2%

1987-1997 年

vs。

1992-1997 年

239

239

100%

1

gt; 30%和

lt; = 40%

61

gt; 90%和

lt; = 100%

83.6%

1987 年-1991 年

vs。

1992-1997 年

192

168

87.5%

14

lt; = 10%

1

gt; 60%和

lt; = 70%

26.1%

<!--

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[27523],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版