搜索引擎索引外文翻译资料

 2022-11-16 15:47:21

Search engine indexing

earch engine indexing collects, parses, and stores data to facilitate fast and accurate information retrieval. Index design incorporates interdisciplinary concepts from linguistics, cognitive psychology, mathematics, informatics, and computer science. An alternate name for the process in the context of search engines designed to find web pages on the Internet is web indexing.

Popular engines focus on the full-text indexing of online, natural language documents. Media types such as video and audio and graphic are also searchable.

Meta search engines reuse the indices of other services and do not store a local index, whereas cache-based search engines permanently store the index along with the corpus. Unlike full-text indices, partial-text services restrict the depth indexed to reduce index size. Larger services typically perform indexing at a predetermined time interval due to the required time and processing costs, while agent-based search engines index in real time.

1 Index

The purpose of storing an index is to optimize speed and performance in finding relevant documents for a search query. Without an index, the search engine would scan every document in the corpus, which would require considerable time and computing power. For example, while an index of 10,000 documents can be queried within milliseconds, a sequential scan of every word in 10,000 large documents could take hours. The additional computer storage required to store the index, as well as the considerable increase in the time required for an update to take place, are traded off for the time saved during information retrieval.

1.1Index design factors

Major factors in designing a search engines architecture include:

Merge factors

How data enters the index, or how words or subject features are added to the index during text corpus traversal, and whether multiple indexers can work asynchronously. The indexer must first check whether it is updating old content or adding new content. Traversal typically correlates to the data collection policy. Search engine index merging is similar in concept to the SQL Merge command and other merge algorithms.[4]

Storage techniques

How to store the index data, that is, whether information should be data compressed or filtered.

Index size

How much computer storage is required to support the index.

Lookup speed

How quickly a word can be found in the Inverted index. The speed of finding an entry in a data structure, compared with how quickly it can be updated or removed, is a central focus of computer science.

Maintenance

How the index is maintained over time

Fault tolerance

How important it is for the service to be reliable. Issues include dealing with index corruption, determining whether bad data can be treated in isolation, dealing with bad hardware, partitioning, and schemes such as hash-based or composite partitioning,[6] as well as replication.

1.2Index data structures[edit]

Search engine architectures vary in the way indexing is performed and in methods of index storage to meet the various design factors.

Suffix tree

Figuratively structured like a tree, supports linear time lookup. Built by storing the suffixes of words. The suffix tree is a type of trie. Tries support extendable hashing, which is important for search engine indexing.[7] Used for searching for patterns in DNA sequences and clustering. A major drawback is that storing a word in the tree may require space beyond that required to store the word itself.[8] An alternate representation is a suffix array, which is considered to require less virtual memory and supports data compression such as the BWT algorithm.

Inverted index

Stores a list of occurrences of each atomic search criterion,[9] typically in the form of a hash table or binary tree.[10][11]

Citation index

Stores citations or hyperlinks between documents to support citation analysis, a subject of Bibliometrics.

Ngram index

Stores sequences of length of data to support other types of retrieval or text mining.[12]

Document-term matrix

Used in latent semantic analysis, stores the occurrences of words in documents in a two-dimensional sparse matrix.

1.3 Challenges in parallelism[edit]

A major challenge in the design of search engines is the management of serial computing processes. There are many opportunities for race conditions and coherent faults. For example, a new document is added to the corpus and the index must be updated, but the index simultaneously needs to continue responding to search queries. This is a collision between two competing tasks. Consider that authors are producers of information, and a web crawler is the consumer of this information, grabbing the text and storing it in a cache (or corpus). The forward index is the consumer of the information produced by the corpus, and the inverted index is the consumer of information produced by the forward index. This is commonly referred to as a producer-consumer model. The indexer is the producer of searchable information and users are the consumers that need to search. The challenge is magnified when working with distributed storage and distributed processing. In an effort to scale with larger amounts of indexed information, the search engines architecture may involve distributed computing, where the search engine consists of several machines operating in unison. This increases the possibilities for incoherency and makes it more difficult to maintain a fully synchronized, distributed, parallel architecture.

2 Document parsing

Document parsing breaks apart the components (words) of a document or other form of media for insertion into the forward and inverted indices. The words found are called tokens, and so, in the context of search engine indexing and natural langua

剩余内容已隐藏,支付完成后下载完整资料


搜索引擎索引

操作搜索引擎索引收集,分析,存储数据,方便快捷,准确的信息检索。指数设计结合语言学,认知心理学,数学,信息学和计算机科学的交叉学科的概念。为了设计成在互联网上找到的网页搜索引擎上下文中的过程,其中的备用的名称就是是网页的索引。

热门引擎专注于网络,自然语言文档以及全文索引。媒体类型,如视频和音频和图形也可搜索。

元搜索引擎重用其他服务的指标和不存储本地索引,而基于缓存的搜索引擎索引永久存储与其相同。不同于全文索引,局部文字服务限制索引以减少索引大小的深度。较大的服务通常是由于所需的时间和加工成本执行以预定的时间间隔的索引,而在实时的基于代理的搜索使用引擎索引。

1 索引

存储索引的目的是优化速度和性能中找到有关文件的搜索查询。没有索引,搜索引擎将扫描语料库中的每个文档,这将需要相当长的时间和计算能力。例如,虽然10000个文档的索引可以在几毫秒内进行查询,每一个字的大型文档顺序扫描可能需要几个小时。存储索引和产生索引需要更新时的相当大的存储空间,增加所需的附加计算机存储,为信息检索过程中所节省的时间折衷。

1.1 索引设计因素

在设计搜索引擎的架构的主要因素包括:

合并因素

数据如何进入指数,或词语或受试者的特征如何语料库遍历期间添加到索引,以及多个索引是否可以异步工作。索引器必须先检查是否是更新旧的内容或添加新的内容。穿越通常相关的数据收集策略。搜索引擎索引合并是在概念上与SQL合并命令和其他合并的算法类似。

存储技术

如何存储的索引数据,也就是信息是否应​​该被压缩或滤波的数据。

索引大小

有多少计算机存储需要支持的索引。

查找速度

如何迅速地一个字可以在倒排索引中找到。寻找数据结构中的一个条目的速度,它的速度有多快可以更新或删除,是计算机科学的一个核心焦点进行比较。

保养

该指数是如何保持一段时间。

容错

如何重要的是它的服务是可靠的。这些问题包括处理索引损坏,确定是否坏数据可以单独处理,处理损坏的硬件,分区和方案,如基于散列的或复合分区,以及复制。

1.2索引数据结构

搜索引擎架构中被执行的方式分度变化,并且在索引存储的方法,以满足各种不同的设计因素。

后缀树

打个比方,结构就像一棵树,通过存储的字的后缀建造,持线性时间查找。后缀树是一种带线索的。尝试支持伸缩散列,这对于搜索引擎索引重要的。[7]用于搜索在DNA序列和聚类模式。一个主要的缺点是,在树中存储的单词可能要求空间超出存储字本身必需的。[8]的替代表示是一个后缀数组,这被认为是需要较少的虚拟内存和支持数据压缩诸如BWT算法。

倒排索引

存储每个原子搜索准则的值的列表,通常在哈希表或二进制树的形式

引文索引

文档之间的引用店铺或超级链接,支持引文分析,文献计量学的课题。

NGRAM指数

数据支持其他类型的检索和文本挖掘长度的店铺序列。

文档长期矩阵

用于潜在语义分析,存储在二维稀疏矩阵文件词语的出现次数。

1.3挑战并行

在搜索引擎的设计的主要挑战是串行计算过程的管理。有竞争条件和连贯的故障很多机会。例如,一个新的文档被添加到语料库和索引必须更新,但该指数同时需要继续响应搜索查询。这是两个互相竞争的任务之间的碰撞。考虑到作者是信息的生产者和一个网络爬虫是这些信息的消费者,抓住文本,并将其存储在缓存。正向指数是由卵巢产生的信息的消费者,而反向索引是由正向索引产生信息消费者。这通常被称为生产者 - 消费者模型。索引器是搜索的信息生产者和用户都需要搜索的消费者。与分布式存储和分布式处理工作时所面临的挑战被放大。在努力以更大量的索引的信息按比例的,搜索引擎的架构可以包括分布式计算,其中该搜索引擎由几台机器中一致地操作。这增加的可能性不一致性,使得它更难以保持完全同步的,分布式的并行结构。[13]

2文档解析

文档解析场所相距一个文件或媒体,用于插入其他形式的组分(字)进入前向和反向索引。找到的字词被称为令牌,因此,在搜索引擎索引和自然语言处理的情况下,解析更通常被称为符号化。它有时也被称为单词边界歧义,标签,文本分割,内容分析,文本分析,文本挖掘,和谐一代,语音分割,词法,或词法分析。术语“索引”,“解析”,和“标记化”​​在企业俚语可互换使用。

自然语言处理是不断研究和技术进步的主题。符号化呈现的提取进行索引,支持优质搜索文档的必要信息许多挑战。符号化索引涉及到多种技术,其中通常保留作为公司机密的实​​现

2.1挑战自然语言处理

字边界模糊

以英语为母语可先考虑标记化是一项简单的任务,但这不是设计一个多语言索引的情况。以数字形式,其他语言,如中国,日本或阿拉伯文的文字代表了更大的挑战,因为词不明确划定的空白。标记化期间的目标是识别词语为哪些用户将搜索。特定语言的逻辑被用来正确地识别的字的边界,这是通常用于设计为支持的每种语言解析器(或具有类似边界标记和语法的语言组)的基本原理。

语言的歧义性

为了帮助正确地排序匹配文档,很多搜索引擎收集每个单词的附加信息,比如它的语言或词汇类(词性)。这些技术是依赖于语言,因为语言的语法各不相同。文件并不总是清楚地识别文档的语言或准确地表示它。在标记化文档,一些搜索引擎试图自动识别文档的语言。

不同的文件格式

为了正确地识别哪些字节一个文件,代表字符,文件格式,必须正确处理。支持多种文件格式搜索引擎必须能够正确地打开和访问文档,并能够标记化文档的字符。

存储故障

自然语言数据的质量可能不总是完美的。数量不明的文件,特别是在互联网上,不仔细遵守正确的文件协议。二进制字符可能被错误编码成一个文件的各个部分。如果没有认识到这些人物和适当的处理,指数质量或性能索引可能会降低。

2.2符号化

不同于人类的识字,计算机不理解自然语言文档的结构并不能自动识别单词和句子。到一台计算机,一个文件只是一个字节序列。计算机不知道,一个空格字符的文件中分离出来的话。相反,人类必须编程计算机识别什么构成一个单独的或不同的字,被称为令牌。这样的程序通常被称为一个标记者或解析器或词法。很多搜索引擎,以及其他自然语言处理软件,包括用于解析专门方案,如YACC或莱克斯。

期间标记化,解析器标识代表词和其它元件,诸如标点符号,这是由数字代码,其中有些是非打印控制字符表示的字符的序列。解析器还可以识别实体,如电子邮件地址,电话号码和网址。当识别每个令牌,几个特征可以被存储,诸如令牌的情况下(上,下,混合,适当的),语言或编码,词汇类别(语音的一部分,如“名词”或“动词”),位置,句子数句的位置,长度和行号。

2.3语言识别

如果搜索引擎支持多国语言,标志化过程常见的第一步是识别每个文档的语言;许多的后续步骤是依赖于语言(如词干和词性标注的一部分)。语言识别是由哪一个计算机程序试图自动识别,或分类,一个文档的语言的进程。对于语言识别其他名称包括语种,语言分析,语言识别和语言标记。自动语言识别是自然语言处理正在进行的研究的主题。查找的语言的话属于可能涉及使用语言识别图表。

2.4格式分析

如果搜索引擎能支持多种文件格式,那么文档本身必须是被标记的。我们面对的挑战是,文档格式会包含文本内容格式信息,例如,HTML格式的文档包含HTML标签,它自身有指定格式,如换行开始,强调字符,字体大小或样式。假如搜索引擎忽略的内容和标记之间有差别,多余的信息将被纳入索引中,导致搜索结果有差别。格式分析是呈现在计算机屏幕上或者由软件程序解释格式内容的识别和处理。格式分析也称为结构分析,格式解析,标签剥离,格式剥离,文本规范化,文本清洗和文本制备。格式分析的难度在于各种文件格式的复杂性。某些文件格式是特有的,能搜到的资料非常少,有些甚至是无据可查。常见的支持多种搜索引擎的文件格式包括:为处理各种格式的选项包括使用由该开发,维护或拥有该格式组织提供一个公开的商业解析工具,并且编写自定义分析器。

文件的一些搜索引擎支持检查存储在压缩或加密的文件格式。当使用压缩格式工作,索引第一解压缩文件;此步骤可能会导致一个或多个文件,其每一个必须单独索引。普遍支持的压缩文件格式包括:

包括在其中从视图中的计算机屏幕上隐藏的截面词语的数百或数千,但可见的索引,通过使用格式化的(在HTML中例如隐藏“分区”的标签,这可以结合使用CSS或JavaScript的做所以)。

话的前景字体颜色设置为相同的背景色,使隐藏在电脑屏幕上查看的文档的人的话,但不隐藏到索引器。

2.5节表彰

一些搜索引擎纳入部分识别,文档的主要部分的标识,之前标记化。不读像写得很好的书语料库的所有文件,分为有组织的章节和页面。在网络上的许多文件,如通讯和公司报告,包含错误的内容和不包含主要材料侧部分(即该文件是关于)。例如,这篇文章显示与链接到其他网页的一个侧面菜单。某些文件格式,如HTML或PDF格式,允许在列中显示的内容。即使是显示的内容,或呈现,在视图中的不同区域,原始标记的内容可以按顺序存储这些信息。在原始的源内容相继出现的单词顺序索引,即使这些句子和段落在电脑屏幕的不同部分呈现。如果搜索引擎索引这些内容,就好像它是正常含量,索引和搜索质量的好坏可能会降低,由于混合内容和不正确的字接近。两个主要的问题指出:

在不同的部分内容被视为相关的指标,当在现实中是不

组织侧栏“的内容包括在索引中,但是边栏内容不向文件的含义,并且索引填充有其文档的差表示。

部分析,可能需要搜索引擎来执行每个文档的呈现逻辑,实际文档的实质上的抽象表示,然后指数表示来代替。例如,在因特网上的某些内容是通过JavaScript呈现。如果搜索引擎不渲染页面,该​​页面内评估的JavaScript,就不会看以同样的方式这些内容,并将索引文件不正确。鉴于一些搜索引擎不呈现问题,很多网页设计者避免打扰通过JavaScript显示内容或使用NoScript的标签,以确保该网页是正确索引。同时,这个事实也可被利用以使得搜索引擎索引“看见”比观看者的不同的内容。

2.6 HTML优先权制度

这部分可能包含原创研究。通过验证的权利要求书,加入在线引用请改进。仅由原始研究报告应该被删除。 (2013年11月)

索引通常必须承认HTML标记来组织的优先级。低优先级索引到高利润率像强,链接标签,以优化优先顺序,如果这些标签是在文本的开头不能证明是相关的。像谷歌和Bing索引一些确保搜索引擎不会采取大的文本作为有关人士介绍,由于强类型系统的兼容性。[21]

2.7元标记索引

具体文件通常包含嵌入的元数据信息,如作者,关键字,描述和语言。对于HTML网页,meta标签包含了也包含在索引关键字。早些时候,互联网搜索引擎技术只会指标为正向指标的meta标签的关键字;完整的文档不会被解析。当时全文索引并不如完善的,也不是计算机硬件能够支持这种技术。 HTML标记语言的最初设计为包括为进行适当的和容易索引,而不需要符号化的根本目的meta标签的支持。[22]

随着互联网经过20世纪90年代的增长,许多砖和砂浆企业去“在线”,建立企业网站。用于描述网页(其中许多是相似的产品说明书导向的企业 - 网页)的关键字从描述性的改变旨在通过​​将网页中的高针对特定搜索查询搜索结果带动销售营销为导向的关键字。这是主观指定这些关键字的事实是,导致垃圾索引,这迫使许多搜索引擎采用20世纪90年代全文索引技术。搜索引擎设计师和公司只能把这么多的营销关键词“到网页的内容排水它所有的有趣和有用的信息之前。鉴于与设计这是“粘性”面向用户的网站的业务目标的利益发生冲突,客户生命周期价值公式更改为更多有用的内容纳入网站留住访客的希望。在这个意义上说,全文索引是比较客观的,增加搜索引擎结果的质量,因为它是多了一个步骤就可以搜索引擎结果的位置,这反过来又进一步推动全文索引技术研究的主观控制。

在桌面搜索,很多解决方案结合meta标签,为作者进一步定制的方式如何从并不明显从文件内容中的各种文件的搜索引擎将索引的内容。桌面搜索是用户的控制之下多,而互联网搜索引擎必须更加注重全文索引。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[30316],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版