基于Web结构挖掘的网站结构的评估方法外文翻译资料

 2022-10-28 04:10

英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料


基于Web结构挖掘的网站结构的评估方法

摘要:

网站结构变得比以前更加复杂。在网站的设计阶段,缺乏模型和方法导致不正确的Web结构,这取决于设计师的经验。从软件工程的角度来看,软件生命中的每个时期都必须在开始下一个阶段的工作之前进行评估。在网站的设计阶段,模型和方法的缺乏导致了不正确的Web结构,然而这都取决于设计师的经验。从软件工程的角度来看,在开始下一个时期的工作之前必须评估软件生命中的每个时期。在站点完成之前搜索相关的评估Web结构的方法是非常重要的,而且是必须要做的。在这项工作中,在研究了关于Web结构挖掘和分析主要结构挖掘方法(页面排名和中心/权限)的相关工作之后,提出了一种基于设计阶段Web结构评价的页面排名的方法。设计了一种Web结构建模语言WSML,并给出了评估网站结构系统的实现策略。 Web结构挖掘主要在搜索引擎中使用。 这是第一次在网站的设计阶段采用Web结构挖掘技术来评估Web结构。 它有助于网站设计文档的形式化和大规模网站软件工程的改进,并且评估系统是网站建设的实用工具。

关键词:网络结构挖掘; 网页排名; 网络结构评估; 用于Web结构的建模语言

前言:

由于互联网上的大多数服务是通过Web提供的,万维网变得比以前更重要。网站结构变得越来越复杂。 在网站的规划和设计中,网站结构依赖于设计者,缺乏模型和方法的体验,导致用户访问不合理的Web结构,造成许多访问者丢失。这是一个非常遗憾的商业网站或企业的商业网站。 从软件工程的角度来看,网站的性能应在软件生命周期的每个阶段进行评估,以优化网站的结构。

Web挖掘是数据挖掘中的一个主动分支。 它可以从Web文档和Web活动E1J中提取有用的模式和隐藏的信息。 通常,Web挖掘包括Web内容挖掘,Web结构挖掘和Web使用挖掘.

Web内容挖掘是从Web文档的内容和描述中提取有用信息的过程。 它可以分为Web文本挖掘和Web多媒体挖掘。Web文本挖掘包括网站中的Web文档的摘要,分类,聚类,相关分析和趋势预测。 Web结构挖掘是从Web组织结构和Web链接中提取有用信息的过程。 它包括超链接挖掘、页内结构挖掘和URL挖掘。 通过挖掘Web结构,可以揭示对于用户不明显的Web中的信息。

Web使用挖掘是当用户访问WWW时从服务器中维护的日志中提取有用信息的过程。 挖掘用户的访问信息可以帮助理解用户的目的,以便改进网站结构并提供个性化服务。

Web内容挖掘和Web结构挖掘主要用于在搜索引擎中对网页进行分类和选择权限页面。 Web使用挖掘用于帮助网站的管理者了解用户的兴趣,以改善网站结构和内容,并且它可以帮助企业家改进市场策略。 得出结论,Web结构挖掘可以揭示Web内容的关系和意义。 它提供了一种评估网站性能的方法,可用于帮助设计人员改进Web结构。

1 Web结构挖掘

1.1相关工作

Web结构挖掘来自搜索引擎,因此以下讨论经常与搜索引擎相关。超链接是网页之间的关系的反映,例如页面之间的成员关系。超链接中的锚文本汇总了子页面。在某些视图中,这种概括比设计子页的作者更加非人性化。参考文献[3,4]使用一阶学习方法来分类超链接,以便判断项目成员之间的关系和页面之间的人员关系。同时,超链接中的锚文本用于分类子页面,这获得了良好的效果。超链接也是引用关系的反映。页面的引用次数表示其重要性。参考文献[3,5]指出,页面的重要性是基于其引用的时间和源页面的重要性,其具有超链接,用于设计可以通过请求查询权限表的搜索引擎的用户。

每个网页不是元素对象,其中有一些结构。 参考文献 [3,6]研究了网页的内部结构,并给出了启发式规则来搜索页面{P1,“,P〜}的相关页面。参考文献[3,7] HTML结构树来查找其内部结构特征,并了解关于公司名称及其地址的页面中的模式。

页中的URL可以反映页面类型,并且可以反映页面之间的目录结构关系。Spertus E361给出了与网页URL相关的启发式规则,并用它们来寻找一些个人页面或寻找一个网页的新地址。 在实践中,在一些超链接中没有注释。 一些超链接被建立用于其他目的,例如用于导航或广告。 因此,JM“r E82种页面定义为中心页面Kleinbe g提出了一个指向相关权限页面的链接集合,并提出了一种算法来计算中心值和权限值,在上述工作中, 最具代表性的是页面级和中心/机构。

1.2页面等级

网页的权限值可以通过指向它的链接来确定。当在网页中的超链接被建立时,它可以被视为由其指向的页面的注释。来自其他不同页面的页面注释可以反映页面的重要性,并且其可以用于查找权限页面。关于Web链接的信息提供了Web内容的相对性,质量和结构。作为结果,提出了权威页面的识别方法, Web可以被视为有向图G =(V,E),V是网页的集合,E是页面之间的超链接的集合。页面被定义为图中的节点,并且超链接被定义为有向边。当节点vEV时,v的度数是具有到它的链接(或引用它的节点)的节点的数量,v的出度是它链接到的节点的数量(或节点引用)。因此,页面之间的超链接意味着Web的结构。锚文本可以用于索引由其指向的页面。超链接可以用于计算页面的排名分数。页面的排名得分可以通过超链接转移到相邻页面。

在Page-rank中,如果页被引用多次,则页被认为是重要的,并且如果页被重要页引用,则页可能是重要的,虽然它没有被引用多次。 页面的重要性是共享的,并转移到其引用的其他页面。 假设v是Web页面,U是指向v的页面的集合,并且N(v)是由v引用的页面数(即图G中的v的out-degree),则重要性或页面排名)第v页的R(v)是:

其中,d是衰减因子,dE(0,1)。 通常令d = 0.85ES1。 公式(1)已经表明,如果更多的页面指向页面,页面的页面等级将增加,并且引用它的页面的页面等级越大,其越重要; 并且如果引用它的页面指向其他页面,则页面的页面等级将减小。 一个网站中所有页面的页面排名可以通过公式(1)计算,因此我们可以评估网站结构。

1.3中心/机构

Kleinberg引用那些链接到许多相关权限的主题作为中心的页面,这些页面可能不突出,或指向它们的链接很少,但是为一些公共主题提供了突出的链接。 这些页面可以是主页中的推荐链接的列表。 中心页面意味着对主题的权限页面。 通常,一个好的中心是一个指向许多重要权威页面的页面,一个好的权限页面是许多好的中心指向的页面。 中心和权威之间的关系可以用于挖掘权限页面,并找到优质的Web结构和Web资源。

如下所示的算法HITS(超链接引起的主题搜索)是一种使用方法中心/权限的搜索算法。 如果基于resemble向搜索引擎给出查询q,则搜索引擎返回多个页面。 将从返回的页面获取的前n页作为根集合S。然后将S增大为T,称为基本集合,以包括S中的页面指向的任何页面和指向页面的任何页面 如果v是T中的页面并且E是T中的超链接集合,并且h(v)是v的中心值,并且a(v)是v的权限值,则具有更好的权限和更好的集线器的页面 那些具有更大的h值和更大的a值。

令a(v)和h(v)通过递归算法求解。 集线器和授权之间存在以下关系。 如果v指向具有大a值的许多页面,则它应该接收大的h(v)值; 并且如果v由具有大h值的许多页指向,则它应当接收大的a(v)值。 a(v)和h(v)的加权操作分别定义为I操作和O操作。

2基于页面排名的Web结构评估

网站的结构评估可能会在网站的设计期或运行期两个阶段执行。就像搜索引擎的Web挖掘的工作一样,在运行期间,可以通过从其主页的自动挖掘来执行网站结构的评估,然后将结构挖掘的结果与预期的结果进行比较。在设计阶段,必须通过手动计算进行评估。对于大型网站,计算复杂,需要时间,结果可能不正确,因此设计一个简单的描述语言来描述网站结构。它可以用来形容地描述站点的布局,而不是设计规范。基于形式描述,可以构建网站结构挖掘系统。在系统以网站结构的形式语言读取文档之后,可以获得挖掘结果。

2.1关于Web超链接的类和定义

网页之间的超链接表示页面之间的逻辑关系,并且它与页面的位置无关。 Web站点中的文档可能包含其他Web站点的超链接。源页面和目标页面不在同一站点中的超链接被定义为外部链接或站点间链接。相反,如果源页面和目的地页面在同一站点中,则将其定义为内部链接。它是Web超链接结构挖掘的主要工作,以识别链接的类型和功能c91。虽然每个地点的内容彼此不同,但它们的结构几乎相同。每个网站的结构是层次结构。每个页面都落入网站中某个确定的级别。层次结构的顶层是网站的主页。主页是网站的预测入口。从主页到任何内部页面,至少有一个方向的路径由网站中的链接组成。路径被视为内部路径。

定义1从主页到网站中任何内部节点的最短路径中的超链接被重新标记为前向内部链接。 所谓的最短路径是链路数最少的路径。 因为网站结构可能不是有向树,所以可能存在从顶部节点到内部节点的几个最短路径。

定理1从主页到内部节点的所有内部路径(其中所有链路都是向前的)之一肯定是从主页到网站的内部节点的最短路径。

定义2从主页到内部节点的最短路径的长度被认为是节点的中间或层次。

定义3如果X是从主页到内部节点Y(XC = Y)的最短内部路径中的页面,则X被称为Y的内部祖先,Y被称为X的内部子节点。特别地,如果存在前向内部 从X到Y的超链接,X被称为Y的内部父亲,Y被称为X的内部儿子。从入口到内部节点有几个最短路径,因此页面可能有几个父亲。 显然,主页是唯一在网站中没有内部父亲的主页。

定理2一个既是另一个的祖先又是孩子是没有页面的。

定理3页面的祖先 - 子关系是网站页面上的部分有序关系。

定义4如果超链接的源页面是其目标页面的子页面,则该超链接被视为向后内部链接。

定理4没有任何内向超链接既向前又向后。

定义5如果内部超链接既不是前向超链接,也不是后向超链接,则将其视为内部超链接。 基于上述定义和定理,站点中的所有前向路径形成具有根的有序图。 图中的节点对应于页面,根节点对应于网站的主页。 有序图反映了Web结构,因此它可以用于评估网站的结构。

2.2网站结构建模

现在我们讨论如何正式描述一个网站的结构。 形式化的目的是为网站的结构挖掘提供有效的输入,而挖掘的目的是评估网站的结构。 因此,所使用的语言仅需要描述网站的结构,并且关于网站的其他信息可以被忽略。 所描述的对象只是页面结构和内部链接,包括向前,向后和边。 在HTML的领导下,我们设计了一种语言WSML(Web结构建模语言)。 WSML仅包括标签格式的两种句子。

1)lt;doc title =``“gt; lt;/ docgt;

它用于定义具有对应于一个网页的标题标签的文档,类似于HTML中的“%htmlgt;”“lt;/ htmlgt;”。 “title”指定页面的名称。 当页面是网站的主页时,它被初始化为title =“root”。 带有其内容的标记句可以保存到一个单独的软盘文件,或者几个标签及其内容形成大的软盘文件,即WSML文件可以对应于一个网页或许多网页,这不同于HTML文档 (只有一个“(HTML文件中的htmlgt;(/ htmlgt;)”标记)。

  1. lt;A href='“gt; lt;/ Agt;这是与HTML中的超链接定义类似的超链接定义,其他属性被简化。 它可以定义到同一页面中的另一个地方或不同页面中指定地点的链接。 它的处理方法与HTML中的类似,只有HTML中的标记中的文件名被WSML中的“title”替换。 典型的WSML文件如下(其中,n是自然数)。

我们知道一个网站可以被描述为一个直方图,所有的前向路径可以形成一个有序图T,根如图。 1. T的根对应于网站的主页,并且被标记为“root”。 没有一个出边的叶节点对应于没有子节点的页面。 除了根和T中的叶之外的节点对应于网站中的其他页面。 在EBNF中的WSML的语法标准如下。 WSML_document::= [root-] {element}

root :.= %doc title= 'root'gt; hyperlinks %/dockgt; element ::= leaf l node

图1由前向路径形成的具有根的有序图形

当使用WSML来描述网站结构时,“title”的值对应于网页的标识符,“href”的值对应于超链接的意图,并且“%” A href =“[identifier] [〜identifier]”gt;“不能同时被忽略。如果第二个“标识符”被忽略,则超链接指向另一个页面(即,源页面和链接的目的地页面是不同的),并且“标识符”应当与某个“标题“。如果忽略第一“标识符”,则超链接指向同一页面中的指定地点(即,链接的源页面和

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[137618],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。