

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料
基于Web结构挖掘的网站结构的评估方法
摘要:网站结构变得比以前更加复杂了。在网站的设计阶段,缺乏模型和方法导致了不正确的Web结构,一般是由于设计师的经验不足。从软件工程的角度来看,软件生命中的每个时期都必须在开始下一个阶段的工作之前进行评估。在站点完成之前搜索相关的评估Web结构的方法是非常重要的。在研究了Web结构挖掘和分析主要结构挖掘方法(页面排名和中心/权限)的相关工作之后,提出了一种基于设计阶段中Web结构评估的页面排名的方法。设计了Web结构建模语言WSML,给出了评估网站结构系统的实现策略。 Web结构挖掘主要在搜索引擎中使用。这是第一次在网站的设计阶段采用Web结构挖掘技术来评估Web结构。它有助于网站设计文档的形式化和大规模网站软件工程的改进,评估系统是网站建设的实用工具。
关键词:网络结构挖掘;网页排名;网络结构评价;用于Web结构的建模语言
CLC号。 TP 393,TP 311
0.介绍
由于互联网上的大多数服务是通过Web提供的,万维网变得比以前更重要。网站结构变得越来越复杂。在网站的规划和设计中,网站结构依赖于设计者缺乏模型和方法的经验,这导致用户访问不合理的Web结构,并且损失了许多访问者。
从软件工程的角度来看,网站的性能应该在软件生命周期的每一个阶段进行评估,以优化网站的结构。网络挖掘是数据挖掘中的一个活跃的分支。它可以从Web文档和Web活动中提取有用的模式和隐藏的信息。通常,Web挖掘包括Web内容挖掘,Web结构挖掘和Web使用挖掘[1,2] .Web内容挖掘是从Web文档的内容和描述中提取有用信息的过程。它可以分为Web文本挖掘和Web多媒体挖掘。Web文本挖掘包括网站中的Web文档的摘要,分类,聚类,相关分析和趋势预测。
Web结构挖掘是从Web组织结构和Web链接中提取有用信息的过程。它包括超链接挖掘和页内结构挖掘和URL挖掘。通过挖掘Web结构,可以揭示对用户不明显的Web中的信息。
Web使用挖掘是当用户访问WWW时从服务器中维护的日志中提取usefuI信息的过程。 挖掘用户的访问信息可以帮助理解用户的目的,以便改进网站结构并提供个性化服务。
Web内容挖掘和Web结构挖掘主要用于在搜索引擎中分类Web页面和选择权限页面。 Web使用挖掘用于帮助网站的管理者了解用户的兴趣,以改善网站结构和内容,并且它可以帮助企业家改进市场策略。
由此得出结论,Web结构挖掘可以揭示Web内容的关系和意义。它提供了一种评估网站性能的方法,可以用来帮助设计师改进Web结构
1 Web结构挖掘
1.1相关工作
Web结构挖掘来自搜索引擎,因此以下讨论通常与搜索引擎相关。超链接是Web页面之间的关系的反映,例如页面之间的成员关系。超链接中的锚文本汇总了子页面。在某些视图中,这种概括比设计子页的作者更加非人性化。参考文献[3,4]使用一阶学习方法来分类超链接,以便判断项目成员之间的关系和页面之间的人员关系。
同时,超链接中的锚文本用于对子页面进行分类,这获得了很好的效果。
超链接也是引用关系的反映。页面的引用次数表示其意义。 [3,5]指出,页面的重要性是基于其引用的时间和源页面的重要性,其具有超链接,用于设计可以通过请求查询权限页面的搜索引擎user.Each网页不是元素对象,其中有一些结构。参考文献[3,6]研究了网页的内部结构,并给出了启发式规则来搜索页面的相关页面.Ref。[3,7] 使用HTML结构树来查找其内部结构特征,并了解关于公司名称及其地址的页面中的模式。
网页中的URL可以反映网页的类型,并且可以反映网页之间的目录结构关系。 Spertus E361给出了与网页URL相关的启发式规则,并用它们来寻找一些个人页面或寻找一个网页的新地址。
在实践中,在一些超链接中没有注释。 一些超链接被建立用于其他目的,例如用于导航或广告。因此,J. M.Kleinbeg[8]的页面定义为中心面,Kleinbeg提出了一个提供链接收集指向相关权限页面,并提出一个算法来计算中心值和权限值。
在上述工作中,最具代表性的是页面级别和中心/机构。
1.2页面等级
网页的权限值可以通过指向它的链接来确定。当网页中的超链接被建立时,它可以被视为对其指向的页面的注释。来自其他不同页面的页面的这些注释可以反映页面的重要性,并且它可以用于查找权限页面。关于Web链接的信息提供Web内容的相对性,质量和结构。结果,提出了如下的权限页面的识别方法
Web可以被视为有向图G =(V,E),V是网页的集合,E是页面之间的超链接的集合。页面被定义为图中的节点,并且超链接被定义为有向边。当节点vEV时,v的内度是与其链接的节点的数量(或引用它的节点),v的出度是其链接的节点的数量(或引用的节点它)。因此,页面之间的超链接意味着Web的结构。锚文本可以用于索引由其指向的页面。超链接可以用于计算页面的排名分数。页面的排名得分可以通过超链接转移到相邻页面。
在Page-rank中,如果页被引用多次,则页被认为是重要的,并且如果页被重要页引用则页可能是重要的,虽然它没有被引用多次。页面的重要性是共享的,并转移到其引用的其他页面。
假设v是网页,U是指向v的页面的集合,并且N(v)是由v引用的页面的数量(即,图G中的v的out-degree),则重要性-rank)R(v)是:
R(v) = (l-d) sect; (R(u)/N(u)) (1)
其中,d是衰减因子,dE(0,1)。 通常使d = 0.85ES1。
公式(1)已经表明,如果更多的页面指向页面,页面的页面等级将增加,并且引用它的页面的页面等级越大,其越重要; 并且如果引用它的页面指向其他页面,则页面的页面等级将减小。
一个网站中所有页面的页面排名可以通过公式(1)计算,因此我们可以评估网站结构。
1.3中心/机构
Kleinberg引用那些链接到许多相关权限的主题作为中心的页面,这些页面可能不突出,或指向它们的链接很少,但是为一些公共主题提供了突出的链接。这些页面可以是主页中的推荐链接的列表。中心页面意味着对主题的权限页面。通常,良好的中枢是指向许多重要权威页面的页面,并且良好的权限页面是许多良好中枢指向的页面。中心和权威之间的关系可以用于挖掘权限页面,并找到优质的Web结构和Web资源。
如下所示的算法HITS(超链接引起的主题搜索)是一种使用方法中心/权限的搜索算法。如果基于resemble向搜索引擎给出查询q,则搜索引擎返回多个页面。将从返回的页面获取的前n页作为根集合S。然后将S增大为T,称为基本集合,以包括S中的页面指向的任何页面和指向页面的任何页面S是v中的页面,E是T中的超链接集合,h(v)是v的中心值,a(v)是v的权限值,具有更好的权限和更好的集线器的页面具有较大h值和较大a值的那些。让
.
a(v)和h(v)通过递归算法求解。集线器和权限之间有以下关系。 如果v指向具有大a值的许多页面,则它应该接收大的h(v)值; 并且如果v由具有大h值的许多页指向,则它应当接收大的a(v)值。 a(v)和h(v)的加权运算分别定义为I运算和O运算。
为了使和=1,a(v)和h(v)必须在递归之后归一化计算,即
公式(2)已经表明,如果许多更好的中心页面指向它,则页面的权限权重将增加。 公式(3)已经表明,如果页面的中心权重指向许多更好的权限页面,则页面的中心权重将增加。
HITS算法输出具有大中心权重和大权威权重的页面集合。
从上面的讨论中我们可以得出结论,Hub / Authority方法和Page-rank方法在性质上没有差别。 在搜索引擎实践中,Hub / Authority方法是对页面排名方法的改进。
在这项工作中,我们将在一个网站中讨论结构挖掘,因此Hub / Authority方法和Page-rank方法的效果几乎相同。 从我们的工作中的计算复杂的角度看,页面排名方法更合适。
2基于页面排名的Web结构评估
网站的结构评估可以在两个时段,即网站的设计时段或运行时段内执行。在运行期间,可以通过从其主页的自动挖掘来执行网站结构的评估,然后将结构挖掘的结果与预期的结果进行比较,就像搜索引擎的Web挖掘的工作一样。在设计阶段,必须通过手动计算进行评估。对于大型网站,计算复杂,需要时间,结果可能不正确,因此简单的描述语言被设计为描述网站结构。它可以用来形容地描述站点的布局,而不是设计规范。基于形式描述,可以构建网站结构挖掘系统。在系统以网站结构的形式语言读取文档之后,可以获得挖掘结果。
2.1关于Web超链接的类和定义
网页之间的超链接表示页面之间的逻辑关系,并且它与页面的位置无关。网站中的文档可以包括到其他网站的超链接。源页面和目标页面不在同一站点中的超链接被定义为外部链接或站点间链接。相反,如果源页面和目的页面在同一个站点中,它被定义为内部链接。它是Web超链接结构挖掘的主要工作,以识别链接的类型和功能。
虽然每个站点的内容彼此不同,但它们的结构几乎相同。每个网站的结构是层次结构。每个页面都落入网站中某个确定的级别。层次结构的顶层是网站的主页。主页是网站的预测入口。从主页到任何内部页面,至少有一个方向的路径由网站中的链接组成。
路径被视为内部路径。
定义1
最短路径中的超链接
到网站中任何内部节点的主页被视为前向内部链接。
所谓的最短路径是链路数最少的路径。因为网站结构可能不是有向树,所以可能存在从顶部节点到内部节点的几个最短路径。
定理1
从主页到内部节点的所有链路都向前的内部路径之一肯定是从主页到网站的内部节点的最短路径。
定义2
从主页到内部节点的最短路径的长度被认为是节点的内部级别。
定义3
如果X是从主页到内部节点Y(XC = Y)的最短内部路径中的页面,则X被称为Y的内部祖先,Y被称为X的内部子节点。特别地,如果存在前向内部从X到Y的超链接,X被称为Y的内部父亲,Y被称为X的内部儿子。
从入口到内部节点有几个最短路径,因此页面可能有几个父亲。显然,主页是唯一一个没有内部父亲在一个网站。
定理2
没有页面,一个是同一个的祖先和另一个的孩子。
定理3
页面的祖先 - 子关系是网站的页面集上的部分有序关系。
定义4
如果超链接的源页面是其目的地页面的子页面,则该超链接被视为后向内部链接。
定理4
没有任何内向超链接既向前又向后。
定义5
如果内部超链接既不是前向的,也不是后向的,它被认为是侧向内部超链接。
基于上述定义和定理,站点中的所有前向路径形成具有根的有序图。 图中的节点对应于页面,根节点对应于网站的主页。 有序图反映了Web结构,因此它可以用于评估网站的结构。
2.2网站结构建模
现在我们讨论如何正式描述一个网站的结构。形式化的目的是为网站的结构挖掘提供有效的输入,而挖掘的目的是评估网站的结构。因此,所使用的语言仅需要描述网站的结构,并且关于网站的其他信息可以被忽略。所描述的对象仅是页面结构和内部链接,包括向前,向后和侧面。在HTML的引领下,我们设计了一种语言WSML(Web结构建模语言)。 WSML仅包括标签格式的两种句子。
1)lt;doc title =``“gt; lt;/ docgt;
它用于定义具有与一个网页对应的标题标签的文档,类似于HTML中的“%htmlgt;”“lt;/ htmlgt;”。 “title”指定页面的名称。当页面是网站的主页时,它被初始化为title =“root”。带有其内容的标记语句可以被保存到一个单独的磁盘文件,或者几个标记及其内容形成一个大的软盘文件, WSML文件可以对应于一个Web页面或许多Web页面,其不同于HTML文档(只有一个“(HTML文件中的htmlgt;(/ htmlgt;)”标记)。
2)lt;A href='“gt; lt;/ Agt;
它用于与HTML中的超链接定义类似的超链接定义,并且其他属性被简化。它可以将链接解除链接到同一页面中的另一个地方或不同页面中的指定地点。它的处理方法与HTML中的类似,只有HTML中的标记中的文件名被WSML中的“title”替换。
典型的WSML文件如下(其中,n是自然数)。
lt;doc title =rootgt;
lt;A href='titlel ')titlel_content lt;Agt;
lt;A href='titlez'gt; titlez_content lt;Agt;
lt;A href='title,'gt; title,_content lt;Agt;
lt;/ docgt;
lt;doc title =“titlel”gt;
lt;A href='titlel_l'gt; titlel_l_content lt;Agt;
lt;A href='titlel_2'amp;g
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[137622],资料为PDF文档或Word文档,PDF文档可免费转换为Word
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料
