来考量覆盖
率大小。
通过随机法产生的网页样本很好的考察了搜集系统对有向图些入度为
或是从出发顶点无法达到顶点的覆盖情况。这启示我们在搜集网页过程中,选取适当数
量的以随机法产生的作为起始顶点集合的部分,能提高搜集系统的数量信息北京大学计算机科学技术系网络与分布式系统实验室量导致部分网页直到搜集过程中止都没有被搜集,出现的
情况。
本身处于不断的膨胀过程之中,大量新出现的网页来不及搜集。搜集系
统自身般都有搜集周期,而些网页如实时新闻网页的更新频率远大于
搜集频率。
从广义的角度而言,凡是上的信息都应该被搜集,而现在的搜索引擎
般只搜集了部分格式的网页信息。当前搜集的般都是静态网页中类似于
文档的信息资源,没有考虑到包括动态网页在内的巨量深层网络文档。
据估计,当前中的所有网页包括深层网页约有亿之多,搜索
引擎所覆盖的不到其百分之,
因此,可以肯何个实际运行的网页搜集系统都不可能将当前中的所有
网页全部抓尽。这种搜集性能越优异,意味着它所获得网页集合在数量和质量上越接近
于实际的,网页之间的链接关系也越逼近实际的有向图结构。搜索引擎的
信息覆盖率正是对这种接近程度的衡量,它体现了个网页搜集系统所获得的网页集合
及链接关系所占实际的比例。
几类重要的覆盖率
广义的信息资源,应该定义为互联网上的切信息,即所有存在于上的文档。
这些文档有些能通过浏览器浏览,有些则不能有些存在于网站的数据库中,经过动态
的请求方能生成,有些则是静态存在的且被其它网页链接到。搜索引擎当前所能搜集的
绝大多数就是这种静态的网页,且在处理过程中进步过滤掉了些不可浏览的部分如
可执行文件等。在这里,我们所研究的搜集系统覆盖目标是上的所有静态网页,
它们通常可通过浏览器显示内容,且其般静态存在于其它网页中。我们可以从多
个角度定任虑搜索引擎对信息资源的覆盖程度。
搜集系统应该力图遍历的所有网页,在数量这角度上达到完全覆盖的程度。
这提供个衡量搜集系统覆盖信息能力的全局标准。例如当前上的网页
估计约为,个,系统的网页搜集数量是,个,因此
可以估计其数量覆盖率为百分之八十左右。如果系统统计网页的入
度来评判其重要性。如果网页上存在网页的,排除掉纯粹导航的因
素,表示着网页的作者存在对网页的认可而这种认可的增多则意味着网
页权值的上升。因此,入度越大,权值通常越高。北京大学计算机科学技术系网络与分布式系统实验室孟涛学士论文
搜索引擎的信息覆盖率评测模型研究
孟涛李晓明闫宏飞
北京大学计算机科学技术系,
摘要本文从有向图结构出发,总结分析了搜索引擎搜集子系统网页搜集不完全性的
若干因素,指出信息覆盖率这概念的研究意义,由此提出了三类比较重要的信息覆盖率概念。在对
信息覆盖率建立来考量覆盖
率大小。
通过随机法产生的网页样本很好的考察了搜集系统对有向图些入度为
或是从出发顶点无法达到顶点的覆盖情况。这启示我们在搜集网页过程中,选取适当数
量的以随机法产生的作为起始顶点集合的部分,能提高搜集系统的数量信息北京大学计算机科学技术系网络与分布式系统实验室量导致部分网页直到搜集过程中止都没有被搜集,出现的
情况。
本身处于不断的膨胀过程之中,大量新出现的网页来不及搜集。搜集系
统自身般都有搜集周期,而些网页如实时新闻网页的更新频率远大于
搜集频率。
从广义的角度而言,凡是上的信息都应该被搜集,而现在的搜索引擎
般只搜集了部分格式的网页信息。当前搜集的般都是静态网页中类似于
文档的信息资源,没有考虑到包括动态网页在内的巨量深层网络文档。
据估计,当前中的所有网页包括深层网页约有亿之多,搜索
引擎所覆盖的不到其百分之,
因此,可以肯
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
第 1 页 / 共 49 页
第 2 页 / 共 49 页
第 3 页 / 共 49 页
第 4 页 / 共 49 页
第 5 页 / 共 49 页
第 6 页 / 共 49 页
第 7 页 / 共 49 页
第 8 页 / 共 49 页
第 9 页 / 共 49 页
第 10 页 / 共 49 页
第 11 页 / 共 49 页
第 12 页 / 共 49 页
第 13 页 / 共 49 页
第 14 页 / 共 49 页
第 15 页 / 共 49 页
预览结束,还剩
34 页未读
阅读全文需用电脑访问
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。
1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。
2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。
3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。
4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。
5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。