21毕业论文：搜索引擎的信息覆盖率评测模型研究免费在线阅读

格式：word

关系构成的有向图的邻接矩阵为，考虑到两个之间最多有个链接使得若存在网页到网页的链接则，否则那么上面的式子可以写成由此两式可得，即实际上是的特征向量同理是的特征向量，我们因此也可以用幂法或算法等来通过迭代来求得和的值。但考虑到系统内存对初始样本容量的限制，若数量很大的时候需要分块对两个矩阵进行迭代。试验结果在我们的研究工作中，我们没有通过计算特征向量而采取了根据前组公式直接进行迭代计算和值的办法，具体的实现算法如下采集初始样本时将所有的编号存入数据库，同时存入之间的链接关系创建相关的数据结构存储每个的和权值及链接关系，从数据库中导逐渐扩展遍历，得到个网页集合作为样本，这是种从局部来进行取样的办法。随机法在和和的工作中，他们提出了通过随机产生来对进行取样的方法。首随机产生的方法来获得个网页集合，从而得到样本，这种考虑基于全局的视点如果考虑到顶点之间的链接关系，则可以模仿搜索引擎搜集系统的工作方式，采取绝对广度优先的办法，从个顶点种子出发，必须对网页过滤，扔掉无法连接到的网页。总体的工作流程大致如下图所示数量覆盖率我们可以从不同的角度来对来进行采样。如果不考虑顶点之间的链接关系，仅从顶点的标记所对应的地址出发，可以采取需要通过对随机取样获得网页样本需要采取些方法得到随机的重要网页集合，这通常要利用网页之间的链接关系来对网页进行权值估算在得到网页样本之后，再检查搜集系统的网页覆盖其中的比例，在检查过程中，办法获得些重要网页组成的集合作为样本，来考察搜集系统覆盖中的子集所占样本容量的比例，作为近似的质量覆盖率，因此质量覆盖率的表达式为为什么用双竖线因此，我们的近似值。如果足够大或是随机性足够好，则非常接近于。此时的即搜集系统的数量覆盖率。我们可以用类似的思想去计算搜集系统的质量覆盖率。考虑中的所有重要网页构成的连通子图，我们可以用随机的引擎搜集网页的不完全性，的相关属性却只能去估计。为了得到准确的信息覆盖率数据，我们采取对取样的方法，即采取随机的方式从中获得张子图考察中的顶点落在中所占的比例作为不定是强连通图每个顶点都有唯的标记。则信息覆盖率的表达式为需要加句对公式的解释。的相关属性在搜集过程中已得到，但是因为搜索和量化分析。信息覆盖率评测模型我们定义搜集系统的信息覆盖率为它所收集的网页集合在中所占的比例。考虑到的链接结构，将其视为张有向图则搜集系统所获得的网页集合是的强连通子图页。因此，考察搜集系统对可视网上信息资源的覆盖率，也有着积极的意义。它可以告诉我们当前所搜集到的网页当中，多大比例的部分能够在若干年后通过浏览器重新浏览。在本文的研究中，将对前面的两种进行详细的讨论存储的信息中相当部分日后将是不可见的。这方面是由于存储系统的资源所限，未能搜集类似于图片影音之类的大文档另方面是因为搜集技术的不成熟，无法获得类似于等格式的网它的个有效特征子集。类似于的系统如果将这些重要网页全部记录下来，以后就能通过历史网页回放来重现人类社会信息资源在时间和空间两维上的每个角落。从信息的表现形式来看，搜集系统当前可以告诉我们，对那些用户会感兴趣的重要的网页，系统覆盖了其中的百分之几。从更深的层次来说，如果搜集系统覆盖了绝大多数的重要网页，它也就覆盖了当前社会信息在每个重要主题上映射到上的部分，成为但也存在不少冗余，大量的广告页面和内容重复页面便是此例。即使去除这些冗余后，用户感兴趣的网页通常也只是数以十亿计的数量中的极少数。因此，考虑搜集系统在质量上对网页的覆盖程度显得尤为重要。这指标盖率为百分之八十左右。如果系统的数量覆盖率足够高，我们就可以认为它基本上覆盖了上的所有信息资源。高的数量覆盖率应该是任何个搜集系统及以此为基础的网上信息博物馆的首要目标。网上信息资源极为丰富在数量这角度上达到完全覆盖的程度。这提供个衡量搜集系统覆盖信息能力的全局标准。例如当前上的网页估计约为，个，系统的网页搜集数量是，个，因此可以估计其数量覆统覆盖目标是上的所有静态网页，它们通常可通过浏览器显示内容，且其般静态存在于其它网页中。我们可以从多个角度来考虑搜索引擎对信息资源的覆盖程度。搜集系统应该力图遍历的所有网页，统覆盖目标是上的所有静态网页，它们通常可通过浏览器显示内容，且其般静态存在于其它网页中。我们可以从多个角度来考虑搜索引擎对信息资源的覆盖程度。搜集系统应该力图遍历的所有网页，在数量这角度上达到完全覆盖的程度。这提供个衡量搜集系统覆盖信息能力的全局标准。例如当前上的网页估计约为，个，系统的网页搜集数量是，个，因此可以估计其数量覆盖率为百分之八十左右。如果系统的数量覆盖率足够高，我们就可以认为它基本上覆盖了上的所有信息资源。高的数量覆盖率应该是任何个搜集系统及以此为基础的网上信息博物馆的首要目标。网上信息资源极为丰富，但也存在不少冗余，大量的广告页面和内容重复页面便是此例。即使去除这些冗余后，用户感兴趣的网页通常也只是数以十亿计的数量中的极少数。因此，考虑搜集系统在质量上对网页的覆盖程度显得尤为重要。这指标可以告诉我们，对那些用户会感兴趣的重要的网页，系统覆盖了其中的百分之几。从更深的层次来说，如果搜集系统覆盖了绝大多数的重要网页，它也就覆盖了当前社会信息在每个重要主题上映射到上的部分，成为它的个有效特征子集。类似于的系统如果将这些重要网页全部记录下来，以后就能通过历史网页回放来重现人类社会信息资源在时间和空间两维上的每个角落。从信息的表现形式来看，搜集系统当前存储的信息中相当部分日后将是不可见的。这方面是由于存储系统的资源所限，未能搜集类似于图片影音之类的大文档另方面是因为搜集技术的不成熟，无法获得类似于等格式的网页。因此，考察搜集系统对可视网上信息资源的覆盖率，也有着积极的意义。它可以告诉我们当前所搜集到的网页当中，多大比例的部分能够在若干年后通过浏览器重新浏览。在本文的研究中，将对前面的两种进行详细的讨论和量化分析。信息覆盖率评测模型我们定义搜集系统的信息覆盖率为它所收集的网页集合在中所占的比例。考虑到的链接结构，将其视为张有向图则搜集系统所获得的网页集合是的强连通子图不定是强连通图每个顶点都有唯的标记。则信息覆盖率的表达式为需要加句对公式的解释。的相关属性在搜集过程中已得到，但是因为搜索引擎搜集网页的不完全性，的相关属性却只能去估计。为了得到准确的信息覆盖率数据，我们采取对取样的方法，即采取随机的方式从中获得张子图考察中的顶点落在中所占的比例作为的近似值。如果足够大或是随机性足够好，则非常接近于。此时的即搜集系统的数量覆盖率。我们可以用类似的思想去计算搜集系统的质量覆盖率。考虑中的所有重要网页构成的连通子图，我们可以用随机的办法获得些重要网页组成的集合作为样本，来考察搜集系统覆盖中的子集所占样本容量的比例，作为近似的质量覆盖率，因此质量覆盖率的表达式为为什么用双竖线因此，我们需要通过对随机取样获得网页样本需要采取些方法得到随机的重要网页集合，这通常要利用网页之间的链接关系来对网页进行权值估算在得到网页样本之后，再检查搜集系统的网页覆盖其中的比例，在检查过程中，必须对网页过滤，扔掉无法连接到的网页。总体的工作流程大致如下图所示数量覆盖率我们可以从不同的角度来对来进行采样。如果不考虑顶点之间的链接关系，仅从顶点的标记所对应的地址出发，可以采取随机产生的方法来获得个网页集合，从而得到样本，这种考虑基于全局的视点如果考虑到顶点之间的链接关系，则可以模仿搜索引擎搜集系统的工作方式，采取绝对广度优先的办法，从个顶点种子出发，逐渐扩展遍历，得到个网页集合作为样本，这是种从局部来进行取样的办法。随机法在和和的工作中，他们提出了通过随机产生来对进行取样的方法。首先获得上已经分配使用的所有地址，假设共有个。可以利用的分段将它们映射到到之间的个整数作为唯标记。这样，我们可以利用随机算法产生小于的整数，得到个标记集合，再逆映射回到地址，即得到组随机样本。如果搜集系统以域名标志网站地址，还需要将其转换为域名。这种取样原理如图所示取样我们在研究工作中获得了中国国内已分配的所有地址分段个，例如至为其中个分段，被分配给北京大学使用。如果统用点分十进制表示所有网络地址，则所有的分段可以表示如下其中，和都为到之间的整数。可见这些分段不相交，统计出每个分段中的地址数量，则可以找到映射使得地址位于中的函数值为于是我们将每个都对应到个整数，便可以用随机算法在其中选取若干，逆映射转变为地址，便得到个地址集合。去掉此集合中不提供服务包括与网络无连量，将所有网页的权威型权值看作矢量，设样本中所有网页及链接关系构成的有向图的邻接矩阵为，考虑到两个之间最多有个链接使得若存在网页到网页的链接则，否则那么上面的式子可以写成由此两式可得，即实际上是的特征向量同理是的特征向量，我们因此也可以用幂法或算法等来通过迭代来求得和的值。但考虑到系统内存对初始样本容量的限制，若数量很大的时候需要分块对两个矩阵进行迭代。试验结果在我们的研究工作中，我们没有通过计算特征向量而采取了根据前组公式直接进行迭代计算和值的办法，具体的实现算法如下采集初始样本时将所有的编号存入数据库，同时存入之间的链接关系创建相关的数据结构存储每个的和权值及链接关系，从数据库中导出所有属性并填充到数据结构中给予和个初始值，分别计算和，直至和的距离足够小为止分别对和值进行冒泡排序，输出前若干个到文件中。在确定重要网页的界限时，我们选取的是初始网页样本中权值排在前面约左右的部分，大致与搜索引擎响应查询词返回的网页数量相当。即搜索引擎就此主题返回个重要网页，我们经过计算后也给出个真正重要的网页，检查搜集系统覆盖其中的比

温馨提示：手指轻点页面，可唤醒全屏阅读模式，左右滑动可以翻页。