doc 网络爬虫(外文翻译) ㊣ 精品文档 值得下载

🔯 格式:DOC | ❒ 页数:27 页 | ⭐收藏:0人 | ✔ 可以修改 | @ 版权投诉 | ❤️ 我的浏览 | 上传时间:2022-06-25 20:08

网络爬虫(外文翻译)

,中文译文要在网络上爬行非常简单基本的算法是取得个网页解析它提取所有的链接对于所有没有见过的重复执行。但是,网络的大小估计有超过亿的网页和他们变化的频率估计每周有的变化使这个计划由个微不足道的设计习题变成个非常严峻的算法和系统设计挑战。实际上,光是这两个要素就意味着如果要进行及时地,完全地爬行网络,步骤必须每秒钟执行大约次,因此,成员检测必须每秒钟执行超过次,并有非常大的数据储存到主内存中。这个要求有个分布式构造,使得成员检测更加复杂。个非常重要的方法加速这个检测就是用高速缓存,这个是把见过的存入主内存中的个动态子集中。这个论文最主要的成果就是仔细的研究了几种关于网络爬虫的缓存技术。我们考虑所有实际的算法随机置换,静态和,和理论极限透视和极大的。我们执行了大约次模拟,用不同的大小执行这些算法,用真实的日志数据,获取自个非常大的天的网络爬行,大约执行了超过亿次的请求。我们的主要的结论是是非常高效的在我们的机制里,个有大约个入口的可以完成的速率。有趣的是,这的大小下降到个临界点个足够的小点的更有效当个足够的大点的只能带来很小的额外好处。我们推测这个临界点是固有的并且冒昧的解释下这个现象。介绍皮尤基金会最新的研究指出搜索引擎已经成为互联网用户不可或缺的工具,估计在年中期,初略有超过半的美国人用网络搜索获取信息。因此,个强大的搜索引擎技术有巨大的实际利益,在这个论文中,我们集中于方面的搜索技术,也就是搜集网页的过程,最终组成个搜索引擎的文集。搜索引擎搜集网页通过很多途径,他们中,直接提交,回馈内含物,然后从非源文件中提取,但是大量的文集包含个进程叫或者,他们递归的探索互联网。基本的算法是,网络怕从般开始于些种子。有些时候网络爬虫开始于个正确连接的页面,或者个目录就像,但是因为这个原因相关的巨大的部分网络资源无法被访问到。估计有超过如果把网页看作图中的节点,把超链接看作定向的移动在这些节点之间,那么网络爬虫就变成了个进程就像数学中的图的遍历样。不同的遍历策略决定着先不访问哪个节点,下个访问哪个节点。种标准的策略是深度优先算法和广度优先算法他们容易被实现所以在很多入门的算法课中都有教。但是,在网络上爬行并不是个微不足道的设计习题,而是个非常严峻的算法和系统设计挑战因为以下点原因网络非常的庞大。现在,需要索引超过亿的网页。很多研究都指出,在历史上,网络每个月都会增长倍。网络的页面改变很频繁。如果这个改变指的是任何改变,那么有的网页每周会改变。如果我们认为页面改变三分之或者更多,那么有大约的页面每周会变。这个要素意味着,要获得及时的,完全的网页快照,个搜索引擎必须访问亿个网页每天。因此,步骤必须执行大约每秒次,成员检测的步骤必须每秒执行超过次,并有非常大的数据储存到主内存中。另外,网络爬虫般使用个分布式的构造来平行地爬行更多的网页,这使成员检测更为复杂这是可能的成员问题只能回答了个同行节点,而不是当地。个非常重要的方法加速这个检测就是用高速缓存,这个是把见过的存入主内存中的个动态子集中。这个论文最主要的成果就是仔细的研究了几种关于网络爬虫的缓存技术。我们考虑所有实际的算法随机置换,静态和,和理论极限透视和极大的。我们执行了大约次模拟,用不同的大小执行这些算法,用真实的日志数据,获取自个非常大的天的网络爬行,大约执行了超过亿次的请求。这个论文像这样组织的第部分讨论在文学著作中几种不同的爬行解决方案和什么样的最适合他们。第部分介绍关于些的技术和介绍了关于几种理论和实际算法。第部分我们实现这些算法,在实验机制中。第部分描述和讨论模拟的结果。第部分是我们推荐的实际算法和数据结构关于。第部分是结论和指导关于促进研究。网络爬虫的出现几乎和网络同期,而且有很多的文献描述了网络爬虫。在这个部分,我们呈现个摘要关于这些爬虫程序,并讨论问什么大多数的网络爬虫会受益于。网络爬虫用网络存档雇员多个爬行进程,每个次性完成个彻底的爬行对于个。爬虫进程储存非本地的到磁盘在爬行的最后,批工作将这些加入到下个爬虫的每个的种子中。最初的爬虫,实现不同的爬虫组件通过不同的进程。个单独的服务器进行维护需要下载的的集合爬虫程序获取的网页索引进程提取关键字和超链接解决进程将相对路径转换给绝对路径。这些不同的进程通过文件系统通信。这个论文的中实验我们使用的网络爬虫。使用了个独立的集合,通信网络爬虫进程。每个爬虫进程都是个有效的服务器子集的分配基于主机组件。没有责任通过传送这个给网络爬虫,有责任把这些绑在起减少开销。我们描述很多的细节在第部分。任何网络爬虫必须维护个集合,装那些需要被下载的。此外,不能重复地下载同个,必须要个方法避免加入到集合中超过次。般的,达到避免可以用维护个发现的集合。如果数据太多特殊原因我翻译外文文献的机会比较多,慢慢地就发现了外文文献翻译过程中的三大利器翻译频道金山词霸完整版本和翻译助手。具体操作过程如下先打开金山词霸自动取词功能,然后阅读文献遇到无法理解的长句时,可以交给处理,处理后的结果猛看,不堪入目,可是经过大脑的再处理后句子的意思基本就明了了如果通过仍然无法理解,感觉就是不同,那肯定是对其中个常用单词理解有误,因为些单词看似很简单,但是在文献中有特殊的意思,这时就可以通过的翻译助手来查询相关单词的意思,由于的单词意思都是来源与大量的文献,所以它的吻合率很高。另外,在翻译过程中最好以段落或者长句作为翻译的基本单位,这样才不会造成只见树木,不见森林的误导。四大工具翻译,众所周知,谷歌里面的英文文献和资料还算是比较详实的。我利用它是这样的。方面可以用它查询英文论文,当然这方面的帖子很多,大家可以搜索,在此不赘述。回到我自己说的翻译上来。下面给大家举个例子来说明如何用吧比如说电磁感应透明效应这个词汇你不知道他怎么翻译,首先你可以在里查中文的,根据它们的关键词中英文对照来做,般比较准确。在此主要是说在里怎么知道这个翻译意思。大家应该都有词典吧,按中国人的办法,把个个词分着查出来,敲到里,你的这种翻译般不太准,当然你需要验证是否准确了,这下看着吧,把你的那支离破碎的翻译在里搜索,你能看到许多相关的文献或资料,大家都不是笨蛋,看看,也就能找到最精确的翻译了,纯西式的,我就是这么用的。翻译翻译助手,这个网站不

下一篇
网络爬虫(外文翻译)第1页
1 页 / 共 27
网络爬虫(外文翻译)第2页
2 页 / 共 27
网络爬虫(外文翻译)第3页
3 页 / 共 27
网络爬虫(外文翻译)第4页
4 页 / 共 27
网络爬虫(外文翻译)第5页
5 页 / 共 27
网络爬虫(外文翻译)第6页
6 页 / 共 27
网络爬虫(外文翻译)第7页
7 页 / 共 27
网络爬虫(外文翻译)第8页
8 页 / 共 27
网络爬虫(外文翻译)第9页
9 页 / 共 27
网络爬虫(外文翻译)第10页
10 页 / 共 27
网络爬虫(外文翻译)第11页
11 页 / 共 27
网络爬虫(外文翻译)第12页
12 页 / 共 27
网络爬虫(外文翻译)第13页
13 页 / 共 27
网络爬虫(外文翻译)第14页
14 页 / 共 27
网络爬虫(外文翻译)第15页
15 页 / 共 27
温馨提示

1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。

2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。

3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。

4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。

5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。

  • 文档助手,定制查找
    精品 全部 DOC PPT RAR
换一批