基于多线程的网络爬虫的设计与实现

格式：word 上传：2025-07-21 06:45:06

《基于多线程的网络爬虫的设计与实现》修改意见稿

1、“.....,,,,,致谢法，预测候选与目标网页的相似度，或与主题的相关性，并选取评价最好的个或几个进行抓取。它只访问经过网页分析算法预测为有用的网页。存在的个问题是，在爬虫抓取路径上的很多相关网页可能被忽略，因为最佳优先策略是种局部最优搜索算法。因此需要将最佳优先结合具体的应用进行改进，以跳出局部最优点。需求分析和模型设计网络爬虫的定义定义网络爬虫是个自动提取网页的程序，它为搜索引擎从上下载网页，是搜索引擎的重要组成部分。通用网络爬虫从个或若干初始网页的开始，获得初始网页上的列表在抓取网页的过程中，不断从当前页面上抽取新的放入待爬行队列，直到满足系统的停止条件。定义主题网络爬虫就是根据定的网页分析算法过滤与主题无关的链接......”。

2、“.....并重复上述过程，直到达到系统的条件时停止。所有被网络爬虫抓取的网页将会被系统存储，进行定的分析过滤，并建立索引，对于主题网络爬虫来说，这过程所得到的分析结果还可能对后续的抓取过程进行反馈和指导。定义如果网页中包含超链接，则称为链接的父网页。定义如果超链接指向网页，则网页称为子网页，又称为目标网页。主题网络爬虫的基本思路就是按照事先给出的主题，分超链接和已经下载的网页内容，预测下个待抓取的及当前网页的主题相关度，保证尽可能多地爬行下载与主相关的网页，尽可能少地下载无关网页。摘自百度百科网络爬虫的分类网络爬虫种类繁多，如果按照部署在哪里分，可以分成服务器侧般是个多线程程序，同时下载多个目标......”。

3、“.....但是，如果对方讨厌爬虫，很可能封掉服务器的，服务器又不容易改，另外耗用的带宽也是较贵。客户端很适合部署定题爬虫，或者叫聚焦爬虫。做个与，百度等竞争的综合搜索引擎成功的机会微乎其微，而垂直搜索或者比价服务或者推荐引擎，机会要多得多，这类爬虫不是什么页面都取的，而是只关心的页面，而且只取页面上关心的内容，例如提取黄页信息，商品价格信息，还有提取竞争对手广告信息的。这类爬虫可以部署很多，而且可以很有侵略性。摘自百度百科系统需求分析本节内容将简要的分析下个网络蜘蛛应该具有的基本功能，包括下载网页分解网页遍历网络存储网页等。网络蜘蛛的技术难度并不是很高，但是要开发个速度快稳定性高的网络蜘蛛还是要下番功夫的。下载网页网络蜘蛛最基本的功能是能够从给定的网址下载网页......”。

4、“.....但却要考虑几个问题。首先，要解决网页的编码问题，联通世界各个角落，每个国家和地区的网站使用着不同的编码，即使同在个国家的网站其使用的网页编码规则也不尽相同。比如说在我国，有些网站使用编码，有些则使用。如果对网页的编码不加判断的话，很有可能出现乱码。其次，网络的访问速度相对与的运算速度来说是非常慢的，因此，如果被设计成单线程的阻塞模型的程序的话，其抓取速度必然不能让人满意。可以考虑采用多线程或采用其它的模型来提升蜘蛛的抓取速度。第三，网络蜘蛛只下载网站中的文本信息如页面等等，并不下载图片软件视音频文件等等。分解网页网络蜘蛛并不是单纯的把网页批量下载到本地硬盘的工具，它的目标是从网页中提取定的结构化的信息，比如说网页的标题网页的内容网页的大小网页中的链接等等......”。

5、“.....因为大部分的标签以及代码对我们的后期要进行的查询工作等都是冗余的，所以应该将它们剔除。网页的标题并不是简单地指网页源码中标签内的文本，而是指网页源码中最能概括出该网页内容的句话。提取网页的链接也不只是简单地提取源码中所有后面的，还包括框架页面，以及脚本中的自动转向页面地址。遍历网络本项目要开发的蜘蛛与等大型搜索引擎的蜘蛛不同，它的访问范围并不是整个互联网，而是用户指定的个或多个网站，因此蜘蛛在遍历网络的时候不能够漫无边际的爬行，而是在制定的范围内。网络遍历的算法可以是深度优先搜索宽度优先搜索启发式搜索等算法。存储网页由于本项目只是专注与网络蜘蛛的实现，为了便于测试，可以选用数据库。网络蜘蛛把网页中的相关信息抽取出以后插入到数据库的对应字段中......”。

6、“.....即开始要爬取的。由任务列表开始，根据预先设定的关键字取网页，同时判断是否重复，按照定算法和排序方式搜索页面，然后对页面按照定算法进行分析，并提取相关，最后将所得返回任务列表。之后将任务列表中重新开始爬取，从而使网络爬虫进行循环运行。如图所示图系统流程图站点列表里面存储着用户指定的网站首页，程序运行后将其插入到优先队列，下载模块从优先队列里取出，把对应的网页下载下来，然后将网页源码交给分析模块，分析模块对网页进行分解，分析模块维护着张字典或表，记录着所有已经访问的，然后分析模块将所有未访问过的链接提取出来插入到优先队列，再把提取出的网页的标题内容大小等信息存入数据库。整个虚线方框里的过程是不断循环往复的，直到优先队列为空要获取的对象是存在于网络上数以亿计的网页......”。

7、“.....每网页对应个超链接，也称统资源定位符。我们可以把网络看成个图网络中的网页构成节点集，他们之间的链接构成边集，正是从节点开始，沿着边，遍历图，每访问到图中个节点，就进行定的处理。以下是本程序爬虫使用的框架，看起来更像是主题爬虫的框架。这是个单线程的框架，采用多线程技术是我们可看成是多个这个样的爬虫并发的的执行。数据库结构本项目的数据库结构很简单，总共两个表，个是未站点列表，个是网页存储表。图表示的表用于保存未访问的的信息表。图未访问的站点存储表图显示的是表的设计，用于保存已经访问的的信息图网页存储表技术选型简介是由公司于年月推出的面向对象程序设计语言以下简称语言和平台的总称。由和同事们共同研发，并在年正式推出......”。

8、“.....平台由虚拟机，简称和应用编程接口，简称构成。应用编程接口为应用提供了个独立于操作系统的标准接口，可分为基本部分和扩展部分。在硬件或操作系统平台上安装个平台之后，应用程序就可运行。平台已经嵌入了几乎所有的操作系统。这样程序可以只编译次，就可以在各种系统中运行。公司对编程语言的解释是编程语言是个简单面向对象分布式解释性健壮安全与系统无关可移植高性能多线程和动态的语言。平台是基于语言的平台。摘自百度百科基本介绍是个开放源代码的基于的可扩展开发平台。就其本身而言，它只是个框架和组服务，用于通过插件组件构建开发环境。幸运的是，附带了准的插件集，包括开发工具，。虽然大多数用户很乐于将当作集成开发环境来使用，但的目标却不仅限于此......”。

9、“.....因为它允许他们构建与环境无缝集成的工具。由于中的每样东西都是插件，对于给提供插件，以及给用户提供致和统的集成开发环境而言，所有工具开发人员都具有同等的发挥场所。摘自百度百科网络爬虫模型的总体设计网络爬虫总体设计根据本网络爬虫的概要设计本网络爬虫是个自动提取网页的程序，根据设定的主题判断是否与主题相关，再根据已下载的网页上继续访问其它的网页，并将其下载直到满足用户的需求。设计基于多线程的网络爬虫。通过将待爬取列表对应的的网页代码提取出来。提取出所需要的信息并且通过算法判断网页是否和设定的主题相关。广度优先搜索，从网页中个链接出发，访问该链接网页上的所有链接，访问完成后，再通过递归算法实现下层的访问，重复以上步骤。总的来说爬虫程序根据输入获得任务列表，即初始种子......”。

温馨提示：手指轻点页面，可唤醒全屏阅读模式，左右滑动可以翻页。