帮帮文库

返回

校园网搜索引擎的分析与设计-精品设计(最终版) 校园网搜索引擎的分析与设计-精品设计(最终版)

格式:word 上传:2025-12-24 21:53:11
为了防止蜘蛛程序在爬取过程中碰到循环链接不停地爬取,我们就以类建立个全局对象,保存已经爬行的地址,分析获得的网页,提取出其中的与里的进行比较,若检测出还没有爬行,则将其加入到队列里等待。整体工作流程为由主线程启动所有并发线程进行爬取,每个线程爬取任务通过接口函数向主线程的取得任务并移除里的任务,保持先进先出,每次取队列中第个元素。同时在工作过程中爬取到新的,就将其加入到队列中,取得任务并完成后就向写入。网络蜘蛛整体的流程图如图所示图网络蜘蛛流程图程序实现分析根据前面设计分析的介绍,可知,在设计蜘蛛程序时要解决的问题有以下几个分析下载页面分析多线程分析。分析蜘蛛程序进行搜索页面时,首先要获取网页头信息,而网页头信息是通过提取标记来获得的。而语言本身不包含解析的能力,但支持解析不过,有着严格的语法,而语法要宽松得多,的语法是极不致的,因此,我们需要设计个解析器。下载页面分析在分析页面之后,接着是如何下载页面。前面在设计思路里,已经提到过可以通过使用命名空间下的类实现下载页面。在下载时要先判断该文件是二进制文件还是文本文件,如果该文件不是文本文件,我们将它作为二进制文件读入。如果是文本文件,则需要先从创建个方法,然后将文本文件的内容行行加入缓冲区装入整个文件之后,接着就要把它保存为文本文件。多线程分析我们在设计蜘蛛程序时通常都是运用多线程技术来提高蜘蛛程序获取网页的效率的。因为对于蜘蛛程序来说,它每发出个请求,总是要等待文件下载完毕,远程服务器页面缓存分析连接提取分析下载网页未访问队列已访问初始比较加入加入本地磁盘保存然后再请求下个。这样就会有许多时间花在等待上。如果蜘蛛程序能够同时请求多个,相间的等待要下载的文件,这样显然能够有效地减少总的下载时间。设计多线程的蜘蛛程序可以提高其爬行效率,但是多线程并行爬取的网页质量不如单线程的蜘蛛程序爬取得到的网页质量好。所以在设计蜘蛛程序时这点也要考虑的。程序代码设计经过上述的从设计思路设计分析到程序实现,这么系列分析下来,整个蜘蛛程序的设计相对来说变得简单了。下面讲述下本程序的设计中各个类的关系及类的详细信息。整个程序的主要类关系图如下图图图图主要类关系图图主要类关系图在本程序中,对蜘蛛程序的控制操作如启动停止主要由类完成而类的主要作用是在单个线程工作时,它会对相应的页面进行分析,并下载个所链接的页面保存到本地磁盘,还有对线程的启动停止的控制等操作。在线程工作时,我们还要对线程的工作状态进行判断,这里可以用类里的相应方法来判断线程是否完成工作。在图中,显示的是类类类类之间的继承关系,这几个类主要是用于分析网页标签和进行网页分析的类。在介绍了本程序主要类关系之后,下面介绍各个类设计的详细信息。类该类为程序的主类,继承自类,类本身并不做获取网页的具体工作,而是协调其它各类共同完成任务。此类主要是定义各种方法属性,供其他类调用。各个方法的作用如图类的详细信息所示。图类的详细信息图类该类主要是完成必须由单个工作线程执行的操作,包括等待可用的,下载和处理页面等实际操作,该类中的各个方法属性相应的作用如图的详细信息所其相应的网络蜘蛛设计也就向这些方向发展。如何提高蜘蛛程序优先爬取重要网页,提取重要的研究新的,更好搜索策略,以进步提高其工作效率如何将信息抽取更加深层次的与信息检索相结合随着网络上动态网页的不断增加,对动态网页的爬取是网页获取的难点和重点,有待于进步研究。参考文献白岩,董琦,康红,周芮网络搜索引擎吉林长春信息化与网络建设徐险峰网络信息检索搜索引擎技术及发展趋势湖南张家界江西图书馆学刊彭建荣,罗永会搜索引擎的基本原理及发展趋势云南大理电脑知识技术李铃搜索引擎发展方向云南昆明科技情报开发与经济李盛韬,赵章界,余智华基于主题的信息采集系统的设计与实现北京中国科学院计算技术研究所软件研究室,周军,迟呈英基于校园网的中文搜索引擎系统鞍山沈阳师范大学学报自然科学版陈伟斌,张鑫种基于校园网的元搜索引擎的研究与设计杭州现代计算机华伟臣,张秀琼网络蜘蛛搜索研究四川乐山乐山师范学院学报杜亚军,严兵,宋亮爬行虫算法设计与程序实现四川成都计算机应用宋聚平,王永成,滕伟,许欢庆搜索引擎中搜索算法的优化上海情报学报林彤,赵政网上机器人及其实现天津天津大学学报李学勇,欧阳柳波,李国徽,钟敏娟网络蜘蛛搜索策略比较研究湖南长沙计算机工程与应用董瑞洪,张秋余,唐静兵,张涛抢先式多线程在智能搜索引擎中的实现兰州计算机工程美,童兆丰,李纯,刘润杰网络机器人编程指南北京电子工业出版社,付克志基于的文本信息检索算法的研究大连大连理工大学吴小竹基于的多线程的设计与实现福建福州福建电脑叶允明,于水,马范援,宋晖,张岭分布式的研究结构算法和策略上海电子学报张晓滨,石美红,蔡桂洲校园网搜索引擎设计陕西西安西安工程科技学院学报刘世涛简析搜索引擎中网络爬虫的搜索策略江苏连云港阜阳师范学院学报自然科学版赫枫龄,左万利利用超链接信息改进网页爬行器的搜索策略吉林长春吉林大学学报信息科学版刘洋基于的内容挖掘技术研究哈尔滨哈尔滨工程大学陈杰主题搜索引擎中网络蜘蛛搜索策略研究杭州浙江大学李晓明,闫宏飞,王继民搜索引擎原理技术与系统北京科学出版社,唐雅媛基于搜索引擎的网络蜘蛛实现原理的研究湖南永州湖南科技学院学报,示。图类的详细信息图类该类用于判断蜘蛛程序所处的状态,该类的各个类的方法及属性作用如图所示。图类的详细信息图类该类继承自类,用于分析网页并获取网页的标签。图类的详细信息图类该类继承自类,主要用于分析文本文件,提取网页标签,在图中,显示了该类中的各个方法的名称及作用。图类的详细信息图类用于获取指定的网页源码并保存到指定的本地磁盘。图类的详细信息图运行测试运行测试,程序设计完成之后,测试本程序的各个功能是否达到预期的效果。程序运行后的主界面如图所示图程序运行主界面图在主界面点击设置搜索范围后,弹出如图所示的窗口。图设置搜索范围图在该窗口上方的文本框里,可以输入个完整的网址,按添加单个按钮后,即将输入的网址添加到已经添加的网址列表框中,这里存放的地址即是待访问的网址,也就是初始集合。我们在添加时,可以把要添加的放在个名为的文件里,这时,就可以按导入集,选择文件,即可把该文件里所有内容读取到已经添加的网址列表框中。若要从已经添加的网址的列表框中删除网址,可以选定个网址然后单击删除按钮,即可删除选中的网址。单击确定按钮即完成搜索范围的设置,并自动关闭设置搜索范围的窗口。回到主界面后,可以选择其他设置选项按钮,进行其他方面的设置,其界面如图所示。在基本选项里可以设置程序运行时需要的线程数,设置索引存放目录,索引文件里存放的是爬行过的及其相关提取信息关键词,标签等。图其他设置选项图在文件存放选项里,可以设置下载下来经过过滤之后的网页文件存放目录,如图所示。图文件存放图在输出这个选项里可以选择是否要显示处理的。当把这个选项选上时,在程序状态框里会显示正在处理的及处理过的,如图所示。图输出图经过这些设置后,单击确定即可完成所有选项的设置并自动关闭其他设置选项窗口然后回到程序主界面。在单击开始爬取按钮后,程序就开始运行并根据给定的初始集爬取其对应的网页。而在单击开始爬取按钮后,此按钮会显示成完成。如图所示,若再单击此按钮,则程序会停止爬取。在程序界面的下方,显示出当前爬取过的数,已用的爬取时间,未处理的文件个数。当单击清空状态栏按钮时,则在状态框里显示为空白。在完成爬取后,单击退出程序按钮后,则退出本程序。图爬行时的状态图蜘蛛程序是根据给定的集自动爬取网页,所以设计了定时爬取功能。系统当前时间显示的是程序所在服务器系统的当前时间,定时爬取时间是用户希望在个时间爬取网页的时间。在用户完成搜索范围及其他设置选项后,用户可以在定时爬取时间的文本框里按照系统当前时间的格式输入时间,当系统当前时间到达用户输入的定时爬取时间后,程序就触发开始爬取按钮事件,自动开始爬取网页,直到队列为空为止。经测试,本程序对爬取数据量较小的校园网来说,可以正常运行,并能爬取得到相应的页面。总结随着的迅速发展和校园网的普及壮大,网络上的信息资源成指数级增长,通用搜索引擎给我们查找网络信息提供了便利,但由于信息量的庞大以及各类信息的复杂性和人们需求的多样性,利用通用搜索引擎检索出的信息量庞大,不太适用于特定的服务领域。因此,本文就针对校园网用户来设计校园网搜索引擎中的网络蜘蛛模块,开发高性能的网络蜘蛛对于提高搜索引擎的整体性能起着至关重要的作用,也是研究和开发新代的搜索引擎必然要求。本文在阅读了大量国内外的关于搜索引擎及网络蜘蛛技术的文献基础上,分析了搜索引擎及网络蜘蛛的工作原理,利用相关技术实现了网络蜘蛛的分析与设计。搜索引擎的未来发展方向是专业化智能化个性化等方向,那么与并建立索引数据库即可。广度优先策略广度优先搜索策略是指在爬取过程中,先完成爬取起始网页中链接的所有网页,然后再选择其中的个链接,继续爬取在此网页中链接的所有网页。直到完成所有层的爬取。在目前为覆盖尽可能多的网页,般使用广度优先搜索方法。因为这个方法可以让网络蜘蛛并行处理,提高其爬取速度。同时也保证了对浅层的首先处理。从而爬取相对来说更为重要的网页。但是如果要遍历个指定的站点或者深层嵌套的文件集,用广度优先搜索策略这样层层爬取则需要花
下一篇
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
校园网搜索引擎的分析与设计-精品设计.doc预览图(1)
1 页 / 共 22
校园网搜索引擎的分析与设计-精品设计.doc预览图(2)
2 页 / 共 22
校园网搜索引擎的分析与设计-精品设计.doc预览图(3)
3 页 / 共 22
校园网搜索引擎的分析与设计-精品设计.doc预览图(4)
4 页 / 共 22
校园网搜索引擎的分析与设计-精品设计.doc预览图(5)
5 页 / 共 22
校园网搜索引擎的分析与设计-精品设计.doc预览图(6)
6 页 / 共 22
校园网搜索引擎的分析与设计-精品设计.doc预览图(7)
7 页 / 共 22
校园网搜索引擎的分析与设计-精品设计.doc预览图(8)
8 页 / 共 22
校园网搜索引擎的分析与设计-精品设计.doc预览图(9)
9 页 / 共 22
校园网搜索引擎的分析与设计-精品设计.doc预览图(10)
10 页 / 共 22
校园网搜索引擎的分析与设计-精品设计.doc预览图(11)
11 页 / 共 22
校园网搜索引擎的分析与设计-精品设计.doc预览图(12)
12 页 / 共 22
校园网搜索引擎的分析与设计-精品设计.doc预览图(13)
13 页 / 共 22
校园网搜索引擎的分析与设计-精品设计.doc预览图(14)
14 页 / 共 22
校园网搜索引擎的分析与设计-精品设计.doc预览图(15)
15 页 / 共 22
预览结束,还剩 7 页未读
阅读全文需用电脑访问
温馨提示 电脑下载 投诉举报

1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。

2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。

3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。

  • Hi,我是你的文档小助手!
    你可以按格式查找相似内容哟
DOC PPT RAR 精品 全部
小贴士:
  • 🔯 当前文档为word文档,建议你点击DOC查看当前文档的相似文档。
  • ⭐ 查询的内容是以当前文档的标题进行精准匹配找到的结果,如果你对结果不满意,可以在顶部的搜索输入框输入关健词进行。
帮帮文库
换一批

搜索

客服

足迹

下载文档