帮帮文库

返回

毕业论文:搜索引擎的研究与实现 毕业论文:搜索引擎的研究与实现

格式:word 上传:2022-06-24 19:06:40
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
毕业论文:搜索引擎的研究与实现.doc预览图(1)
1 页 / 共 28
毕业论文:搜索引擎的研究与实现.doc预览图(2)
2 页 / 共 28
毕业论文:搜索引擎的研究与实现.doc预览图(3)
3 页 / 共 28
毕业论文:搜索引擎的研究与实现.doc预览图(4)
4 页 / 共 28
毕业论文:搜索引擎的研究与实现.doc预览图(5)
5 页 / 共 28
毕业论文:搜索引擎的研究与实现.doc预览图(6)
6 页 / 共 28
毕业论文:搜索引擎的研究与实现.doc预览图(7)
7 页 / 共 28
毕业论文:搜索引擎的研究与实现.doc预览图(8)
8 页 / 共 28
毕业论文:搜索引擎的研究与实现.doc预览图(9)
9 页 / 共 28
毕业论文:搜索引擎的研究与实现.doc预览图(10)
10 页 / 共 28
毕业论文:搜索引擎的研究与实现.doc预览图(11)
11 页 / 共 28
毕业论文:搜索引擎的研究与实现.doc预览图(12)
12 页 / 共 28
毕业论文:搜索引擎的研究与实现.doc预览图(13)
13 页 / 共 28
毕业论文:搜索引擎的研究与实现.doc预览图(14)
14 页 / 共 28
毕业论文:搜索引擎的研究与实现.doc预览图(15)
15 页 / 共 28

1、上较全面的信息是不太可能的。针对这种情况,我们需要个分类细致精确数据全面深入更新及时的面向主题的搜索引擎。由于主题搜索运用了人工分类以及特征提取等智能化策略,因此它比上面提到的前三代的搜索引擎将更加有效和准确,我们将这类完善的主题搜索引擎称为第四代搜索引擎。面向主题的搜索策略导向词导向词就是组关键词,它们会引导搜索器按照定顺序搜索整个网络,使得搜索引擎可以在最短的时间里面得到最全面的跟个主题相关的信息。通过设置导向词以及它们对应的不同权值,所有标题作者正文或超连接文本中含有导向词的网页都会被赋予较高的权值,在搜索的时候会优先考虑。搜索器在向主控程序获得的时候也是按照权值由高到低的顺序。反之,搜索器在向主控程序提交新的和它的权值的时候,主控程序会按照权值预先排序,以便下次有序的发给搜索器。

2、然后通过其超链接在访问其他页面,如此反复理论上可以扫描互联网上的所有页面。基于因特网的搜索引擎是的最早应用。例如搜索巨头公司,就利用网络机器人程序来遍历站点,以创建并维护这些大型数据库。网络机器人还可以通过扫描站点的主页来得到这个站点的文件清单和层次机构。还可以扫描出中断的超链接和拼写等。网络机器人的结构分析是建立在很多相关协议基础上的,而更复杂的协议又建立在系统层协议之上。就是建立在协议基础上,而又是建立在协议之上,它同时也是种协议。所以网络机器人本质上是种基于的网络程序。如何解析因为中的信息都是建立在协议之上的,所以网络机器人在检索网页时的第个问题就是如何解析。在解决如何解析之前,先来介绍下中的几种数据。文本除了脚本和标签之外的所有数据注释程序员留下的说明文字,对用户是不可见的简单。

3、者包含这两种文件的目录,另外还会有个目录,这个目录很重要。通常在目录下有个文件和个目录,是这个应用的配置文件,而目录下则包含编译好的类和或所依赖的其它类如。通常这些所依赖的类也可以打包成放到下的目录下,当然也可以放到系统的中。在中,应用程序的部署很简单,你只需将你的放到的目录下,会自动检测到这个文件,并将其解压。你在浏览器中访问这个应用的时,通常第次会很慢,因为要将转化为文件,然后编译。编译以后,访问将会很快。小节本章中详细介绍了如何构架基于的服务器,使得用户通过浏览器进行新闻的搜索,最后还对如何部署进行了说明。第六章搜索引擎策略简介随着信息多元化的增长,千篇律的给所有用户同个入口显然已经不能满足特定用户更深入的查询需求。同时,这样的通用搜索引擎在目前的硬件条件下,要及时更新以得到互联。

4、关度等。这些指标决定了搜索引擎的技术指标。搜索引擎的技术指标决定了搜索引擎的评价指标。好的搜索引擎应该是具有较快的反应速度和高召回率准确率的,当然这些都需要搜索引擎技术指标来保障。召回率次搜索结果中符合用户要求的数目与用户查询相关信息的总数之比准确率次搜索结果中符合用户要求的数目与该次搜索结果总数之比相关度用户查询与搜索结果之间相似度的种度量精确度对搜索结果的排序分级能力和对垃圾网页的抗干扰能力小节以上对基于因特网的搜索引擎结构和性能指标进行了分析,本人在这些研究的基础上利用技术和些工具实现了个简单的搜索引擎新闻搜索引擎。在接下来的几章里将会就本人的设计进行详细的分析。第三章网络机器人什么是网络机器人网络机器人又称为程序,是种专业的程序。用于查找大量的页面。它从个简单的页面上开始执行,。

5、列,他们每个队列都保存着同处理状态的。务器要好。用户接口设计客户端设计个良好的查询界面非常重要,例如就以她简洁的查询界面而闻名。我在设计的时候也充分考虑了实用性和简洁性。查询界面截图如下搜索结果截图如下服务端设计主要利用技术实现,用户通过方法从客户端向服务端提交查询条件,服务端通过的容器接受并分析提交参数,再调用的开发包进行搜索操作。最后把搜索的结果以消息包的形式发送至客户端,从而完成次搜索操作。服务端程序的结构如下实现的关键代码如下,从索引目录创建索引创建标准分析器查询条件是个抽象类搜索结果新闻搜索引擎搜索关键字总共找到条新闻,没有找到,在上部署项目中的应用程序是个文件。是提出的种应用程序格式,与类似,也是许多文件的个压缩包。这个包中的文件按定目录结构来组织通常其根目录下包含有和文件。

6、网页评级在考虑个网页被另个网页的引用时候,不是单纯的将被引用网页的加,而是将引用网页的连接数作为权,同时将该引用网页的重要性也考虑进来看看上面提到的例子引用的网页显然比个人网站引用的网页重要,因为,本身很重要,就可以得到扩展后的网页评分。最早提出网页评分的计算方法是。它们提出了个随机冲浪模型来描述网络用户对网页的访问行为。模型假设如下用户随机的选择个网页作为上网的起始网页看完这个网页后,从该网页内所含的超链内随机的选择个页面继续进行浏览沿着超链前进了定数目的网页后,用户对这个主题感到厌倦,重新随机选择个网页进行浏览,并重复和。按照以上的用户行为模型,每个网页可能被访问到的次数就是该网页的链接权值。如何计算这个权值呢采用以下公式进行计算其中代表第个网页的权值只取值,代表从网页。

7、签由单个表示的标签开始标签和结束标签用来控制所包含的代码我们在进行解析的时候不用关心所有的标签,只需要对其中几种重要的进行解析即可。超连接标签超连接定义了通过链接文档的功能。他们的主要目的是使用户能够任意迁移到新的页面,这正是网络机器人最关心的标签。图像映射标签图像映射是另种非常重要的标签。它可以让用户通过点击图片来迁移到新的页面中。表单标签表单是页面中可以输入数据的单元。许多站点让用户填写数据然后通过点击按钮来提交内容,这就是表单的典型应用。表格标签表格是的构成部分,通常用来格式化存放显示数据。我们在具体解析这些标签有两种方法通过中的类来解析或者通过包中的类来解析,本人在实际编程中采用后者。包中的类用来从指定中读取数据并检索出有用的信息。下面给出该类几种重要的方法。构造函数构造对象并。

8、等性能。参考文献文献资料美著搜索引擎与信息获取技术徐宝文张卫丰著基于的全文搜索引擎车东著④主题搜索引擎的设计与实现罗旭著美著开发工具平台及资源④感谢源码爱好者目录目录摘要第章引言第二章搜索引擎的结构系统概述搜索引擎的构成网络机器人索引与搜索服务器搜索引擎的主要指标及分析小节第三章网络机器人什么是网络机器人网络机器人的结构分析如何解析程序结构如何构造程序如何提高程序性能网络机器人的代码分析小节第四章基于的索引与搜索什么是全文检索的原理分析全文检索的实现机制的索引效率中文切分词机制与的结合小节第五章基于的服务器什么是基于的服务器用户接口设计客户端设计服务端设计在上部署项目小节第六章搜索引擎策略简介面向主题的搜索策略导向词权威网页和中心网页小节参考文献摘要网络中的资源非常丰富,但是如何有效的。

9、定用于通讯的对象方法获取最后次调用方法检索到的表单清单方法获取发送给构造函数的对象方法获取指定页面的图片清单方法获取指定页面的连接清单方法打开个页面并读入该页面,若指定了回调对象则给出所有该对象数据,程序结构网络机器人必须从个网页迁移到另个网页,所以必须找到该页面上的超连接。程序首先解析网页的代码,查找该页面内的超连接然后通过递归和非递归两种结构来实现程序。递归结构递归是在个方法中调用自己本身的程序设计技术。虽然比较容易实现但耗费内存且不能使用多线程技术,故不适合大型项目。非递归结构这种方法使用队列的数据结构,当程序发现超连接后并不调用自己本身而是把超连接加入到等待队列中。当程序扫描完当前页面后会根据制定的策略访问队列中的下个超连接地址。虽然这里只描述了个队列,但在实际编程中用到了四个。

10、索引擎个很关键的任务就是从互联网上无数的网页之中最快最准的找出这些可数的权威网页,并为他们建立索引。这也是有效区别主题搜索引擎和前三代传统通用搜索引擎的重要特征。中心网页是包含很多指向权威网页的超链接的网页。最典型中心网页的个例子是它的目录结构指向了很多主题的权威网页,使得它兼任了很多主题的中心网页。由中心网页出发,轻而易举的就会到达大量的权威网页。因此,它对于主题搜索引擎的实现也起了很大的意义。权威网页和中心网页之间是种互相促进的关系个好的中心网页必然要有超链接指向多个权威网页个好的权威网页反过来也必然被多个中心网页所链接。小节本章介绍了面向主题的搜索策略,并作了详细阐述。虽然在新闻搜索中并没有应用到搜索策略,但是对于搜索引擎来说,搜索策略是极其重要的。他直接关系到搜索的质量以及匹配。

11、索信息却是件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人索引引擎服务器三个方面进行详细的说明。为了更加深刻的理解这种技术,本人还亲自实现了个自己的搜索引擎新闻搜索引擎。新闻搜索引擎是从指定的页面中按照超连接进行解析搜索,并把搜索到的每条新闻进行索引后加入数据库。然后通过服务器接受客户端请求后从索引数据库中搜索出所匹配的新闻。本人在介绍搜索引擎的章节中除了详细的阐述技术核心外还结合了新闻搜索引擎的实现代码来说明,图文并茂易于理解。,第章引言面对浩瀚的网络资源,搜索引擎为所有网上冲浪的用户提供了个入口,毫不夸张的说,所有的用户都可以从搜索出发到达自己想去的网上任何个地方。因此它也成为除了电子邮件以外最多人使用的网上服。

12、网页是否存在链接代表网页有多少个链向其它网页的链接代表随机冲浪中沿着链接访问网页的平均次数。选择合适的数值,递归的使用以上公式,即可得到理想的网页链接权值。该方法能够大幅度的提高简单检索返回结果的质量,同时能够有效的防止网页编写者对搜索引擎的欺骗。因此可以将其广泛的应用在检索器提供给用户的网页排序上,对于网页评分越高的网页,就排的越前。权威网页和中心网页权威网页顾名思义,是给定主题底下的系列重要的权威的网页。其重要性和权威性主要体现在以下两点从单个网页来看,它的网页内容本身对于这个给定主题来说是重要的从这个网页在整个互联网重的地位来看,这个网页是被其他网页承认为权威的,这主要体现在跟这个主题相关的很多网页都有链接指向这个网页。由此可见,权威网页对于主题搜索引擎的实现有很重大的意义。主题。

参考资料:

[1]毕业论文:搜索引擎的信息覆盖率评测模型研究(第20页,发表于2022-06-24)

[2]毕业论文:搅拌车前悬架钢板弹簧的计算分析及试验研究(第29页,发表于2022-06-24)

[3]毕业论文:搅拌摩擦焊焊接工装设计(第113页,发表于2022-06-24)

[4]毕业论文:搅拌器设计说明书(第34页,发表于2022-06-24)

[5]毕业论文:搅拌器的设计(第41页,发表于2022-06-24)

[6]毕业论文:搅拌器毕业设计(第34页,发表于2022-06-24)

[7]毕业论文:插板底座注塑模具设计(第28页,发表于2022-06-24)

[8]毕业论文:插座面板注塑模设计(第27页,发表于2022-06-24)

[9]毕业论文:插卡器面板注塑模具设计(第51页,发表于2022-06-24)

[10]毕业论文:提高电气工程及自动化专业毕业设计质量探讨(第8页,发表于2022-06-24)

[11]毕业论文:提高沥青路面平整度的研究论文(第46页,发表于2022-06-24)

[12]毕业论文:提高普通建筑的保温隔热措施(第16页,发表于2022-06-24)

[13]毕业论文:提速客车制动系统的研讨(第28页,发表于2022-06-24)

[14]毕业论文:提手塑料模设计(第50页,发表于2022-06-24)

[15]毕业论文:掺铒光纤放大器的原理与应用(第33页,发表于2022-06-24)

[16]毕业论文:掺杂Tb3的ZnO-Ga2O3-SiO2玻璃陶瓷的制备及其发光性能(第37页,发表于2022-06-24)

[17]毕业论文:掩护式液压支架的设计(第82页,发表于2022-06-24)

[18]毕业论文:推定与司法认知之比较研究(第11页,发表于2022-06-24)

[19]毕业论文:推动架零件的机械加工工艺规程设计(第22页,发表于2022-06-24)

[20]毕业论文:推动架零件机械加工工艺规程及工艺装备设计(第25页,发表于2022-06-24)

预览结束,还剩 13 页未读
阅读全文需用电脑访问
温馨提示 电脑下载 投诉举报

1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。

2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。

3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。

1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。

2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。

3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。

4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。

5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。

毕业论文:搜索引擎的研究与实现
帮帮文库
页面跳转中,请稍等....
帮帮文库

搜索

客服

足迹

下载文档