doc 搜索引擎的研究与实现 ㊣ 精品文档 值得下载

🔯 格式:DOC | ❒ 页数:28 页 | ⭐收藏:0人 | ✔ 可以修改 | @ 版权投诉 | ❤️ 我的浏览 | 上传时间:2022-06-25 17:15

搜索引擎的研究与实现

词库才能够比较准确的识别出语句中的单词。另外个解决的办法是采用自动切分算法将单词按照元语法方式切分出来,比如北京天安门北京京天天安安门。这样,在查询的时候,无论是查询北京还是查询天安门,将查询词组按同样的规则进行切分北京天安安门,多个关键词之间按与的关系组合,同样能够正确地映射到相应的索引中。这种方式对于其他亚洲语言韩文,日文都是通用的。基于自动切分的最大优点是没有词表维护成本,实现简单,缺点是索引效率低,但对于中小型应用来说,基于元语法的切分还是够用的。基于元切分后的索引般大小和源文件差不多,而对于英文,索引文件般只有原文件的不同,自动切分词表切分实现实现非常简单实现复杂第页共页查询增加了查询分析的复杂程度,适于实现比较复杂的查询语法规则存储效率索引冗余大,索引几乎和原文样大索引效率高,为原文大小的左右维护成本无词表维护成本词表维护成本非常高中日韩等语言需要分别维护。还需要包括词频统计等内容适用领域嵌入式系统运行环境资源有限分布式系统无词表同步问题多语言环境无词表维护成本对查询和存储效率要求高的专业搜索引擎与的结合首先构造个类用来实现对内容进行索引。代码分析如下新闻搜索引擎计算机沈晨版本第页共页把每条新闻加入索引中新闻的新闻的标题优化并且清理资源然后构造个解析类,把通过程序收集的新闻内容进行索引。第页共页代码分析如下新闻搜索引擎计算机沈晨版本对页面进行解析后建立索引第页共页,共扫描到条新闻解决中的中文问题输入的中文经过解码的中文中,应用程序的部署很简单,你只需将你的放到的目录下,会自动检测到这个文件,并将其解压。你在浏览器中访问这个应用的时,通常第次会很慢,因为要将转化为文件,然后编译。编译以后,访问将会很快。小节本章中详细介绍了如何构架基于的服务器,使得用户通过浏览器进行新闻的搜索,最后还对如何部署进行了说明。第页共页第六章搜索引擎策略简介随着信息多元化的增长,千篇律的给所有用户同个入口显然已经不能满足特定用户更深入的查询需求。同时,这样的通用搜索引擎在目前的硬件条件下,要及时更新以得到互联网上较全面的信息是不太可能的。针对这种情况,我们需要个分类细致精确数据全面深入更新及时的面向主题的搜索引擎。由于主题搜索运用了人工分类以及特征提取等智能化策略,因此它比上面提到的前三代的搜索引擎将更加有效和准确,我们将这类完善的主题搜索引擎称为第四代搜索引擎。面向主题的搜索策略导向词导向词就是组关键词,它们会引导搜索器按照定顺序搜索整个网络,使得搜索引擎可以在最短的时间里面得到最全面的跟个主题相关的信息。通过设置导向词以及它们对应的不同权值,所有标题作者正文或超连接文本中含有导向词的网页都会被赋予较高的权值,在搜索的时候会优先考虑。搜索器在向主控程序获得的时候也是按照权值由高到低的顺序。反之,搜索器在向主控程序提交新的和它的权值的时候,主控程序会按照权值预先排序,以便下次有序的发给搜索器。网页评级在考虑个网页被另个网页的引用时候,不是单纯的将被引用网页的加,而是将引用网页的连接数作为权,同时将该引用网页的重要性也考虑进来看看上面提到的例子引用的网页显然比个人网站引用的网页重要,因为,本身很重要,就可以得到扩展后的网页评分。最早提出网页评分的计算方法是。它们提出了个随机冲浪模型来描述网络用户对网页的访问行为。模型假设如下用户随机的选择个网页作为上网的起始网页看完这个网页后,从该网页内所含的超链内随机的选择个页面继续进行浏览沿着超链前进了定数目的网页后,用户对这个主题感到厌倦,重新随机选择个网页进行浏览,并重复和。按照以上的用户行为模型,每个网页可能被访问到的次数就是该网页的链接权值。如何第页共页计算这个权值呢采用以下公式进行计算其中代表第个网页的权值只取值,代表从网页到网页是否存在链接代表网页有多少个链向其它网页的链接代表随机冲浪中沿着链接访问网页的平均次数。选择合适的数值,递归的使用以上公式,即可得到理想的网页链接权值。该方法能够大幅度的提高简单检索返回结果的质量,同时能够有效的防止网页编写者对搜索引擎的欺骗。因此可以将其广泛的应用在检索器提供给用户的网页排序上,对于网页评分越高的网页,就排的越前。权威网页和中心网页权威网页顾名思义,是给定主题底下的系列重要的权威的网页。其重要性和权威性主要体现在以下两点从单个网页来看,它的网页内容本身对于这个给定主题来说是重要的从这个网页在整个互联网重的地位来看,这个网页是被其他网页承认为权威的,这主要体现在跟这个主题相关的很多网页都有链接指向这个网页。由此可见,权威网页对于主题搜索引擎的实现有很重大的意义。主题搜索引擎个很关键的任务就是从互联网上无数的网页之中最快最准的找出这些可数的权威网页,并为他们建立索引。这也是有效区别主题搜索引擎和前三代传统通用搜索引擎的重要特征。中心网页是包含很多指向权威网页的超链接的网页。最典型中心网页的个例子是它的目录结构指向了很多主题的权威网页,使得它兼任了很多主题的中心网页。由中心网页出发,轻而易举的就会到达大量的权威网页。因此,它对于主题搜索引擎的实现也起了很大的意义。权威网页和中心网页之间是种互相促进的关系个好的中心网页必然要有超链接指向多个权威网页个好的权威网页反过来也必然被多个中心网页所链接。小节本章介绍了面向主题的搜索策略,并作了详细阐述。虽然在新闻搜索中并没有应用到搜索策略,但是对于搜索引擎来说,搜索策略是极其重要的。他直接关系到搜索的质量以及匹配度等性能。第页共页参考文献文献资料美著搜索引擎与信息获取技术徐宝文张卫丰著基于的全文搜索引擎车东著④主题搜索引擎的设计与实现罗旭著美著开发工具平台及资源④感谢源码爱好者,小节在进行海量数据搜索时,如果使用单纯的数据库技术,那将是非常痛苦的。速度将是极大的瓶颈。所以本章提出了使用全文搜索引擎进行索引搜索。最后,还结合了具体代码说明了如何把全文搜索引擎和程序互相集合来实现新闻搜索的功能。第页共页第五章基于的服务器什么是基于的服务器服务器是在网络中为实现信息发布资料查询数据处理等诸多应用搭建基本平台的服务器。服务器如何工作在页面处理中大致可分为三个步骤,第步,浏览器向个特定的服务器发出页面请求第二步,服务器接收到页面请求后,寻找所请求的页面,并将所请求的页面传送给浏览器第三步,服务器接收到所请求的页面,并将它显示出来。是个开放源代码运行和应用软件的基于的应用软件容器。由子项目支持并由来自开放性源代码社区的志愿者进行维护。是根据和规范进行执行的,因此我们就可以说也实行了规范且比绝大多数商业应用软件服务器要好。用户接口设计客户端设计个良好的查询界面非常重要,例如就以她简洁的查询界面而闻名。我在设计的时候也充分考虑了实用性和简洁性。查询界面截图如下第页共页搜索结果截图如下服务端设计主要利用技术实现,用户通过方法从客户端向服务端提交查询条件,服务端通过的容器接受并分析提交参数,再调用的开发包进行搜索操作。最后把搜索的结果以消息包的形式发送至客户端,从而完成次搜索操作。服务端程序的结构如下第页共页实现的关键代码如下,从索引目录创建索引创建标准分析器查询条件是个抽象类搜索结果新闻搜索引擎搜索关键字总共找到条新闻,第页共页,没有找到,在上部署项目中的应用程序是个文件。是提出的种应用程序格式,与类似,也是许多文件的个压缩包。这个包中的文件按定目录结构来组织通常其根目录下包含有和文件或者包含这两种文件的目录,另外还会有个目录,这个目录很重要。通常在目录下有个文件和个目录,是这个应用的配置文件,而目录下则包含编译好的类和或所依赖的其它类如。通常这些所依赖的类也可以打包成放到下的目录下,当然也可以放到系统的中。在时跟新的话,用户用搜索引擎也不能检索到。文档网络机器人程序建立索引从数据库中搜索信息服务器索引数据库浏览器浏览器网络机器人程序第页共页用户输入搜索条件后搜索程序将通过索引数据库进行检索然后把符合查询要求的数据库按照定的策略进行分级排列并且返回给用户。服务器客户般通过浏览器进行查询,这就需要系统提供服务器并且与索引数据库进行连接。客户在浏览器中输入查询条件,服务器接收到客户的查询条件后在索引数据库中进行查询排列然后返回给客户端。搜索引擎的主要指标及分析搜索引擎的主要指标有响应时间召回率准确率相关度等。这些指标决定了搜索引擎的技术指标。搜索引擎的技术指标决定了搜索引擎的评价指标。好的搜索引擎应该是具有较快的反应速度和高召回率准确率的,当然这些都需要搜索引擎技术指标来保障。召回率次搜索结果中符合用户要求的数目与用户查询相关信息的总数之比准确率次搜索结果中符合用户要求的数目与该次搜索结果总数之比相关度用户查询与搜索结果之间相似度的种度量精确度对搜索结果的排序分级能力和对垃圾网页的抗干扰能力小节以上对基于因特网的搜索引擎结构和性能指标进行了分析,本人在这些研究的基础上利用技术和些工具实现了个简单的搜索引擎新闻搜索引擎。在接下来的几章里将会就本人的设计进行详细的分析。第页共页第三章网络机器人什么是网络机器人网络机器人又称为程序,是种专业的程序。用于查找大量的页面。它从个简单的页面上开始执行,然后通过其超链接在访问其他页面,如此反复理论上可以扫描互联网上的所有页面。基于因特网的搜索引擎是的最

下一篇
搜索引擎的研究与实现第1页
1 页 / 共 28
搜索引擎的研究与实现第2页
2 页 / 共 28
搜索引擎的研究与实现第3页
3 页 / 共 28
搜索引擎的研究与实现第4页
4 页 / 共 28
搜索引擎的研究与实现第5页
5 页 / 共 28
搜索引擎的研究与实现第6页
6 页 / 共 28
搜索引擎的研究与实现第7页
7 页 / 共 28
搜索引擎的研究与实现第8页
8 页 / 共 28
搜索引擎的研究与实现第9页
9 页 / 共 28
搜索引擎的研究与实现第10页
10 页 / 共 28
搜索引擎的研究与实现第11页
11 页 / 共 28
搜索引擎的研究与实现第12页
12 页 / 共 28
搜索引擎的研究与实现第13页
13 页 / 共 28
搜索引擎的研究与实现第14页
14 页 / 共 28
搜索引擎的研究与实现第15页
15 页 / 共 28
温馨提示

1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。

2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。

3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。

4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。

5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。

  • 文档助手,定制查找
    精品 全部 DOC PPT RAR
换一批