帮帮文库

doc 搜索引擎的研究与实现 ㊣ 精品文档 值得下载

🔯 格式:DOC | ❒ 页数:28 页 | ⭐收藏:0人 | ✔ 可以修改 | @ 版权投诉 | ❤️ 我的浏览 | 上传时间:2022-06-24 07:59

《搜索引擎的研究与实现》修改意见稿

1、以下这些语句存在若干问题,包括语法错误、标点使用不当、语句不通畅及信息不完整——“.....然后通过其超链接在访问其他页面,如此反复理论 上可以扫描互联网上的所有页面。 基于因特网的搜索引擎是的最础上,而又是建立在 协议之上,它同时也是种 协议。所以网络机器人本质上是种基于的网络程序。 如何解析 因为中的信息都是建立在协议之上的,所以网络机器人在检索网页时的第 个问题就是如何解析。在解决如何解析之前,先来介绍下中的几种数据。 文本除了脚本和标签之外的所有数据 注释程序员留下的说明文字,对用户是不可见的 简单标签由单个表示的标签 开始标签和结束标签用来控制所包含的代码 我们在进行解析的时候不用关心所有的标签,只需要对其中几种重要的进行解析即可。 超连接标签 超连接定义了通过链接文档的功能。他们的主要目的是使用户能够任意迁 移到新的页面,这正是网络机器人最关心的标签......”

2、以下这些语句存在多处问题,具体涉及到语法误用、标点符号运用不当、句子表达不流畅以及信息表述不全面——“.....查找该页面内的超连接然后通过递归和非递归两种结构来实 现程序。 递归结构 递归是在个方法中调用自己本身的程序设计技术。虽然比较容易实现但耗费内存且不能使第页共页 用多线程技术,故不适合大型项目。 非递归结构 这种方法使用队列的数据结构,当程序发现超连接后并不调用自己本身而是把超连 接加入到等待队列中。当程序扫描完当前页面后会根据制定的策略访问队列中的下 个超连接地址。 虽然这里只描述了个队列,但在实际编程中用到了四个队列,他们每个队列都保存着 同处理状态的。 等待队列在这个队列中,等待被程序处理。新发现的也被加入到这个队列中 处理队列当程序开始处理时,他们被送到这个队列中 队列如果在解析网页时出错,将被送到这里。该队列中的不能被移入其他队列中 完成队列如果解析网页没有出错,将被送到这里......”

3、以下这些语句在语言表达上出现了多方面的问题,包括语法错误、标点符号使用不规范、句子结构不够流畅,以及内容阐述不够详尽和全面——“.....可以通过回调函数接受所遇到的页面。接口定义了 向他的控制者发送的几个事件。通过提供对每个事件的处理程序,可以创建各种程 序。下面是他的接口声明 如何提高程序性能 中拥有海量的页面,如果开发出高效的程序是非常重要的。下面就 来介绍下几种提高性能的技术 的多线程技术 线程是通过程序的条执行路线。多线程是个程序同时运行多个任务的能力。它是在 个程序的内部进行分工合作。 优化程序的通常方法是确定瓶颈并改进他。瓶颈是个程序中最慢的部分,他限制了其 他任务的运行。据个例子说明个程序需要下载十个页面,要完成这任务,程 序必须向服务器发出请求然后接受这些网页。当程序等待响应的时候其他任务不能执行......”

4、以下这些语句该文档存在较明显的语言表达瑕疵,包括语法错误、标点符号使用不规范,句子结构不够顺畅,以及信息传达不充分,需要综合性的修订与完善——“.....并且每个词都被搜索引擎索引,也就是我们说的全文检索。著名的因特网搜索引擎包 括等。在中国,搜索引擎通常指基于网站目录的搜索服务或 是特定网站的搜索服务,本人这里研究的是基于因特网的搜索技术。 第页共页 第二章搜索引擎的结构 系统概述 搜索引擎是根据用户的查询请求,按照定算法从索引数据中查找信息返回给用户。为 了保证用户查找信息的精度和新鲜度,搜索引擎需要建立并维护个庞大的索引数据库。 般的搜索引擎由网络机器人程序索引与搜索程序索引数据库等部分组成。 系统结构图 搜索引擎的构成 网络机器人 网络机器人也称为网络蜘蛛,是个功能很强的扫描程序。它可以在 扫描页面的同时检索其内的超链接并加入扫描队列等待以后扫描。因为中广泛 使用超链接,所以个程序理论上可以访问整个页面......”

5、以下这些语句存在多种问题,包括语法错误、不规范的标点符号使用、句子结构不够清晰流畅,以及信息传达不够完整详尽——“.....相当于利用些已有技术实现的个上的应用。在年月到月,网络爬 虫平均每天承受大约次查询。 大约在年出现的第二代搜索引擎系统大多采用分布式方案多个微型计算机协同 工作来提高数据规模响应速度和用户数量,它们般都保持个大约网 页的索引数据库,每天能够响应次用户检索请求。年月,当时最先 进的几个搜索引擎号称能建立从到的网页索引。搜索 引擎声称他们每天大概要承受次查询。 年搜索引擎年大会上,按照公司总裁的演讲,正 在用,台运行系统的个人电脑在搜集上的网页,而且以每天台的速度向 这个微机集群里添加电脑,以保持与网络的发展相同步。每台微机运行多个爬虫程序搜集网 页的峰值速度是每秒个网页,平均速度是每秒个网页,天可以搜集超过 网页 搜索引擎词在国内外因特网领域被广泛使用,然而他的含义却不尽相同。在美国搜索 引擎通常指的是基于因特网的搜索引擎......”

6、以下这些语句存在多方面的问题亟需改进,具体而言:标点符号运用不当,句子结构条理性不足导致流畅度欠佳,存在语法误用情况,且在内容表述上缺乏完整性。——“.....这些指标决定了搜索引 擎的技术指标。搜索引擎的技术指标决定了搜索引擎的评价指标。好的搜索引擎应该是具有 较快的反应速度和高召回率准确率的,当然这些都需要搜索引擎技术指标来保障。 召回率次搜索结果中符合用户要求的数目与用户查询相关信息的总数之比 准确率次搜索结果中符合用户要求的数目与该次搜索结果总数之比 相关度用户查询与搜索结果之间相似度的种度量 精确度对搜索结果的排序分级能力和对垃圾网页的抗干扰能力 小节 以上对基于因特网的搜索引擎结构和性能指标进行了分析,本人在这些研究的基础上利 用技术和些工具实现了个简单的搜索引擎新闻搜索引擎。在 接下来的几章里将会就本人的设计进行详细的分析。 第页共页 第三章网络机器人 什么是网络机器人 网络机器人又称为程序,是种专业的程序。用于查找大量的页面......”

7、以下这些语句存在标点错误、句法不清、语法失误和内容缺失等问题,需改进——“..... 索引与搜索 网络机器人将遍历得到的页面存放在临时数据库中,如果通过直接查询信息速度 将会难以忍受。为了提高检索效率,需要建立索引,按照倒排文件的格式存放。如果索引不 及时跟新的话,用户用搜索引擎也不能检索到。 文档 网络机器人程序 建立索引 从数据库中搜索信息 服务器 索引数据库 浏览器浏览器 网络机器人程序第页共页 用户输入搜索条件后搜索程序将通过索引数据库进行检索然后把符合查询要求的数据 库按照定的策略进行分级排列并且返回给用户。 服务器 客户般通过浏览器进行查询,这就需要系统提供服务器并且与索引数据库进行 连接。客户在浏览器中输入查询条件,服务器接收到客户的查询条件后在索引数据库 中进行查询排列然后返回给客户端......”

8、以下文段存在较多缺陷,具体而言:语法误用情况较多,标点符号使用不规范,影响文本断句理解;句子结构与表达缺乏流畅性,阅读体验受影响——“.....我们把它称为的状态。 以上的图表示了队列的变化过程,在这个过程中,当个被加入到等待队列中时 程序就会开始运行。只要等待队列中有个网页或程序正在处理个网页,程 序就会继续他的工作。当等待队列为空并且当前没有任何网页时,程序就会停止它的 工作。 如何构造程序 在构造程序之前我们先了解下程序的各个部分是如何共同工作的。以及如何对 这个程序进行扩展。 流程图如下所示 发现等待队列运行队列 完成队列 队列 完成第页共页 把加入等待队列 程序工作完成 等待队列中是 否有 否 下载从等待队列中得到的网页, 并将他送入运行队列中......”

9、以下这些语句存在多方面瑕疵,具体表现在:语法结构错误频现,标点符号运用失当,句子表达欠流畅,以及信息阐述不够周全,影响了整体的可读性和准确性——“.....它可以让用户通过点击图片来迁移到新的页面中。 表单标签 表单是页面中可以输入数据的单元。许多站点让用户填写数据然后通过点击按钮来提 交内容,这就是表单的典型应用。 表格标签 表格是的构成部分,通常用来格式化存放显示数据。 我们在具体解析这些标签有两种方法通过中的类来解析或者 通过包中的类来解析,本人在实际编程中采用后者。 包中的类用来从指定中读取数据并检索出有用的信息。下面给出 该类几种重要的方法。 构造函数构造对象并指定用于通讯的对象 方法获取最后次调用方法检索到的表单清单 方法获取发送给构造函数的对象 方法获取指定页面的图片清单 方法获取指定页面的连接清单 方法打开个页面并读入该页面,若指定了回调对象则给出所有该对象数据 , 程序结构 网络机器人必须从个网页迁移到另个网页,所以必须找到该页面上的超连接......”

下一篇
搜索引擎的研究与实现
搜索引擎的研究与实现
1 页 / 共 28
搜索引擎的研究与实现
搜索引擎的研究与实现
2 页 / 共 28
搜索引擎的研究与实现
搜索引擎的研究与实现
3 页 / 共 28
搜索引擎的研究与实现
搜索引擎的研究与实现
4 页 / 共 28
搜索引擎的研究与实现
搜索引擎的研究与实现
5 页 / 共 28
搜索引擎的研究与实现
搜索引擎的研究与实现
6 页 / 共 28
搜索引擎的研究与实现
搜索引擎的研究与实现
7 页 / 共 28
搜索引擎的研究与实现
搜索引擎的研究与实现
8 页 / 共 28
搜索引擎的研究与实现
搜索引擎的研究与实现
9 页 / 共 28
搜索引擎的研究与实现
搜索引擎的研究与实现
10 页 / 共 28
搜索引擎的研究与实现
搜索引擎的研究与实现
11 页 / 共 28
搜索引擎的研究与实现
搜索引擎的研究与实现
12 页 / 共 28
搜索引擎的研究与实现
搜索引擎的研究与实现
13 页 / 共 28
搜索引擎的研究与实现
搜索引擎的研究与实现
14 页 / 共 28
搜索引擎的研究与实现
搜索引擎的研究与实现
15 页 / 共 28
温馨提示

1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。

2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。

3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。

4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。

5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。

  • 文档助手,定制查找
    精品 全部 DOC PPT RAR
换一批