帮帮文库

返回

(定稿)章贡区人民法院审判综合大楼建设项目投资立项申报书0(喜欢就下吧) (定稿)章贡区人民法院审判综合大楼建设项目投资立项申报书0(喜欢就下吧)

格式:word 上传:2025-12-06 07:09:20
络蜘蛛只下载网站中的文本信息如页面等等,并不下载图片软件视音频文件等等。分解网页网络蜘蛛并不是单纯的把网页批量下载到本地硬盘的工具,它的目标是从网页中提取定的结构化的信息,比如说网页的标题网页的内容网页的大小网页中的链接等等。网页的内容并不是简单地指网页的代码,因为大部分的标签以及代码对我们的后期要进行的查询工作等都是冗余的,所以应该将它们剔除。网页的标题并不是简单地指网页源码中标签内的文本,而是指网页源码中最能概括出该网页内容的句话。提取网页的链接也不只是简单地提取源码中所有后面的,还包括框架页面,以及脚本中的自动转向页面地址。遍历网络本项目要开发的蜘蛛与等大型搜索引擎的蜘蛛不同,它的访问范围并不是整个互联网,而是用户指定的个或多个网站,因此蜘蛛在遍历网络的时候不能够漫无边际的爬行,而是在制定的范围内。网络遍历的算法可以是深度优先搜索宽度优先搜索启发式搜索等算法。存储网页由于本项目只是专注与网络蜘蛛的实现,为了便于测试,可以选用数据库。网络蜘蛛把网页中的相关信息抽取出以后插入到数据库的对应字段中。模型设计首先建立任务列表,即开始要爬取的。由任务列表开始,根据预先设定的关键字取网页,同时判断是否重复,按照定算法和排序方式搜索页面,然后对页面按照定算法进行分析,并提取相关,最后将所得返回任务列表。之后将任务列表中重新开始爬取,从而使网络爬虫进行循环运行。如图所示图系统流程图站点列表里面存储着用户指定的网站首页,程序运行后将其插入到优先队列,下载模块从优先队列里取出,把对应的网页下载下来,然后将网页源码交给分析模块,分析模块对网页进行分解,分析模块维护着张字典或表,记录着所有已经访问的,然后分析模块将所有未访问过的链接提取出来插入到优先队列,再把提取出的网页的标题内容大小等信息存入数据库。整个虚线方框里的过程是不断循环往复的,直到优先队列为空要获取的对象是存在于网络上数以亿计的网页,这些网页以超链接形式互相联系在起,每网页对应个超链接,也称统资源定位符。我们可以把网络看成个图网络中的网页构成节点集,他们之间的链接构成边集,正是从节点开始,沿着边,遍历图,每访问到图中个节点,就进行定的处理。以下是本程序爬虫使用的框架,看起来更像是主题爬虫的框架。这是个单线程的框架,采用多线程技术是我们可看成是多个这个样的爬虫并发的的执行。数据库结构本项目的数据库结构很简单,总共两个表,个是未站点列表,个是网页存储表。图表示的表用于保存未访问的的信息表。图未访问的站点存储表图显示的是表的设计,用于保存已经访问的的信息图网页存储表技术选型简介是由公司于年月推出的面向对象程序设计语言以下简称语言和平台的总称。由和同事们共同研发,并在年正式推出。由四方面组成编程语言类文件格式虚拟机和应用程序接口。平台由虚拟机,简称和应用编程接口,简称构成。应用编程接口为应用提供了个独立于操作系统的标准接口,可分为基本部分和扩展部分。在硬件或操作系统平台上安装个平台之后,应用程序就可运行。平台已经嵌入究结构算法和策略搜索引擎信息检索与实践,,,,,,致谢法,预测候选与目标网页的相似度,或与主题的相关性,并选取评价最好的个或几个进行抓取。它只访问经过网页分析算法预测为有用的网页。存在的个问题是,在爬虫抓取路径上的很多相关网页可能被忽略,因为最佳优先策略是种局部最优搜索算法。因此需要将最佳优先结合具体的应用进行改进,以跳出局部最优点。需求分析和模型设计网络爬虫的定义定义网络爬虫是个自动提取网页的程序,它为搜索引擎从上下载网页,是搜索引擎的重要组成部分。通用网络爬虫从个或若干初始网页的开始,获得初始网页上的列表在抓取网页的过程中,不断从当前页面上抽取新的放入待爬行队列,直到满足系统的停止条件。定义主题网络爬虫就是根据定的网页分析算法过滤与主题无关的链接,保留主题相关的链接并将其放入待抓取的队列中然后根据定的搜索策略从队列中选择下步要抓取的网页,并重复上述过程,直到达到系统的条件时停止。所有被网络爬虫抓取的网页将会被系统存储,进行定的分析过滤,并建立索引,对于主题网络爬虫来说,这过程所得到的分析结果还可能对后续的抓取过程进行反馈和指导。定义如果网页中包含超链接,则称为链接的父网页。定义如果超链接指向网页,则网页称为子网页,又称为目标网页。主题网络爬虫的基本思路就是按照事先给出的主题,分超链接和已经下载的网页内容,预测下个待抓取的及当前网页的主题相关度,保证尽可能多地爬行下载与主相关的网页,尽可能少地下载无关网页。摘自百度百科网络爬虫的分类网络爬虫种类繁多,如果按照部署在哪里分,可以分成服务器侧般是个多线程程序,同时下载多个目标,可以用般综合搜索引擎的爬虫这样做。但是,如果对方讨厌爬虫,很可能封掉服务器的,服务器又不容易改,另外耗用的带宽也是较贵。客户端很适合部署定题爬虫,或者叫聚焦爬虫。做个与,百度等竞争的综合搜索引擎成功的机会微乎其微,而垂直搜索或者比价服务或者推荐引擎,机会要多得多,这类爬虫不是什么页面都取的,而是只关心的页面,而且只取页面上关心的内容,例如提取黄页信息,商品价格信息,还有提取竞争对手广告信息的。这类爬虫可以部署很多,而且可以很有侵略性。摘自百度百科系统需求分析本节内容将简要的分析下个网络蜘蛛应该具有的基本功能,包括下载网页分解网页遍历网络存储网页等。网络蜘蛛的技术难度并不是很高,但是要开发个速度快稳定性高的网络蜘蛛还是要下番功夫的。下载网页网络蜘蛛最基本的功能是能够从给定的网址下载网页。这个过程看似简单,但却要考虑几个问题。首先,要解决网页的编码问题,联通世界各个角落,每个国家和地区的网站使用着不同的编码,即使同在个国家的网站其使用的网页编码规则也不尽相同。比如说在我国,有些网站使用编码,有些则使用。如果对网页的编码不加判断的话,很有可能出现乱码。其次,网络的访问速度相对与的运算速度来说是非常慢的,因此,如果被设计成单线程的阻塞模型的程序的话,其抓取速度必然不能让人满意。可以考虑采用多线程或采用其它的模型来提升蜘蛛的抓取速度。第三,网了几的结构数据端口它有三个输出端口,每个端口都是位,都可以选择作为输入或输出组和组控制电路这是两组根据的命令控制的工作方式的电路。组控制电路控制端口和的上半部,组控制电路控制端口和的下半部。数据总线缓冲器这是三态双向位缓冲器,它是系统数据总线的接口。输入输出数据输出指令及发出的控制字和外设的状态信息,也都是这个数据缓冲器传送的通常与的双向数据总线相连。读写和控制逻辑它与的地址总线中的及有关的控制信号相连,由它把控制的控制命令或数据送至相应的端口也由它控制把外设的状态信息或输入数据通过相应的端口送至。芯片的接向伺服电机的光电耦合电路,接向伺服电机的光电耦合电路,接向伺服电机的光电耦合电路,为输出,为两个方向动点及回零输入,为面板上的选择开关,设有编辑单步运行自动手动手动等方式。扩展连线如下和的连线说明由于和的存储容量都为,故的地址线直接和以及的相连,经地址锁存器输出后接到和的,和各条。片选地址线共条,其中通过译码器分别与相连。因此,它们的地址分配如下分给的地址范围是分给的地址范围是分给的地址范围是分给的地址范围是分给的地址范围是其它辅助电路设计的时钟电路单片机的时钟可以有两种方式产生,内部方式和外部方式。本次设计采用内部方式,利用芯片内部振荡电路在和引脚上外接定时元件。越界报警和急停处理电路为了防止工作台越界,可分别在极限位置安装限位开关。复位电路单片机的复位都是靠外部电路实现,在时钟电路工作后,只要在引角上出现毫秒以上高电平,单片机便实现复位状态。当停机时,系统可复位到初始状态。掉电保护电路如果存储器断电,其存储内容就会丢失,加上此电路可解决。键盘显示接口电路控制系统中使用的显示器主要有和,也有采用接口方式。本次设计采用动态显示。键盘是由若干个按键组成的开关矩阵,它是最简单的单片微机输入设备。本次设计把键盘和显示电路做在起以节省线。它由键和位显示器组成,键盘的列线及显示器的字位控制用的口,是输出口,键盘的行线由口担任,是输入口,显示器的段选由的口担任,是输出口,为同向驱动器。结论本机床是根据实际需要设计的进给系统数控化的钻床。当前中小企业,它们规模较小,资金有限工人技术水平低,加工的产品也多属于精度要求不高的产品,所以对普通机床使用数量较大,因此购置大量的精度高的数控机床是不现实的,而些产品又需要数控加工才能完成。我国在信息技术改造传统产业方面比发达国家约落后年。通过对立式钻床的数控化改造后,保留了原机床的基本结构与工作性能,增加了自动进给的功能,操作者可以根据不同材质不同加工直径不同钻孔深度推算出进给速度和进给深度,实现半闭环数控自动加工,从而提高生产效率和零件的加工质量。改造后的数控钻床可以加工出传统机床加工不出来的曲线曲面等复杂的结构,可以实现加工的自动化,而且是柔性自动化,从而效率可比传统机床提高倍,如果能辅以自动定位的夹具,可将生产效率进步提高。因此,此项数控化改造对于节约资金,提高机床性能不失为项可行的方案。加工零件的精度高,尺寸分散度小,使络蜘蛛只下载网站中的文本信息如页面等等,并不下载图片软件视音频文件等等。分解网页网络蜘蛛并不是单纯的把网页批量下载到本地硬盘的工具,它的目标是从网页中提取定的结构化的信息,比如说网页的标题网页的内容网页的大小网页中的链接等等。网页的内容并不是简单地指网页的代码,因为大部分的标签以及代码对我们的后期要进行的查询工作等都是冗余的,所以应该将它们剔除。网页的标题并不是简单地指网页源码中标签内的文本,而是指网页源码中最能概括出该网页内容的句话。提取网页的链接也不只是简单地提取源码中所有后面的,还包括框架页面,以及脚本中的自动转向页面地址。遍历网络本项目要开发的蜘蛛与等大型搜索引擎的蜘蛛不同,它的访问范围并不是整个互联网,而是用户指定的个或多个网站,因此蜘蛛在遍历网络的时候不能够漫无边际的爬行,而是在制定的范围内。网络遍历的算法可以是深度优先搜索宽度优先搜索启发式搜索等算法。存储网页由于本项目只是专注与网络蜘蛛的实现,为了便于测试,可以选用数据库。网络蜘蛛把网页中的相关信息抽取出以后插入到数据库的对应字段中。模型设计首先建立任务列表,即开始要爬取的。由任务列表开始,根据预先设定的关键字取网页,同时判断是否重复,按照定算法和排序方式搜索页面,然后对页面按照定算法进行分析,并提取相关,最后将所得返回任务列表。之后将任务列表中重新开始爬取,从而使网络爬虫进行循环运行。如图所示图系统流程图站点列表里面存储着用户指定的网站首页,程序运行后将其插入到优先队列,下载模块从优先队列里取出,把对应的网页下载下来,然后将网页源码交给分析模块,分析模块对网页进行分解,分析模块维护着张字典或表,记录着所有已经访问的,然后分析模块将所有未访问过的链接提取出来插入到优先队列,再把提取出的网页的标题内容大小等信息存入数据库。整个虚线方框里的过程是不断循环往复的,直到优先队列为空要获取的对象是存在于网络上数以亿计的网页,这些网页以超链接形式互相联系在起,每网页对应个超链接,也称统资源定位符。我们可以把网络看成个图网络中的网页构成节点集,他们之间的链接构成边集,正是从节点开始,沿着边,遍历图,每访问到图中个节点,就进行定的处理。以下是本程序爬虫使用的框架,看起来更像是主题爬虫的框架。这是个单线程的框架,采用多线程技术是我们可看成是多个这个样的爬虫并发的的执行。数据库结构本项目的数据库结构很简单,总共两个表,个是未站点列表,个是网页存储表。图表示的表用于保存未访问的的信息表。图未访问的站点存储表图显示的是表的设计,用于保存已经访问的的信息图网页存储表技术选型简介是由公司于年月推出的面向对象程序设计语言以下简称语言和平台的总称。由和同事们共同研发,并在年正式推出。由四方面组成编程语言类文件格式虚拟机和应用程序接口。平台由虚拟机,简称和应用编程接口,简称构成。应用编程接口为应用提供了个独立于操作系统的标准接口,可分为基本部分和扩展部分。在硬件或操作系统平台上安装个平台之后,应用程序就可运行。平台已经嵌入
下一篇
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
章贡区人民法院审判综合大楼建设项目投资立项申报书.doc预览图(1)
1 页 / 共 26
章贡区人民法院审判综合大楼建设项目投资立项申报书.doc预览图(2)
2 页 / 共 26
章贡区人民法院审判综合大楼建设项目投资立项申报书.doc预览图(3)
3 页 / 共 26
章贡区人民法院审判综合大楼建设项目投资立项申报书.doc预览图(4)
4 页 / 共 26
章贡区人民法院审判综合大楼建设项目投资立项申报书.doc预览图(5)
5 页 / 共 26
章贡区人民法院审判综合大楼建设项目投资立项申报书.doc预览图(6)
6 页 / 共 26
章贡区人民法院审判综合大楼建设项目投资立项申报书.doc预览图(7)
7 页 / 共 26
章贡区人民法院审判综合大楼建设项目投资立项申报书.doc预览图(8)
8 页 / 共 26
章贡区人民法院审判综合大楼建设项目投资立项申报书.doc预览图(9)
9 页 / 共 26
章贡区人民法院审判综合大楼建设项目投资立项申报书.doc预览图(10)
10 页 / 共 26
章贡区人民法院审判综合大楼建设项目投资立项申报书.doc预览图(11)
11 页 / 共 26
章贡区人民法院审判综合大楼建设项目投资立项申报书.doc预览图(12)
12 页 / 共 26
章贡区人民法院审判综合大楼建设项目投资立项申报书.doc预览图(13)
13 页 / 共 26
章贡区人民法院审判综合大楼建设项目投资立项申报书.doc预览图(14)
14 页 / 共 26
章贡区人民法院审判综合大楼建设项目投资立项申报书.doc预览图(15)
15 页 / 共 26
预览结束,还剩 11 页未读
阅读全文需用电脑访问
温馨提示 电脑下载 投诉举报

1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。

2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。

3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。

  • Hi,我是你的文档小助手!
    你可以按格式查找相似内容哟
DOC PPT RAR 精品 全部
小贴士:
  • 🔯 当前文档为word文档,建议你点击DOC查看当前文档的相似文档。
  • ⭐ 查询的内容是以当前文档的标题进行精准匹配找到的结果,如果你对结果不满意,可以在顶部的搜索输入框输入关健词进行。
帮帮文库
换一批

搜索

客服

足迹

下载文档