帮帮文库

【毕业设计】中文Web测试集CWT200g之文档集的构建 【毕业设计】中文Web测试集CWT200g之文档集的构建

格式:DOC | 上传时间:2022-06-24 20:04 | 页数:29 页 | ✔ 可编辑修改 | @ 版权投诉 | ❤ 我的浏览
【毕业设计】中文Web测试集CWT200g之文档集的构建
【毕业设计】中文Web测试集CWT200g之文档集的构建
1 页 / 共 29
【毕业设计】中文Web测试集CWT200g之文档集的构建
【毕业设计】中文Web测试集CWT200g之文档集的构建
2 页 / 共 29
【毕业设计】中文Web测试集CWT200g之文档集的构建
【毕业设计】中文Web测试集CWT200g之文档集的构建
3 页 / 共 29
【毕业设计】中文Web测试集CWT200g之文档集的构建
【毕业设计】中文Web测试集CWT200g之文档集的构建
4 页 / 共 29
【毕业设计】中文Web测试集CWT200g之文档集的构建
【毕业设计】中文Web测试集CWT200g之文档集的构建
5 页 / 共 29
【毕业设计】中文Web测试集CWT200g之文档集的构建
【毕业设计】中文Web测试集CWT200g之文档集的构建
6 页 / 共 29
【毕业设计】中文Web测试集CWT200g之文档集的构建
【毕业设计】中文Web测试集CWT200g之文档集的构建
7 页 / 共 29
【毕业设计】中文Web测试集CWT200g之文档集的构建
【毕业设计】中文Web测试集CWT200g之文档集的构建
8 页 / 共 29
【毕业设计】中文Web测试集CWT200g之文档集的构建
【毕业设计】中文Web测试集CWT200g之文档集的构建
9 页 / 共 29
【毕业设计】中文Web测试集CWT200g之文档集的构建
【毕业设计】中文Web测试集CWT200g之文档集的构建
10 页 / 共 29
【毕业设计】中文Web测试集CWT200g之文档集的构建
【毕业设计】中文Web测试集CWT200g之文档集的构建
11 页 / 共 29
【毕业设计】中文Web测试集CWT200g之文档集的构建
【毕业设计】中文Web测试集CWT200g之文档集的构建
12 页 / 共 29
【毕业设计】中文Web测试集CWT200g之文档集的构建
【毕业设计】中文Web测试集CWT200g之文档集的构建
13 页 / 共 29
【毕业设计】中文Web测试集CWT200g之文档集的构建
【毕业设计】中文Web测试集CWT200g之文档集的构建
14 页 / 共 29
【毕业设计】中文Web测试集CWT200g之文档集的构建
【毕业设计】中文Web测试集CWT200g之文档集的构建
15 页 / 共 29

1、中采样,个站点,在年月搜集获得个网页,包括网页内容和服务器返回的信息,容量为。其中每个网页对应的服务器返回信息中的类型都是或者。数据集从年月日开始提供下载。在中文信息检索领域,得到了广泛的应用,截至年月申请该测试集的研究机构已经超过家,连续两年年和年被中文信息检索评测和信息检索评测指定为测试集。第二章文档集的设计原则文档集构造的几点考虑通常来说,文档集相比测试集的其他组成部分起着更至关重要的作用。由于当今领域的技术应用基本都面对,因此选取制作的文档集应该能够很好的体现出真实环境所具有的特点。从而个高质量的文档集应该具有非常广的主题范围,同时又具有相当的规模。般来讲,这两点在实际当中是相辅相成的。和,等人针对文档集的代本消除,然而在接近于零的位置,图形依然很不平滑。因此考虑到这些网站所包含。

2、为数据库的键值,用网页的作为数据库中的数据项组成纪录插入到数据库中。如果遇到有相同值得网页,则说明这两个网页的内容是相同的,因此只需在两个中任意选择个就可以。这么做的目的是完成在网页级的消重。因为在实际情况中,会有两种主要的问题引入重复的网页。第,对于动态网页,网页中问号后面是向访问处理程序提出的参数。但是有时两个会在个参数上存在差异,但实际上仍然指向同个网页。第二,很多网站对于些地址往往会有个默认的页面,这样在链接中不用写出具体的页面文件就可以直接访问到页面。这种情况通常出现在网站的首页。比如,和指向的是同个页面。通过全局消重,以上两种问题都可以迎刃而解。然而实际处理过程中并不能将所有的和信息放在个数据库中。因为抓回的原始网页已经大约有千万,如过只是用个数据库来处理,会造成数据库非常庞。

3、通常这些问题由建立相关判断集的人员来制作。由于相关判断集的制作非常耗费时间,所以这些问题的数量通常控制在几百个左右。相关判断集是对应查询集中问题所给的组标准答案的集合,它被用来对比信息检索系统对于查询集中的问题所给出的答案。信息系统所给出的答案和相关判断集中的答案越相近,则证明该信息检索系统的质量越高。因此,相关判断集的正确性和权威性至关重要。通常,相关判断集通过人为手动判断获得。由于当今规模的飞速发展,上的信息已经能够覆盖很广泛的范围,因此最常用的个构造测试集的方法就是构造个的子集,使用这种方法所获得的集合叫做测试集。目前,世界上已经有和分别提供了面向英文和日文检索系统的测试集。是由北京大学提供的第个面向中文信息检索系统的中文测试集。对于测试集来说,采用何种方法来构造大规模的子集,以使。

4、,个网页,并按照中所述的方式存储。至此,的制作完成。第四章的统计数据规模统计个数大小平均大小网页网站,网站域名统计域名类型百分比网页数动态网页数网站数其他网页形式分类页面类型页面数量百分比,分省网页统计省份百分比网页数动态网页数网站数北京,上海,广东,江苏,天津浙江福建,河南山东,重庆湖北四川河北辽宁湖南广西江西黑龙江陕西安徽云南甘肃吉林内蒙山西贵州新疆海南宁夏青海西藏其他第五章总结文档集是在的构造经验的基础上,针对中所存在的问题进行改进并构造的新的测试集,它不仅在容量上对进行了扩展,相比它还有如下特征分别采用了自动和手动的垃圾站点消除来提高文档集中数据的质量采用了全新的抓取程序和抓取策略。新的抓取程序避免了对单个主机抓取的容量限制,采用广度优先,抓取三层的方式进行抓取,不仅能够充分的抓。

5、服务器传回的头信息和网页的原文经过压缩算法压缩后,追加在天网格式头的后面。对于同个主机名下的网页,都保存在以主机名与之后的第个之间的部分命名的文件夹下的中。所有以主机命名的文件夹都根据主机名称计算的哈希值分别存放在到这个文件夹中。哈希算法采用的是的类库中的类自带的算法。分配方法为,使用类计算出主机名称的哈希值之后,将该哈希值模,所得结果前面加上即为该主机文件夹所在的文件夹。经过这样的映射之后,使得每个开头的文件夹下的数据都保持在约左右。通过这样的存储结构,能够很快的确定个主机对应的数据文件的位置。同时,通过将网页数据进行压缩,也有效的减低了对磁盘空间的需求。抓取过程中,我采用了全新的程序进行抓取,该程序采用了与抓取初始数据的程序相类似的策率。具体如下对于每个主机地址,都单独创建个线程进行。

6、取网站上的网页,还可以很好的体现出网站的规模和结构特点。采用了全局消重来进步消除数据集内的重复网页,避免数据集出现冗余信息采用了先抓取后采样的制作方法,使得采样能够依据实际抓取所确定的网站规模进行,提高了采样的准确性采用压缩的天网格式,提供更高的信息量。通过如上改进,我相信能够更好的为信息检索评测工作服务。参考文献,第次中国互联网发展状况统计报告,年月日。江玉婷和陳光華現況及其對資訊檢索研究之影響,圖書與資訊學刊,致谢首先,我向在我整个毕业设计过程中,给予很大帮助的指导老师闫宏飞老师表示感谢,他指导我进行了网页测试集和的相关资料,对我关于构造的问题进行了详细的解答,与我讨论的构造方法,给我在文档集构建的想法提出建议。闫老师丰富的知识和经验使我受益匪浅。在这里谨向他表示诚挚的感谢。另外,还。

7、上的实质改进,加快技术从研究到商业化的转变速度发展适当缺据应用性的评估技术,供各界遵循采用,包括开发更加适用于现有系统的新的评估技术。从开始,开始使用测试集完成评估工作。测试集的特征如下抓取域名下的网站年早期在抓取百万格式的网页后停止还包括格式的文本和从,和文件中提取的文本为像基于链接的排序这样的应用提供了重复表和重定向表单文件大小限定在以内从降低到严格的文件检查没有二进制文件比的文档数更少,但更大的平均文当大小。测试集统计信息文档数依据服务器提供的类型其他文本文档包,总大小,平均包大小平均文档大小,文档限制大小实际上约空文档中文测试集是由北京大学网络与分布式实验室天网组制作的针对于中文信息检索领域的中文测试集。它根据天网搜索引擎截止年月日发现的中国范围内提供服务的个主机,。

8、大,使得数据库无法保持在内存中。而如果在这样的数据库中查找或者插入数据将需要频繁的内存换页和硬盘读取,导致系统效率低下。为此,我们网页的的值模,然后根据余数将和信息存放到对应个小的数据库中。这样的好处是可以很好的控制数据库的规模和效率,使数据库能够保持在内存中,从而提高效率。通过实际对比,保存到同个数据库中消重需要天时间,而使用个小数据库则只需小时。文档集的最后步就是采样。根据消重后的结果,我们所需的采样率为,即每两个网页选择个。我们的具体采用过程如下确定网站规模的范围将网站的规模数每个分为组,从每组中随机的抽取个网站规模数,根据选出的网站规模数,找到对应的主机名,根据主机名,确定出网页的根据从原始网页数据中,抽取出网页,并按照前面制定的保存规则保存。通过上述的采样策略,我们共选出,个站。

9、的页面链接很少,搜集他们对于文档集能提供的信息和链接关系不多,而且通过人为随机采样验证这些站点中大多数都属于垃圾站点,因此我们将所有页面数小于的主机地址全部清除,共除去,个主机地址。网页的抓取经过系列的过滤和处理,我们得到了,个种子站点地址来进行网页的抓取。网页的抓取的过程中,并不是所有的网页都需要从网站上抓取下来。因为目前的信息检索系统主要面对的都是具有和类型的文档,因此在抓取过程中,我们仅保存服务器返回类型为上述两种类型的文档。其次,由于中文中有很多网站采用了动态页面技术,因此在网页抓取过程中,我们保留了所有具有动态生成的网页中未收录此类网页。抓取过程中面对的两个主要的问题是原始网页的保存格式和对于网页抓取的策略。对于原始网页的保存格式,我们采用如下策略所有的网页都按照压缩的天网格式。

10、搜集系统,索引系统以及相关性判断系统组成。当前最具代表性的搜索引擎有百度和天网等。测试集测试集是用来测试信息检索系统性能的套标准数据的集合。大规模数据集是加速信息提取领域研究的基础。任何信息检索系统在大规模测试集上的性能表现能够从定程度上体现出该系统在实际应用中的性能。任何信息系统只有在通过大规模测试集上的测试并给出满意的结果后,才能进入实际应用。由此也可看出,大规模测试集和评测是改进信息检索技术和信息检索系统的关键。个完整的测试集由三部分组成文档集查询集和相关判断集。文档集是组文档的集合,该组文档的内容用来被信息检索系统进行文字分析。它是信息系统评估的数据基础。查询集是向信息检索系统提出的问题的集合。这些问题依据信息检索系统和所需进行评估的项目不同,可以是个或组关键词,也可以是段描述。。

11、能够很好的体现出实际系统的特点是最重要的问题。文档集质量的高低直接决定了整个测试集的质量和信息检索系统评估工作的效果。和测试集为了促进信息检索的研究与应用的发展,美国国防部高等研究计划局,简称与美国国家标准技术局,简称共同举办了。通过自己制作的大型测试集,定制各种测试项目测试程序及测量标准,组合成套评估检索系统的机制。在年举办了第届会议,其后持续每年年底举办。除了与会者依据大会提供的测试集送回各个测试项目的资料以进行评估之外,还会有为期三天的研讨会,与会者可以在会中发表信息检索系统的架构评估结果,并相互讨论切磋。将自身的目标归结如下以大规模测试集为基础,推动信息检索领域的研究通过开放式的论坛,促进与会者交流研究成果与心得,以增进学术界产业界与政府的交流互通通过展示在处理实际问题的检索方法。

12、抓取抓取过程中,对于每张网页内的链接,仅对在该主机下的链接继续抓取每个主机上的网页采用广度优先的抓取侧率,抓取三层,抓完即停,不对主机抓取的大小做限制仅保存服务器返类信息中类型为和的页面进行保存。通过将中每个主机抓取程序的纪录文件达到后自动停止改为广度优先,抓取三层,容量不限,使得我们抓回的网页能够很好的体现出该网站的规模与链接特点。另外,通过加入动态网页抓取,能够覆盖更多的网页资源和网上的信息。这两点是对于最重要的改变。通过上述抓取过程,我们得到了约的原始网页数据。后期处理在完成抓取原始网页数据后,还需要些后期处理才能正式完成的制作,即全局消重和采样。所谓全局消重,主要是针对种子站点制作中网站消重的扩展与补充。全局消重首先要计算出每个网页的值,然后按照与主机消重类似的方法将,用网页的值。

参考资料:

[1]【毕业设计】东荣三矿东十采区供电设计(第42页,发表于2022-06-24 20:27)

[2]【毕业设计】东至华源纺织有限公司资本结构现状研究(第39页,发表于2022-06-24 20:27)

[3]【毕业设计】东联公司供电系统设计(第28页,发表于2022-06-24 20:27)

[4]【毕业设计】东山煤矿矿井通风设计(第60页,发表于2022-06-24 20:27)

[5]【毕业设计】东头围特大桥实施性施工组织设计(第58页,发表于2022-06-24 20:27)

[6]【毕业设计】东头围特大桥实施性施工组织设计毕业论文正文(第58页,发表于2022-06-24 20:27)

[7]【毕业设计】东南大学网络考试阅卷系统的研发(第25页,发表于2022-06-24 20:27)

[8]【毕业设计】东南大学系办公室办公自动化系统的设计(第39页,发表于2022-06-24 20:27)

[9]【毕业设计】东区60000m3d生活污水处理工艺设计(第49页,发表于2022-06-24 20:27)

[10]【毕业设计】东北A市水厂设计(第33页,发表于2022-06-24 20:27)

[11]【毕业设计】业务管理系统设计(第15页,发表于2022-06-24 20:27)

[12]【毕业设计】业务流程重组中流程建模方法(第66页,发表于2022-06-24 20:27)

[13]【毕业设计】丙酮溶媒回收(第31页,发表于2022-06-24 20:27)

[14]【毕业设计】丙烯酸酯类防水涂料的生产(第26页,发表于2022-06-24 20:27)

[15]【毕业设计】丙烯酸酯乳液的合成和环氧树脂接枝改性研究(第31页,发表于2022-06-24 20:27)

[16]【毕业设计】丙烯酸系增稠剂的聚合方法研究(第28页,发表于2022-06-24 20:27)

[17]【毕业设计】丙溴磷在棉花上的残留分析研究(第54页,发表于2022-06-24 20:27)

[18]【毕业设计】丙泊酚分步靶控输注诱导对老年患者血压和一氧化氮、内皮素的影响(第46页,发表于2022-06-24 20:27)

[19]【毕业设计】专门人才信息管理系统设计(第42页,发表于2022-06-24 20:27)

[20]【毕业设计】专科论文无线数据串行传输—银行排序系统(第42页,发表于2022-06-24 20:27)

下一篇
温馨提示

1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。

2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。

3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。

4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。

5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。

帮帮文库——12年耕耘,汇集海量精品文档,旨在将用户工作效率提升到极致