帮帮文库

doc 中文Web测试集CWT200g之文档集的构建 ㊣ 精品文档 值得下载

🔯 格式:DOC | ❒ 页数:29 页 | ⭐收藏:0人 | ✔ 可以修改 | @ 版权投诉 | ❤️ 我的浏览 | 上传时间:2022-06-24 08:00
中文Web测试集CWT200g之文档集的构建
中文Web测试集CWT200g之文档集的构建
1 页 / 共 29
中文Web测试集CWT200g之文档集的构建
中文Web测试集CWT200g之文档集的构建
2 页 / 共 29
中文Web测试集CWT200g之文档集的构建
中文Web测试集CWT200g之文档集的构建
3 页 / 共 29
中文Web测试集CWT200g之文档集的构建
中文Web测试集CWT200g之文档集的构建
4 页 / 共 29
中文Web测试集CWT200g之文档集的构建
中文Web测试集CWT200g之文档集的构建
5 页 / 共 29
中文Web测试集CWT200g之文档集的构建
中文Web测试集CWT200g之文档集的构建
6 页 / 共 29
中文Web测试集CWT200g之文档集的构建
中文Web测试集CWT200g之文档集的构建
7 页 / 共 29
中文Web测试集CWT200g之文档集的构建
中文Web测试集CWT200g之文档集的构建
8 页 / 共 29
中文Web测试集CWT200g之文档集的构建
中文Web测试集CWT200g之文档集的构建
9 页 / 共 29
中文Web测试集CWT200g之文档集的构建
中文Web测试集CWT200g之文档集的构建
10 页 / 共 29
中文Web测试集CWT200g之文档集的构建
中文Web测试集CWT200g之文档集的构建
11 页 / 共 29
中文Web测试集CWT200g之文档集的构建
中文Web测试集CWT200g之文档集的构建
12 页 / 共 29
中文Web测试集CWT200g之文档集的构建
中文Web测试集CWT200g之文档集的构建
13 页 / 共 29
中文Web测试集CWT200g之文档集的构建
中文Web测试集CWT200g之文档集的构建
14 页 / 共 29
中文Web测试集CWT200g之文档集的构建
中文Web测试集CWT200g之文档集的构建
15 页 / 共 29

1、 是动态增量的搜集,即在任何时间搜集到的网页都可以随时添加到大的文档集当 中。虽然对于搜索引擎来说,动态增量的采集方法更为灵活并且效果更好,但是动 态的采集策略却会给文档集的构造带来麻烦。首先,增量搜集会给文档集消除冗余 带来麻烦。在下文将可以看到,的构造过程中,采用了来判断和消 除数据集内重复的网页。由于需要对比所有网页的值来判断数据集内网页是 否重复,因此这种方法的计算量是非常大的。如果采用动态的采集方法,对于每次 的增量采集,采集到的集合中都可能包含与文档集中相重复的网页。因此,每当要 把搜集到的网页添加到文档集当中,都必须进行次消重操做,这会导致数据集构 造构成对系统资源的需求增加,同时延长数据集构造的时间跨度。其次,增量采集 很可能导致对网站大小的估计,因而影响采样。文档集构造的个核心问题就 是对于文档的采样策略。当前。

2、 的发展速度。然而,从另个角度说,如果味增大测试集的规模,将会使 相关判断集的制作非常消耗人力。因此我们必须在代表性和规模之间作出权衡。其 次,这个大规模的数据集必须能够比覆盖尽可能多的主体,保持内容上的多样性。 相比的数据集的抓取仅仅局限在的域名下,数据集的抓取范 围仅仅做了很小的约束。目前所搜集的网页都是在中国范围内的网页包含英 文网页。仅从这点上,就保证了能有更好的主题覆盖范围。另外,相对于 ,在网页采集过程中还加入了动态网页的搜集,并采用了系 列策略来保证能够很好的体现网站规模的同时,避免抓取的网页全部集中在很少的 网站上。从而尽可能覆盖更多的网站,以达到提高内容多样性的目的。 对于第三个问题,文档集大小的设定,更多的是考虑到数据易用性。 由于在年初,的硬盘的价格已经达到可以接受的范围,因 此,我们将数据集的规模设定在。

3、格式的文本和从,和文件中提取的文本 为像基于链接的排序这样的应用提供了重复表和重定向表 单文件大小限定在以内从降低到 严格的文件检查没有二进制文件比的文档数更少,但更大的平均文当大小。 测试集统计信息 文档数 依据服务器提供的类型 , , , , 其他文本文档 包, 总大小, 平均包大小 平均文档大小, 文档限制大小实际上约 空文档 中文测试集 是由北京大 学网络与分布式实验室天网组制作的针对于中文信息检索领域的中文测试 集。它根据天网搜索引擎截止年月日发现的中国范围内提供服务的 个主机,从中采样,个站点,在年月搜集获得个 网页,包括网页内容和服务器返回的信息,容量为。其中每个网页对 应的服务器返回信息中的类型都是或者。 数据集从年月日开始提供下载。在中文信息检索领 域,得到了广。

4、的采样策略都是基于网站规模的,如果采用增量搜集 的话,每次加入的网页可能会影响到站点下网页的多少,因而会影响到采样的结 果。对于整个文档集的构造来说,我们希望能够在通过定的搜集策略下,很好的 描绘出网站的大小,然后再针对于文档集进行采样。然而,增量采集的过程会使特定搜集策略对网站规模的估计失效,从而给文档集的构造带来意想不到的结果。再 次,增量采集的时间跨度比静态采集的时间跨度更大,因此制作出来的文档集更容 易被网站内容在时间上的变化所影响。而实际中,我们更希望文档集是在 特定时间点上的子集,因此时间跨度相对较小的静态采集才是首选。 对于第二个问题,要使文档集能够具有代表性,首先要让文档集具有定规 模,能够容纳下相当数量的网页。天网实验室孟涛同学在年初已经收集到的 属于中国的网页已经达到亿之多。因此我们新的数据集也必须能在容量上跟上。

5、 , ,目录 第章引言 与搜索引擎 测试集 和测试集 中文测试集 第二章文档集的设计原则 文档集构造的几点考虑 文档集的概况 第三章文档集的构造 中文网页分布特点 种子站点的基本选取 垃圾站点过滤 网页的抓取 后期处理 第四章的统计数据 规模统计 网站域名统计 网页形式分类 分省网页统计 第五章总结 参考文献 致谢第章引言 与搜索引擎 是的简称,中文名字为万维网。它是 种基于的主从结构分布式网络信息系统,也是目前应用范围最广且最为成 功的服务。最初是在年月,由欧洲量子物理实验室 的物理学家提出 的。于年在自己编写的图形化浏览器 上显示了最早的页面。随后在年,正式发布 了技术。 的核心是超文本和超媒体技术。超文本 与普通文本的不同点就在于超文本中加入了指向其他超文本的超。

6、集。该测试集的第二版不仅相对于在容量上提高 倍,还针对中存在的主要问题,加入垃圾站点过滤和网页级别的重复 内容过滤,并采取新的网页抓取策略,在提供更高的信息量的同时,保证整个数据 集的内容质量。本文首先对搜索引擎以及当前被广泛使用的测试集进 行介绍,然后在对上网页分布特点进行分析的基础上,系统介绍了 的种子站点列表制作垃圾站点消除抓取策略和后期的消重采样工作进行介 绍。特别对于制作过程中不同于的步骤进行了重点分析与讨 论。最后,本文对以上工作进行了总结和展望。 关键词 信息检索测试集,文档集 , , , , , , , , , ,目录 第章引言 与搜索引擎 测试集 和测试集 中文测试集 第二章文档集的设计原则 文档集构造的几点考虑 文档集的概。

7、量已经达到亿。天网实验 室在今年年初的统计结果显示,目前中国国内的网页数量已经达到亿。如此大 规模的信息资源,没有统的组织和规划,很难迅速有效的找到有用的信息。 ,即信息检索技术和搜索引擎则为这些问题提供了最有效 的解决方法。搜索引擎通过维护个大规模的再现资源数据库来为用户提供搜索服务,它通常由搜集系统,索引系统以及相关性判断系统组成。当前最具代表性的搜 索引擎有百度和天网等。 测试集 测试集是用来测试信息检索系统性能的套标准数据的集合。大规模数据集 是加速信息提取领域研究的基础。任何信息检索系统在大规模测试集上的性能表现 能够从定程度上体现出该系统在实际应用中的性能。任何信息系统只有在通过大 规模测试集上的测试并给出满意的结果后,才能进入实际应用。由此也可看出,大 规模测试集和评测是改进信息检索技术和信息检索系统的关键。 。

8、不仅相对于在容量上提高倍,还 针对中存在的问题,加入垃圾站点过滤和网页级别的重复内容过 滤,并采取新的网页抓取策略,在提供更大的信息量的同时,保证整个数据集 的内容质量。 论文对于的种子站点列表制作垃圾站点消除抓取策略和 后期的消重采样工作进行介绍。特别对于制作过程中不同于的步 骤进行了重点分析与讨论。 毕设期间,秦琦同学工作努力,态度积极,按计划完成了任务,表现出 定的自主研发能力和较强的动手能力。 指导教师签字 年月日 摘要 在信息检索领域中,信息检索系统评估对于信息检索系统的研究开发和应 用有着显著的影响。大规模的测试集被认为是信息检索系统评估工作的基础,其质 量决定着评估工作的效率和评估结果的准确定。 系列测试集是北京大学网络实验室面向中文信息检索评估而制作的大 规模网络测试。

9、链接, 打破了传统文本的线性组织方式,使超文本之间能够以链接组织到起。通过超链 接用户可以很方便的在超文本之间进行跳转,浏览相关的内容。这种文本的组织方 式更接近人们的思维方式和工作方式。超媒体不仅可以包含文字,还可以包含图 形图像动画声音和视频片断,这些媒体之间也使用超链接来组织。超文本和 超媒体技术为用户浏览信息提供了极大的便利,它使得用户在通过浏览器访 问信息资源的过程中,无须再关心些技术细节。只需通过简单的方法就可以迅速 的取得丰富的信息资料。这种便利也促成了在日后的飞速发展。 在最近几年中,的规模直以极快的速度扩大着。年月,互联 网上大约有亿万网页。而根据搜索引擎在年月索引网页 表明,网页数已经超过亿。根据截止到年月日的统计表 示,我国网站数已经达到,个,年增加,个,增长率为。 百度于年月日正式宣布,百度索引的网页数。

10、泛的应用,截至年月申请该测试集的研究机构已经超过家,连续两年年和年被中文信息检索评测和 信息检索评测指定为测试集。第二章文档集的设计原则 文档集构造的几点考虑 通常来说,文档集相比测试集的其他组成部分起着更至关重要的作 用。由于当今领域的技术应用基本都面对,因此选取制作的文档集应该能 够很好的体现出真实环境所具有的特点。从而个高质量的文档集应该具有 非常广的主题范围,同时又具有相当的规模。般来讲,这两点在实际当中是相辅 相成的。和,等人针对文档集的代表性提出了三个问题 文档集应该使用静态的采集还是应该使用动态采集 这个文档集相对于父集的代表性有多大 能够满足般和特殊应用和研究的文档集的大小是多少 对于第个问题,我们倾向于采用静态的方式来采集构造大规模文档集的网 页。所谓静态的采集是指所有的网页在特定的段时间内抓取的而动态采集指。

11、个完整的测试集由三部分组成文档集查询集和相关判断集。文档集是 组文档的集合,该组文档的内容用来被信息检索系统进行文字分析。它是信息系 统评估的数据基础。查询集是向信息检索系统提出的问题的集合。这些问题依据信 息检索系统和所需进行评估的项目不同,可以是个或组关键词,也可以是段 描述。通常这些问题由建立相关判断集的人员来制作。由于相关判断集的制作非常 耗费时间,所以这些问题的数量通常控制在几百个左右。相关判断集是对应查询集 中问题所给的组展示在处理实际问题的检索方法上的实质改进,加快技术从研究到商 业化的转变速度 发展适当缺据应用性的评估技术,供各界遵循采用,包括开发更加适用于 现有系统的新的评估技术。 从开始,开始使用测试集完成评估工作。测 试集的特征如下 抓取域名下的网站年早期 在抓取百万格式的网页后停止 还包括。

12、同时为了能提供更多的信息,我们在保 存的时候使用了压缩的天网格式。 文档集的概况 根据天网搜索引擎在年月份搜集网页所发现的中国范围内提供 服务的,个主机,通过系列处理和过滤后得到,站点。然后 对这些站点进行网页搜集,每个网站的搜集深度为,单个网站搜集的数据量不 限,得到初始数据集。所有搜集的网页都具有或者的属 性。然后针对得到的原始数据集进行后期处理和采样,得到容量为的 的测试集,共包括,个站点,个网页。本科毕业论文评语 学生姓名秦琦学号成绩 论文题目中文测试集之文档集的构建 指导教师意见 秦琦同学的毕业设计论文工作涉及信息检索领域中评测集的构建工作, 针对中文信息检索评测的需求,构建了 文档集。目前该测试集已经用于 中文信息检索评测。 系列测试集是针对中文信息检索评估而制作的大规模测试 集。该测试集的第二版。

参考资料:

[1]张军毕业设计施工组织设计版本。(第48页,发表于2022-06-24 08:16)

[2]张冠华-客车超载控制系统设计(第20页,发表于2022-06-24 08:16)

[3]站名自动播报系统设计报告(第17页,发表于2022-06-24 08:16)

[4]站长自助建站系统的设计(第30页,发表于2022-06-24 08:16)

[5]战略管理会计初探(第18页,发表于2023-09-14 20:20)

[6]战略管理会计在我国企业的应用(第10页,发表于2023-09-14 20:20)

[7]展示设计艺术学院毕业设计(第45页,发表于2023-09-14 20:20)

[8]战略成本管理的现状及发展对策(第28页,发表于2023-09-14 20:20)

[9]战略成本管理的理念及其运用论文 (第9页,发表于2022-06-24 08:16)

[10]展示设计教案(第24页,发表于2023-09-14 20:20)

[11]展开式二级圆柱齿轮减速器设计说明书(第30页,发表于2023-08-08 17:41)

[12]展开式二级圆柱齿轮减速器的设计(第45页,发表于2022-06-24 08:16)

[13]炸弹人游戏在手机上的实现(第127页,发表于2022-06-24 08:16)

[14]粘胶短纤维的应用与展望(第17页,发表于2022-06-24 08:16)

[15]造纸原料蒸煮过程装料微机控制系统(第26页,发表于2022-06-24 08:16)

[16]闸阀Z80H-64设计(第16页,发表于2023-09-14 20:20)

[17]轧钢车间设计(第25页,发表于2023-09-14 20:20)

[18]轧钢厂毕业设计(第59页,发表于2022-06-24 08:16)

[19]增值税会计问题探讨-管理类毕业论文(第16页,发表于2023-09-14 20:20)

[20]增值税会计问题探讨(第16页,发表于2023-09-14 20:20)

下一篇
温馨提示

1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。

2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。

3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。

4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。

5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。

  • 文档助手
    精品 绿卡 DOC PPT RAR
换一批