doc (互联网网页文本对象抽取实现技术)(最终版) ㊣ 精品文档 值得下载

🔯 格式:DOC | ❒ 页数:43 页 | ⭐收藏:0人 | ✔ 可以修改 | @ 版权投诉 | ❤️ 我的浏览 | 上传时间:2025-10-13 00:52

法,包括对数据进行预处理,分类,回归聚类关联规则以及在新的交互式界面上的可视化。


它的数据文件是以为后缀名的。


以上步骤中的博文为例,训练数据在中的显示如图所示说明第次项代表块的编号,第二项到第十项表示中的十条特征。


最后项的是个二值,代表该块是正文块,代表该块不是正文块。


图数据显示实示例图统计训练把每个博文网页进行分块和人工标记后,再将每个网页对应的文件整合在起,形成训练数据集。


接下来,采用折交叉验证来选择和评估模型。


可以看到算法交叉验证的结果之为湖南大学毕业论文第页湖南大学软件学院。


图训练博客数据集示意图获取决策树在上步的训练过程中,右键点击刚才出现的那项,弹出菜单中选择,新窗口里可以看到图形模式的决策树,如图所示湖南大学毕业论文第页湖南大学软件学院图博文统计训练后获得的决策树示意图在获得决策树后,将其编码实现,就可以对经过分块预处理后的博文页面进行文章正文的抽取。


算法的测试和评估继续使用工具对该抽取实现方法进行测试。


在测试中,使用条数据进行训练,条数据进行测试,采用总精确度来评价算法性能,定义如下总精确度机器正确标记的单词数所有测试的单词数根据公式,得到的总精确度为。


如图所示湖南大学毕业论文第页湖南大学软件学院图抽取功能测试结果图博客正文抽取算法的意义和思考博客正文抽取最大的意义在于提高搜索的精度。


中文搜索引擎经常会返回大量的无关项或者不含具体信息的间接项,产生这类问题的个原因是网页中存在着大量与主题无关的文字。


这些为辅助网站组织而增加的文字定义为噪声,它们通常聚集成块,且独立于主题内容,仅仅起向导的作用,例如加超链接目录或者具有搜索功能的表单。


通过对博客正文进行抽取后,仅对正文中的内容进行分词索引,这样可以将检索的匹配定格在主题内容之中,而大大的减少了网页噪声对检索的干扰,从而提高检索的效率和精度。


另外,通过对博客正文抽取的研究,我们对博客的网页结构有了很深入的了解。


以此为基础,运用发散思维,可以进步开展其他方面的研究,例如对文章评论进行抽取统计博主的活跃程度等等。


该算法充分地抓住博客网页的特定结构特征,利用网页的标签特征,研究出湖南大学毕业论文第页湖南大学软件学院了种新的网页分块算法利用标记的布局特性进行解析。


该分块算法的实现相对而言比较简单,而且分块的效果很好。


另外,采用专门的统计工具对大量的数据进行统计训练而获得决策树,这样所得到的模型和算法的准确率有保障。


所以,从整体上来看,该算法的实现并不复杂从效果上来看,对博客正文抽取的准确率也比较高。


当然,因为技术能力和资源条件的限制,抽取系统中还存在很多可以改进的地方。


分块算法和训练过程目前只针对于些著名的门户网站博客网页适用,例如网易新浪百度搜狐等,所以博客正文抽取的实现有定的局限性。


所抽取到的仅仅是正文的文本,并不包含字体种类大小等格式信息以及正文中的图片信息。


这些都是以后可以进行拓展和改进的地方。


湖南大学毕业论文第页湖南大学软件学院基于博客正文抽取的搜索引擎本章主要介绍基于博客正文抽取算法的实例博客搜索引擎的主要情况,并对其系统界面进行展示。


系统介绍是个智能搜索引擎系统。


所谓智能的搜索就是让计算机变得更聪明,个例子是查找去首都的火车,智能的搜索引擎应该理解在中国,首都就是北京。


当然,目前的搜索引擎利用统计学的方法将这两个词理解为同义词,解决了基本的同义词理解问题。


然而,用户仍然需要打开个个的网页查找去北京的火车车次,为了解决这个问题,产生了火车车次查询的垂直搜索引擎,这种搜索引擎将所有火车车次信息录制在数据库中,为用户提供单的火车车次搜索,效果非常好。


但是,如果不是查找火车车次,而需要查找近几天去北京的飞机航班信息天气情况或者是北京的美食呢为了迅速而有效地查询到个好的结果,可能需要查找飞机航班信息天气以及特色美食的垂直搜索引擎。


现在的实际情况就是如此,网络上有很多针对个特定领域的垂直搜索引擎。


目前项目正针对于博客领域的搜索,但至今所做的工作基本没有脱离现阶段已有搜索引擎的模式。


这样做的原因有两方面,是本身的技术力量还不够强大到开发新代搜索引擎的地步另方面,虽然重复现有的搜索引擎功能,但并不意味着抄袭现有的技术,实际上很多技术并没有被搜索引擎公司发布。


在重复同功能时仍然可以使用很有创意的方法,正所谓条条道路通罗马。


博客搜索系统的结构如图所示湖南大学毕业论文第页湖南大学软件学院图系统结构示意图博客正文抽取模块本节主要介绍中博客正文抽取模块的实现情况。


博客正文抽取模块简介在中,博客正文抽取模块的实现主要在项目中。


是在环境下,运用语言开发的个类库。


它主要运用了的组件技术以及中科院的分词系统来实现网页分块和正文抽取。


项目位于中的模块内,的结构如图所示提供抓取到的网页数据提供索引及抽取后的博客正文实现网络爬虫,抓取博客网页实现索引网页分块博客正文抽取功能实现排序以及整个系统的查询界面湖南大学毕业论文第页湖南大学软件学院图结构示意图博客正文抽取模块主要包括四个部分网页分块对爬虫抓取到的网页数据进行分块处理特征统计对每个网页分块进行特征统计,为博客正文的判断提供前提准备决策树的实现运用工具对数据集进行统计训练之后得到决策树,将此决策树编码实现博客正文判断以每个分块的特征集为依据,根据决策树来判断该分块是否属于博客正文。


博客正文抽取模块的主要数据类类用于表示网页分块的类,它的类定义如表所示表网页分块类定义表字段名类型备注分块的文本信息分块的特征信息类用于描述分块特征集的类,它的类定义如表所示表网页分块特征类定义表字段名类型备注网页分块的第个标签在和陈军主任,在他们的关爱和支持下我才能顺利入学。


感谢徐小林和蔡建国两位书记,他们在四年里给了我很大的鼓励和支持。


感谢许晖老师潘滢伊老师李世勇老师吴越湘老师吴玥老师李司铎老师,他们总是在工作上给与我指导和帮助,在生活上给与我支持和鼓励。


感谢凌小宁老师和陈浩老师在创新课程上对我的指导,它是我大学学习过程中个很重要的里程碑。


感谢周军海老师在工程实训和企业实习过程中给与我的帮助和指导。


感谢比我高个年级的王嘉鸿学长和张韧禾学姐,四年的坎坷路程中,他们给了我精神上最大的支持和鼓励。


最后,再次感谢学校学院各级领导和老师的关心和支持,我才能够圆自己的大学梦。


感谢软件学院所有老师为我付出的辛勤劳动。


对各位专家百忙之中对于本文的审阅和赐教表示衷心的感谢,湖南大学毕业论文第页湖南大学软件学院湖南大学毕业论文第页湖南大学软件学院参考文献刘迁,焦慧,贾惠波信息抽取技术的发展现状及构建方法的研究北京清华大学精密仪器与机械学系,清华大学光盘国家工程研究中心李保利,陈玉忠,俞士汶信息抽取研究综述北京北京大学计算机科学与技术系,计算语言学研究所计算机工程与应用,,,,信息抽取技术研究的发展历程吴振慧信息抽取的研究江苏扬州扬州环境资源职业技术学院电脑知识与技术学术交流,,,,许建潮,王颖楠,胥桂仙文本信息抽取与挖掘方法吉林长春长春工业大学计算机科学与工程学院王娜博客搜索引擎与传统搜索引擎的比较研究武汉武汉大学信息管理学院图书情报工作于满泉,陈铁睿,许洪波基于分块的网页信息解析器的研究与设计北京中国科学院计算技术研究所,中国科学院研究生院计算机应用宋睿华,马少平,陈刚,李景阳种提高中文搜索引擎检索质量的解析方法北京清华大学计算机科学与技术系,清华大学智能技术与系统国家重点实验湖南大学毕业论文第页湖南大学软件学院室中文信息学报瞿有利,于浩,徐国伟,西野文人页面信息块的自动分割北京富士通研究开发中心有限公司,日本川崎株式会社富士通研究所中文信息学报,入门教程刘云中,林亚平,陈治平基于隐马尔可夫模型的文本信息抽取湖南长沙湖南大学计算机与通信学院系统仿真学报王实搜索引擎发展猜想信息抽取是智能搜索的未来湖南湖南大学软件学院文章中的位置整个网页中的所有标签数包装器,实现网页分块决策树以及底层的抽取功能中科院分词系统,用于分词处理索引器,分词后实现倒排索引湖南大学毕业论文第页湖南大学软件学院网页分块的所有标签数网页分块中的标签数网页分块中的标签数网页分块中的标签数网页分块中的标签数网页分块中的标签的文本长度之和网页分块中的标签数网页分块中的标签数网页分块中的标签数博客正文抽取模块的实现思路博客正文抽取模块中有三个很重要的方法以页面类为输入,获得所有正文分块的文本信息,并以字符串类型返回以的组件中的类实例为输入,即从分块的第个结点起统计这个分块的特征信息集类以及文本信息,返回包含这两种信息的类。


以个结点为输入,按照页面源文件中的标签顺序来返回下个结点。


该模块的实现思路具体如下的根节点,结点是标记湖南大学毕业论文第页湖南大学软件学院结点是类型结点并且文本长度不为,对于中的每个的属性类中对于中的每个通过决策树判断为正文块中的文本返回,且不为标签的属性类中是标记湖南大学毕业论文第页湖南大学软件学院中类中对应的标记数目是类的标记并且的文本长度不为的属性类中类标记数目的属性类中的文本长度的的文本返回的第个孩子结点没有兄弟结点没有兄弟结点为标记返回湖南大学毕业论文第页湖南大学软件学院的下个兄弟结点的下个兄弟结点返回系统展示在的地址栏中输入,例如,,出现智叟搜索引擎的首页,如图所示图查询首页该界面中的文本框为用户输入查询词的地方。


输入查询词,点击按钮后,页面跳转到结果显

下一篇
(互联网网页文本对象抽取实现技术)(最终版)第1页
1 页 / 共 43
(互联网网页文本对象抽取实现技术)(最终版)第2页
2 页 / 共 43
(互联网网页文本对象抽取实现技术)(最终版)第3页
3 页 / 共 43
(互联网网页文本对象抽取实现技术)(最终版)第4页
4 页 / 共 43
(互联网网页文本对象抽取实现技术)(最终版)第5页
5 页 / 共 43
(互联网网页文本对象抽取实现技术)(最终版)第6页
6 页 / 共 43
(互联网网页文本对象抽取实现技术)(最终版)第7页
7 页 / 共 43
(互联网网页文本对象抽取实现技术)(最终版)第8页
8 页 / 共 43
(互联网网页文本对象抽取实现技术)(最终版)第9页
9 页 / 共 43
(互联网网页文本对象抽取实现技术)(最终版)第10页
10 页 / 共 43
(互联网网页文本对象抽取实现技术)(最终版)第11页
11 页 / 共 43
(互联网网页文本对象抽取实现技术)(最终版)第12页
12 页 / 共 43
(互联网网页文本对象抽取实现技术)(最终版)第13页
13 页 / 共 43
(互联网网页文本对象抽取实现技术)(最终版)第14页
14 页 / 共 43
(互联网网页文本对象抽取实现技术)(最终版)第15页
15 页 / 共 43
温馨提示

1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。

2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。

3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。

4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。

5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。

  • Hi,我是你的文档小助手!
    你可以按格式查找相似内容哟
筛选: 精品 DOC PPT RAR
小贴士:
  • 🔯 当前文档为word文档,建议你点击DOC查看当前文档的相似文档。
  • ⭐ 查询的内容是以当前文档的标题进行精准匹配找到的结果,如果你对结果不满意,可以在顶部的搜索输入框输入关健词进行。
帮帮文库
换一批