帮帮文库

返回

毕业论文:互联网网页文本对象抽取实现技术 毕业论文:互联网网页文本对象抽取实现技术

格式:word 上传:2022-06-24 19:06:22
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(1)
1 页 / 共 43
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(2)
2 页 / 共 43
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(3)
3 页 / 共 43
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(4)
4 页 / 共 43
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(5)
5 页 / 共 43
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(6)
6 页 / 共 43
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(7)
7 页 / 共 43
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(8)
8 页 / 共 43
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(9)
9 页 / 共 43
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(10)
10 页 / 共 43
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(11)
11 页 / 共 43
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(12)
12 页 / 共 43
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(13)
13 页 / 共 43
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(14)
14 页 / 共 43
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(15)
15 页 / 共 43

1、探讨信息抽取技术在互联网搜索中的应用和意义。研究信息抽取技术的原理方法流程及应用,并深入探讨网页文本对象抽取技术的理论和方法。提出种基于特征和机器学习的博客正文抽取实现方法,详细介绍其原理和具体过程结合专门的统计工具对该博客正文抽取实现算法进行统计训练,并给出测试结果对该博客正文抽取算法进行思考和总结,总结出该算法的优点以及需要改进的地方。将来的工作整个抽取算法是针对博客正文而进行的。为了能使博客搜索的功能更强大更全面,可以扩大抽取的范围,从而抽取到更多更全的博客信息来供用户进行更有效的查询。这些信息包括博主昵称文章标题文章更新时间好友和评论等等。在博客正文抽取算法中,抽取到的结果是纯文本的正文信息,而不包括字体样式大小以及布局等格式信息,如何要给用户更加直观的效果,可以把这些格式信息也。

2、,通过网络搜索引擎服务商对信息的收集和筛选,人们能够方便地获得些所需信息。这样就出现了项与信息抽取密切相关的研究信息检索,技术。信息检索是指将信息按定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。信息抽取与信息检索存在差异,主要表现在三个方面功能不同。信息检索系统主要是从大量的文档集合中找到与用户需求相关的文档列表而信息抽取系统则旨在从文本中直接获得用户感兴趣的事实信息。处理技术不同。信息检索系统通常利用统计及关键词匹配等技术,把文本看成词的集合,不需要对文本进行深入分析理解而信息抽取往往要借助自然语言处理技术,通过对文本中的句子以及篇章进行分析处理后才能完成。适用领域不同。由于采用的技术不同,信息检索系统通常是领域无关的,而信息抽取系统则是领域相关的,只能抽取系统预先设。

3、关中文信息提取中的每个通过决策树判断为正文块中的文本返回,且不为标签的属性类中是标记湖南大学软件学院中类中对应的标记数目是类的标记并且的文本长度不为的属性类中类标记数目的属性类中的文本长度的的文本返回的第个孩子结点没有兄弟结点没有兄弟结点为标记返回湖南大学软件学院的下个兄弟结点的下个兄弟结点返回系统展示在的地址栏中输入,例如出现智叟搜索引擎的首页,如图所示图查询首页该界面中的文本框为用户输入查询词的地方。输入查询词,点击按钮后,页面跳转到结果显示页面,如图所示湖南大学软件学院图查询结果显示页面在结果显示页面中,当鼠标移动到条结果项的时,将出现博客网页正文预览,如图所示湖南大学软件学院图正文预览湖南大学软件学院总结本文的主要工作总结研究信息抽取技术的原理发展现状及其与信息检索的区别和联系,。

4、景。该系统采用了期望驱动,脚本与数据驱动,输入文本相结合的处理方法。这种方法被后来的许多信息抽取系统采用。从世纪年代末开始,信息抽取研究蓬勃开展起来,这主要得益于消息理解系列会议,的召开。正是系列会议使信息抽取发展成为自然语言处理领域个重要分支,并直推动这领域的研究向前发展。目前,随着对信息抽取技术的不断发展,各种抽取系统也层出不穷。当前的发展趋势在慢慢减少人工标记的分量,而采用非标记的训练模型来实现信息抽取。根据这趋势,信息抽取系统可以分成四类人工构造的抽取系统基于指导的抽取系统半指导的抽取系统以及非指导的抽取系统。互联网多年的自由发展使得大量无结构信息的积累成为现实,这些信息为互联网用户带来更多选择的同时极大地增大了人们获得所需信息的复杂度。网络搜索引擎的发明在定程度上缓解了这种窘境。

5、提供种切实可行的方式。国内外研究状况关于信息抽取的研究在国内外已经开展了相当段时间,本节简要介绍了国内外信息抽取技术研究的进展。国内研究现状国内对中文信息提取系统的研究起步较晚,还集中在命名实体识别方面,遵照规范的完整的中文信息提取系统目前还处于探索阶段。中国研究中心在上演示了他们开发的个抽取中文命名实体以及实体间关系的系统。在和上,增加了中文系统的评测项目,国立台湾大学和新加坡肯特岗数字实验室参加了中文命名实体识别任务的评测,测试了中文命名实体人名地名时间事件等名词性短语的识别,取得了与英文命名实体识别湖南大学软件学院系统相近的性能。当然这只是对中文信息提取作了比较初步的工作,并不能真正进行中文信息提取。另外,北京大学计算语言所对中文信息提取也作了比较早的和比较系统的探讨,承担了两个有。

6、列入考虑范围之中。在博客中,些正文的内容是没有任何文字的,而是全部的图片信息。本博客正文抽取算法只针对文本信息而言,因此以后可以设计对包含图片信息的正文进行抽取的算法。湖南大学软件学院致谢首先,感谢我的父母,为了我,他们付出了很多很多。在湖南大学软件学院学习的四年,是我人生中的个重要历程。本文及课题是在林亚平院长的悉心指导下完成的,在课题的研究过程中,林院长总是在百忙之间抽出时间与我们进行课题的讨论以及生活上的交流,给我们提出了许多有建设性的意见,因此我的毕业设计才得以顺利完成。感谢林院长的给与我的帮助和指导。感谢王实和刘喜亮两位学长,整个毕业设计的过程中,他们给了我很多设计思想上的指导以及技术上的帮助,衷心感谢他们的无私帮助。同时也感谢我们课题组的其它两位同学李红亮赖凌飞,我们的毕业设。

7、定好的有限种类的事实信息。虽然信息抽取与信息检索有区别,但两种技术是互补的。为了处理海量文本,信息抽取系统通常以信息检索系统如文本过滤的输出作为输入而信息抽取技术又可以湖南大学软件学院用来提高信息检索系统的性能。二者的结合能够更好地服务于用户的信息处理需求。信息抽取技术对于搜索引擎的发展有着重大的意义,它推动着通用搜索引擎向新型的垂直搜索引擎发展,从而能够更好地满足用户的需要,让搜索变得更快更直接更有效。通用的搜索引擎是基于网页级别的,因此有时候无法直接获得想要的信息,而是需要点开很多个链接,分别在这些网页中去找寻所需要的信息。很多时候,用户得到的信息往往不是事先所期望的,或者信息非常杂乱而零散。通用搜索引擎在这些方面的不足让人们开始了对搜索引擎更深层更细致的研究。如今,新型的搜索引擎把。

8、分块的网页信息解析器的研究与设计北京中国科学院计算技术研究所,中国科学院研究生院计算机应用宋睿华,马少平,陈刚,李景阳种提高中文搜索引擎检索质量的解析方法北京清华大学计算机科学与技术系,清华大学智能技术与系统国家重点实验湖南大学软件学院室中文信息学报瞿有利,于浩,徐国伟,西野文人页面信息块的自动分割北京富士通研究开发中心有限公司,日本川崎株式会社富士通研究所中文信息学报,入门教程刘云中,林亚平,陈治平基于隐马尔可夫模型的文本信息抽取湖南长沙湖南大学计算机与通信学院系统仿真学报王实搜索引擎发展猜想信息抽取是智能搜索的未来湖南湖南大学软件学院互联网网页文本对象抽取实现技术摘要互联网中蕴含着大量的关于现实世界对象的结构化信息。为了能应对信息爆炸带来的严重挑战,抽取集成网页上各式各样的文本对象信。

9、究单元定格在了对象级别。互联网快速增长的海量资源使得人们对于搜索引擎的查询结果有了更高的要求,鉴于的成功,如何基于文本信息抽取的方法,结合网页不同于纯文本的各种特征进行网页信息包括文本图片音频和视频等的分析和抽取,以改进网络搜索引擎,成为互联网信息检索研究者关注的重要问题。互联网信息抽取技术通过将无结构或半结构的互联网数据结构化,为理解用户查询与网络文档之间以及不同网络文档之间的相关性提供了基础,从而为改进搜索效率和搜索方式提供了良好的理论依据。对象级别的搜索引擎的个显著优点是可以利用对象的语义信息,采用直接或者聚合的结果来响应复杂查询,将具体的搜索结果清晰明了地呈献给用户。本课题研究的目的旨在传统信息抽取思想的基础上,提出种互联网网页文本对象的抽取实现方法,为解决当前博客垂直搜索的问题。

10、校学院各级领导和老师的关心和支持,我才能够圆自己的大学梦。感谢软件学院所有老师为我付出的辛勤劳动。对各位专家百忙之中对于本文的审阅和赐教表示衷心的感谢,湖南大学软件学院湖南大学软件学院参考文献刘迁,焦慧,贾惠波信息抽取技术的发展现状及构建方法的研究北京清华大学精密仪器与机械学系,清华大学光盘国家工程研究中心李保利,陈玉忠,俞士汶信息抽取研究综述北京北京大学计算机科学与技术系,计算语言学研究所计算机工程与应用信息抽取技术研究的发展历程吴振慧信息抽取的研究江苏扬州扬州环境资源职业技术学院电脑知识与技术学术交流许建潮,王颖楠,胥桂仙文本信息抽取与挖掘方法吉林长春长春工业大学计算机科学与工程学院王娜博客搜索引擎与传统搜索引擎的比较研究武汉武汉大学信息管理学院图书情报工作于满泉,陈铁睿,许洪波基于。

11、息,进行对象级别的搜索,迫切需要些自动化的技术帮助人们在海量信息中迅速找到自己真正需要的信息。网页文本对象抽取实现技术正是解决这个问题的种方法。本文以传统的信息抽取理论和方法为基础,针对目前热门的博客领域,提出了种基于特征和机器学习的博客正文抽取算法。在该算法中,研究了博客网页的特征,提出了种基于标签特征的网页分块算法,使用决策树算法对博客数据集进行统计训练,采用专门的统计工具对该算法进行了测试和评估,并总结出该算法的优点以及可以改进的地方。最后,展示了基于该博客正文抽取算法的博客搜索引擎的系统结构和界面演示。该系统属于新型的垂直搜索引擎,能够对博客和博文进行快速有效的搜索。据了解,也是目前国内高校中第个博客搜索引擎。关键词互联网,信息爆炸,信息抽取,博客机器学习,决策树,搜索引擎,目录。

12、计是个大项目智叟搜索系统的不同模块,我很高兴能够和他们合作,谢谢他们付出的努力以及给我的帮助。在我的大学四年之中,很多人给了我莫大的支持和鼓励。在我内心深处,我直在默默地感激着他们。感谢谢丙炎副校长李透忠书记和陈军主任,在他们的关爱和支持下我才能顺利入学。感谢徐小林和蔡建国两位书记,他们在四年里给了我很大的鼓励和支持。感谢许晖老师潘滢伊老师李世勇老师吴越湘老师吴玥老师李司铎老师,他们总是在工作上给与我指导和帮助,在生活上给与我支持和鼓励。感谢凌小宁老师和陈浩老师在创新课程上对我的指导,它是我大学学习过程中个很重要的里程碑。感谢周军海老师在工程实训和企业实习过程中给与我的帮助和指导。感谢比我高个年级的王嘉鸿学长和张韧禾学姐,四年的坎坷路程中,他们给了我精神上最大的支持和鼓励。最后,再次感谢。

参考资料:

[1]毕业论文:互联网的汉文化全球的汉文化(第12页,发表于2022-06-24)

[2]毕业论文:互联网拥塞控制中路由优化算法设计与编程(第29页,发表于2022-06-24)

[3]毕业论文:云阳县产业发展现状及对策研究(第21页,发表于2022-06-24)

[4]毕业论文:云浮地区护理人力资源管理现状分析(第10页,发表于2022-06-24)

[5]毕业论文:云和县人民医院迁建工程弱电系统设计招标文件(第30页,发表于2022-06-24)

[6]毕业论文:云南饭店集团化模式发展问题分析及解决对策(第22页,发表于2022-06-24)

[7]毕业论文:云南褐煤水煤浆成浆性分析(第38页,发表于2022-06-24)

[8]毕业论文:云南省富源县大隆煤矿勘察设计(第38页,发表于2022-06-24)

[9]毕业论文:二阶对象控制系统设计(PC机)(第35页,发表于2022-06-24)

[10]毕业论文:二进制数字频带传输系统设计(第20页,发表于2022-06-24)

[11]毕业论文:二自由度蛇形机器人单元设计2(第40页,发表于2022-06-24)

[12]毕业论文:二维动画设计研究与应用(第39页,发表于2022-06-24)

[13]毕业论文:二维全纸动画与无纸动画间的过渡(第42页,发表于2022-06-24)

[14]毕业论文:二维伺服平台控制系统的设计(第42页,发表于2022-06-24)

[15]毕业论文:二级直齿圆锥斜齿圆柱齿轮减速器设计说明书(第46页,发表于2022-06-24)

[16]毕业论文:二级直齿圆柱齿轮减速器毕业设计(第29页,发表于2022-06-24)

[17]毕业论文:二级斜齿圆柱齿轮减速器设计说明书11(第26页,发表于2022-06-24)

[18]毕业论文:二级斜齿圆柱齿轮减速器设计说明书07(第28页,发表于2022-06-24)

[19]毕业论文:二级斜齿圆柱齿轮减速器设计说明书06(第35页,发表于2022-06-24)

[20]毕业论文:二级斜齿圆柱齿轮减速器设计说明书05(第32页,发表于2022-06-24)

预览结束,还剩 28 页未读
阅读全文需用电脑访问
温馨提示 电脑下载 投诉举报

1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。

2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。

3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。

1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。

2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。

3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。

4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。

5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。

毕业论文:互联网网页文本对象抽取实现技术
帮帮文库
页面跳转中,请稍等....
帮帮文库

搜索

客服

足迹

下载文档