四年与北大共呼吸同命运,是我最大的自豪。
不论以后我走到哪里,北大都将是我最牵挂的地方。
最后要感谢我的爸爸妈妈,直毫无保留地支持我的选择,支持我的学业。
义指向与本网页相关网页的链接,如新闻网页下方的相关新闻链接。
补充定义新闻网页的内容信息应包括出现在页面里的标题,时间,通讯社,记者名等信息。
个网页中的内容信息不定只有块,可能有多块,甚至可能是零散分布的文字段。
无意义的论坛回帖如顶等不属于内容信息,但有定内容的论坛回帖属于内容信息。
相关链接不算内容信息。
任务评测根据准确度召回率和三个指标,它们的定义如下在个网页中正确提取的内容信息长度在个网页中提取的内容信息总长度在个网页中正确提取的内容信息长度在个网页中人工标注的内容信息总长度评测格式评测要求参加评测单位以定的格式提交,每个评测任务接受参加者的到二组检索结果。
具体要求如下主题型网页发现提交个纯文本文件,包含所有找到的主题网页,每个网页的编号占行。
如网页内信息块发现只需要把正文内容找出来即可,个网页可能包括多个彼此不连续的正文内容,正文内容可以包括包含内容标签,也可以不包含内容标签。
结果的格式如下三元组其中是网页的编号,是段正文内容在原网页文档中的开始位置网页的起始位置从开始计算,是该段正文内容的长度。
个网页可以有多个正文内容段,因此可以有类似下面的情况该网页中的第段正文内容该网页中的第二段正文内容评测结果本次评测任务最终共有七支参赛队伍,提交了组结果。
大连理工大学信息检索实验室四川大学计算机学院数据库与知识工程研究所华南理工大学广东省计算机网络重点实验室队华南理工大学广东省计算机网络重点实验室二队山东大学信息检索实验室人民大学信息学院北京大学网络实验室主题型网页发现任务评测结果在数据集中的所有个网页中,有个不重复。
在这个网页中,随机抽取了个,人工判断其类型。
为了消除对主题型网页认定上的分歧,在个中去除了部分混合型以及不易判别类型的网页,共得到个确定类型的网页,其中包括个主题型网页,个非主题型网页,主题型网页数目非主题型网页数目,经验证,大致符合原网页集中的类型分布。
利用该个网页,评测各组参赛数据。
虽然我们的样本数偏少,但由于样本中的类型分布大致符合原网页集中的类型分布,所以评测结果基本反映了各组的实际分类质量,只不过没有形成明显差距。
华南理工队和大连理工的分类质量相对最佳,而人民大学和山东大学提交的三个结果,分别将个网页中的个判断为了主题型网页,过高地估计了主题型网页的比例,从而大大降低了精度,但值得提的是,山东大学提交的结果获得了最高的召回率。
评测结果如下主题型网页发现任务评测结果较好的队伍是华南理工队和大连理工,分别代表了网页整体性判断和网页分块判断两种主要的实现方法。
网页整体性判断方法以华南理工队的方法最为典型,综合使用了启发式规则和分类器方法第步先根据主题型网页的重要特征,基于启发式规则判断第二步提取更详细的特征信息,用分类第三步还基于信息块提取的结果反馈,进步筛选出主题型网页。
华南理工队也属于整体性判断方法,但只使用了分类器方法山东大学队则只使用了较简单的启发式规则。
网页分块判断方法以大连理工队的方法最为典型,在网页分块的基础上,判断各个网页块的类型。
如果个网页里都是非主题型块,则为非主题网页。
若含有主题块,则为主题型网页。
其中判断各个网页块的类型是综合基于规则和基于概率的方法,同时针对本次任务的网页特性做了优化。
而四川大学的方法比较特殊,在网页分块的基础上,使用网页块分布的方差和弯曲度属性区分导航型和主题型网页,不足在于使用规则过少,只使用了网页块的文本大小信息。
综合所有队伍提取和使用的特征信息,大致有如下几类相关的特征信息包括中数字的个数的深度以及的后缀。
链接相关的特征信息包括链接数链接文字与非链接文字比链接标签占网页的所有标签的比率链接文本内容占全文内容的比率非链接文字的长度等等。
其他特征信息包括网页文本内容中标点符号的个数正文的文字长度特殊标签如是否出现,以及包含特殊关键词与否。
下图是各组结果的值大小的直观显示网页内容信息发现任务评测结果我们事先人工标记了个网页中的个主题型网页,标记方法为给的标签添加属性,如正文内容相关链接噪音内容其中标记为的就是内容信息块标记为的是相关链接而标记为的则是噪音内容。
因为各组提交的结果只针对第项任务中发现的主题型网页找出内容信息块,而我们标记的个网页并没有被各组致判定为主题型网页,只有其中的个网页被各组致判定为主题型并提取了内容信息块其中华南理工二队没有根据他们第项任务里找出的所有主题型网页来完成第二项任务,定程度上影响了各组的重合度。
所以本任务的评测就依据这个标记过的主题型网页,样本量偏少。
根据各组提交的格式为的结果文件,为各组产生出对应的个内容信息块网页,然后逐比较标记过的网页与各组提取的网页。
从评测结果可以看出,大连理工提交的结果评测成绩十分优异,精度和值超过了。
鉴于我们标记的样本集中也可能存在少量的误标的情况,其召回率应该也达到了。
评测结果如下页块赋予权值的方法比较简单,就是主题内容信息块给以的权值,而非主题内容信息块给以的权值。
事实上,的重要性衡量也是项专门的工作,微软年发表在会议上的论文就是篇关于网页块重要性衡量的文章,可以用在算法中帮助改进的权重赋值方法。
其他应用其他应用包括基于分块的网页消重算法。
传统的消重算法用原始网页作为消重的输入数据,这样导致只能消去内容完全样或者内容大致样的重复网页。
而事实上,很多网页都是互相转载,转载网页的特点就是正文部分几乎样,而其他部分,诸如导航条网站链接个人信息等就不样了,算法就可以利用提取后的网页主题内容作为消重的输入数据,然后再调用传统消重算法,这样在些需求下,转载网页也可以高效率地去除。
还有基于分块的网页分类,基于分块的网页图片检索,基于分块的网络结构分析等等应用,这些算法暂时我还没有实现,但可以作为我的后继工作,以后继续在此方向努力。
第章总结与展望总结本文提出了套基于语义的网页分块和主题内容信息提取算法,在天网搜索引擎预处理模块中将其实现,并通过了中文信息检索评测项目的检验。
在该套算法基础上,还实现了基于的分布式算法,该算法改进了算法的效果。
基于语义的网页分块。
提出了算法,该算法详细剖析了所有符合标准的标签的功能特性,将它们分为超级标签大标签排版标签显示标签附属标签定制标签等六大类,按类处理,较好地实现了网页分块功能。
该算法具有十分强的鲁棒性,能适应各种不常见的代码,同时将原先树型架构的网页语义块层次结构转换成为平行架构,各个语义块相互独立开来,方便在此基础上的应用。
网页主题内容信息提取。
提出了算法,该算法是对文本相似度和后验概率估计两种方法的结合。
文本相似度算法偏重于语义块内部的文字内容,是从文本的角度衡量个语义块的重要程度而后验概率估计算法提出的条先验概率都反映的是语义块内部的结构信息,是从结构的角度衡量语义块的重要程度。
两个算法分别计算主题内容信息块,然后求交,最后得到的信息块既能反映其文本的重要性,又能反映其内部结构的重要性,防止了单个算法可能导致的偏差,提高了网页主题内容信息提取的精度和召回率。
中文信息检索评测项目。
本文介绍了这次评测项目的题目设计,测试集产生评测方法和评测结果,检讨了这次评测的不足之处。
通过这次评测,算法的效果得到了检验,同时,受大连理工等参赛队伍的思路启发,我改进了算法,提高了效率。
算法。
算法起源于的算法,但后者不是分布式的。
算法基于网络实验室的天网文件系统和计算平台,本文描述了环节和环节的算法步骤。
展望这篇论文基于我这段时间以来在网络实验室天网组的工作,现在虽然论文已经告段落,但工作上仍然有许多遗憾,我还会尽量改进。
算法的大遗憾就是没有利用视觉信息。
虽然我们是在平台下,但仍然有可能通过调用的开源代码来获取网页中的视觉信息。
其次,应该可以尝试用类似于第二章提到的的算法,用机器学习的方法来指导分块。
算法中,文本相似度比较方法可以改进,比如增加权重,或者采用其他更复杂的文本相似度比较方法。
而后验概率密度方法也可以进步改进效率,比如增加更多的概率项。
评测中,今年的评测存在样本数过少,评测题目设计不够精确等问题,而参赛队伍提交的结果的质量也是参差不齐。
希望明年能更详细设计,吸引更多优秀的参赛队伍。
今年的评测报告公布之后,也有其他大学未参赛的学生跟我联系和讨论,认为我们的评测是中文领域很权威的信息检索评测,这让我感到很惭愧,当初应该更认真地将这次评测做得更好。
算法对网络传输的消耗很大,应该探讨有没有更好的设计方案可以改善网络传输量。
同时应该实现更多基于的相关应用。
参考文献,,,,,,,,,,中文信息检索论坛网页信息存储的天网格式,致谢在即将要离开北大的时候,心中充满了留恋与感慨。
这篇稚嫩的毕业论文主要基于我这年来在网络实验室天网组的学习和工作内容,这年对我来说是弥足珍贵的年,在天网组浓郁而愉悦的学术氛围中,我得以天天向各位老师和师兄师姐们学习,努力获取点滴的进步。
虽然最后这篇论文里的工作分量并不突出,还有很多需要改进和提高的地方,但却印刻了我这年的足印。
感谢闫宏飞老师在我的平常学习生活中以及在这篇论文的撰写过程中对我的监督与鼓励。
闫老师踏实的治学态度和严谨的工作作风使我受益匪浅,直指导和规范着我在实验室的学习和工作。
感谢我的班主任彭波老师在学习和生活上给我的贯帮助。
彭老师除了对班级同学尽心尽力,工作中也认真负责,教给了我很多以前没有了解的知识和技术。
感谢天网组里的每位聪明






























1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。
2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。
3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。
4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。
5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。
