开始有许多不成熟的地方,但由于我们经常与教员取得联系,并请他对我们制作出的成果进行调试,而教员不厌其烦,总是及时地把他的宝贵意见提出来,这样我们在不断改进中又对所学的知识有了进步的认识。通过这次课题的研究,我对搜素引擎技术方面有很大的提高,使我的动手能力也有了定的进展。所以在这里我要衷心感谢在这次毕业设计过程中再次感谢我的指导老师周扬教员,她在我的整个课题设计过程中给予了细致的指导,提出了宝贵的意见。这些意见有的开阔了我的思路,使设计工作少走了不少弯路有的指出了不足,使我得以迅速改进,对我的课题设计都有重要意义。最后我还要感谢小组的其它同学。在课题设计当中,我们密切配合,互相帮助,互通有无,在很大程度上加快了课题设计的进度,如果没有他们的合作,这样个课题不可能顺利的完成。分出如果再从还开始,取还没,字典中没有此词,继续取还没有,依次取到字段还没有匹配假设阈值为,然后从没开始,取没有,如此循环直到字符串末尾为止。这种方法的优点是速度快,但是准确率却不是很高,比如待处理字符串为中华人民共和国,此匹配算法分出的结果为中华人民共和国,因此该方法基本上已经不被采用。最大匹配算法基于字符串的最大匹配,这种方法现在仍比较常用。最大匹配分为正向和逆向两种最大匹配,正向匹配的基本思想是假设词典中最大词条所含的汉字个数为个,取待处理字符串的前个字作为匹配字段,查找分词词典。若词典中含有该词,则匹配成功,分出该词,然后从被比较字符串的处开始再取个字组成的字段重新在词典中匹配如果没有匹配成功,则将这个字组成的字段的最后位剔除,用剩下的个字组成的字段在词典中进行匹配,如此进行下去,直到切分成功为止。例如,待处理字符串为汉字多为表意文字,取字符串汉语多为表假设比较的步长为,本文步长都取与词典进行比较,没有与之对应的词,去除表字,用字段汉语多为进行匹配,直至匹配到汉语为至,再取字符串多为表意,循环到切分出文字词。目前,正向最大匹配方法作为种基本的方法已被肯定下来,但是由于比较大,般不单独使用。如字符串处理机器发生的故障,在正向最大匹配方法中会出现歧义切分,该字符串被分为处理机发生故障,但是使用逆向匹配就能得到有效的切分。逆向最大匹配的分词原理和过程与正向最大匹配相似,区别在于前者从文章或者句子字串的末尾开始切分,若不成功则减去最前面的个字。比如对于字符串处理机器发生的故障,第步,从字串的右边取长度以步长为单位的字段发生的故障在词典中进行匹配,匹配不成功,再取字段生的故障进行匹配,依次匹配,直到分出故障词,最终使用方法切分的结果为故障发生机器处理。该方法要求配备逆序词典。般来说根据汉语词汇构成的特点,从理论上说明了逆向匹配的精确度高于正向匹配,汉语语句的特点般中心语偏后。有研究数据,单纯使用正向最大匹配的率为,单纯使用逆向最大匹配的率为。实际应用中可以从下面几方面改进,同时采取几种分词算法,来提高正确率改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的率等。逐字匹配算法逐字匹配算法,基于索引树的逐字匹配算法,是建立在树型词典机制上,匹配的过程是从索引树的根结点依次同步匹配待查词中的每个字,可以看成是对树分枝的遍历。因此,采用该算法的分词速度较快,但树的构造和维护比较复杂。种改进的算法是和最大匹配算法相结合,吸取最大匹配算法词典结构简单索引树算法查询速度快的优点。因此词典结构和最大匹配词典构造机制相似,区别在于词典正文前增加了多级索引。匹配过程类似索引树进行逐字匹配,在性能上和索引树相近。还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配般很少使用。般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的率为,单纯使用逆向最大匹配的率为。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为种初分手段,还需通过利用各种其它的语言信息来进步提高切分的准确率。种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的率。另种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验调整,从而极大地提高切分的准确率。是基于表示法的方法,如串树。其查找不是建立在单词的比较上,而是利用组成单词的字母字符序列或数字序列的逐个比较,尤其适合于英文单词和数值的查找。第三类则是无需经过任何比较,次存取便能得到所查单词位置的散列法。通过对单词作种算术运算,计算的结果就是及其相关数据的存储位置。若对于不同的单词得到同散列值,便产生了冲突。冲突会降低查询效率,因此应尽量避免。搜索算法把文件调入内存。在内存中用二分查找找到相应的。把文件中相应的调入内存。在中顺序找到相应的。在索引里是有序排列的。采用二分查找机制来定位索引里的。在包类中的实现代码。搜索过程优化支持内存索引这样的搜索比基于文件的有数量级的速度提升。而尽可能减少的创建和对搜索结果的前台的缓存也是必要的。面向全文检索的优化在于首次索引检索后,并不把所有的记录具体内容读取出来,而起只将所有结果中匹配度最高的头条结果的放到结果集缓存中并返回,这里可以比较下数据库检索如果是个,条的数据库检索结果集,数据库是定要把所有记录内容都取得以后再开始返回给应用结果集的。所以即使检索匹配总数很多,的结果集占用的内存空间也不会很多。对于般的模糊检索应用是用不到这么多的结果的,头条已经可以满足以上的检索需求。如果首批缓存结果数用完后还要读取更后面的结果时会再次检索并生成个上次的搜索缓存数大倍的缓存,并再重新向后抓取。所以如果构造个去查条结果,其实是进行了次搜索过程头条取完后,缓存结果用完,重新检索再构造个条的结果缓存,依此类推,条缓存,条缓存。由于每次对象消失后,这些缓存也访问那不到了,你有可能想将结果记录缓存下来,缓存数尽量保证在以下以充分利用首次的结果缓存,不让浪费多次检索,而且可以分级进行结果缓存。的另外个特点是在收集结果的过程中将匹配度低的结果自动过滤掉了。这也是和数据库应用需要将搜索的结果全部返回不同之处。参考文献罗晓沛等数据库技术高级北京清华大学出版社,搜索引擎技术实现探究化柏林中国科学技术信息研究所,,,,,,中文搜索引擎技术揭密中文分词作者汉语分词在中文软件中的广泛应用李东张湘辉微软中国研究开发中心算法介绍作者胡晓光于理解的分词方法这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分分词子系统句法语义子系统总控部分。在总控部分的协调下,分词子系统可以获得有关词句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。基于统计的分词方法从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于个阈值时,便可认为此字组可能构成了个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有定的局限性,会经常抽出些共现频度高但并不是词的常用字组,例如这之有的我的许多的等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用部基本的分词词典常用词词典进行串匹配分词,同时使用统计方法识别些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快效率高的特点,又利用了无词典分词结合上下文识别生词自动消除歧义的优点。到底哪种分词算法的准确度更高,目前并无定论。对于任何个成熟的分词系统来说,不可能单独依靠种算法来实现,都需要综合不同的算法。据了解,海量科技的分词算法就采用复方分词法,所谓复方,相当于用中药中的复方概念,即用不同的药才综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处理不同的问题。分词中的难题有了成熟的分词算法,是否就能容易的解决中文分词的问题呢事实远非如此。中文是种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题直没有完全突破。歧义识别歧义是指同样的句话,可能有两种或者更多的切分方法。例如表面的,因为表面和面的都是词,那么这个短语就可以分成表面的和表面的。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的和服的例子,其实就是因为交叉歧义引起的。化妆和服装可以分成化妆和服装或者化妆和服装。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
第 1 页 / 共 34 页
第 2 页 / 共 34 页
第 3 页 / 共 34 页
第 4 页 / 共 34 页
第 5 页 / 共 34 页
第 6 页 / 共 34 页
第 7 页 / 共 34 页
第 8 页 / 共 34 页
第 9 页 / 共 34 页
第 10 页 / 共 34 页
第 11 页 / 共 34 页
第 12 页 / 共 34 页
第 13 页 / 共 34 页
第 14 页 / 共 34 页
第 15 页 / 共 34 页
预览结束,还剩
19 页未读
阅读全文需用电脑访问
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。
1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。
2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。
3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。
4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。
5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。