1、“.....而基于子字典的空间复杂度也是,其中指的是词典的单词数目,指的是我们在组织子字典的时候产生的额外存储指针的开销,因此理论上基于子字典的词典机制所用空间会比基于整词二分的词典机制较大些。下面本文将本系统和经典的基于整词二分法词典机制进行了对比。并且都使用本文中采用的最大双向匹配算法分别对段文本进行了切分,比较其分词速度。两个分词程序系统都使用了实现,运行环境致,保证了实验的公平性。对两个分词词典机制,我们任取段文本大小字节左右进行切分,测定其分词速度和词典的空间。实验进行了多次,取平均值。实验结果如表所示。表方案三的测试结果词典机制词典空间字节所用时间单位整词二分子词典本文词典由上表可以表明,两种词典机制的词典空间大小为本文词典整词二分的词典.本文词典比整词二分词典的空间大了大概.左右,对于现代计算机来说,.的内存空间对系统运行可以忽略不计。而时间上本分词系统的词典机制比整词二分法时间快了很多。这与我们理论上的判断结果致。通过上文的三个测试方案......”。
2、“.....在我们使用双向匹配的分词算法后,我们能够很好的吸取最大正向匹配和最大逆向匹配的优点,对于歧义的解决有了定的提高,对于本中文分词系统,用户可以自己选择建立新的词,然后自动的加入到分词系统去,从而提高了分词的准确率。通过方案三与传统的分词词典机制即整词二分法的对比,从而证明了在现代这个时间越来越珍贵的时代,本系统有着巨大的优势。中文语言的复杂性,给中文分词系统带来了很大的困难,任何个分词系统都不能够百分之百的解决分词,本系统通过对分词词典机制的探索和对分词算法的改进使得本系统有了较高的效率,实验结果表明,本系统完成了中文分词系统的功能。结论在中文信息处理中,中文分词直是基础的研究课题,可是这也是中文信息处理的关键,处理不好中文分词,中文信息处理就无法突破,其研究的好坏对于以中文分词的基础的课题比如语音识别,在线翻译等课题有着决定作用。但是因为中文分词的复杂性,中文分词研究了很长时间至今还没有非常完美的分词系统问世。本文针对现有的分词系统的优缺点......”。
3、“.....并在分析分析系统的基础上自主实现个初步的分词系统,通过实践来发现问题,优化系统。在经典的分词算法的基础上进行了改进,通过良好的数据存储与组织方式来实现个比较快速,词典比较全面,分词结果比较精确的分词系统。本文的主要工作如下系统的介绍了中文分词的研究背景研究意义,分析了中文分词的现状,对于中文分词的两大基本问题进行了阐述。本文对于中文分词的经典算法,比如基于词典的中文分词算法,基于统计的分词算法,基于理解的分词算法等进行了详细的讲解,并总结了其优缺点。另外,本文还对现存的词典机制进行了阐述,再此基础上我提出了自己的种词典机制,并对其进行了详细的讲解。在前文的基础上,我实现了个中文分词系统,本系统是基于词典的中文分词系统,词典机制采用的是子字典机制,分词算法是在最大正向匹配和最大逆向匹配的基础上实现的双向匹配算法。本文还对实现的中文分词系统进行了测试,实验表明,本中文分词系统能够很好的解决中文分词的问题,分词结果基本上正确。由于时间有限,水平有限......”。
4、“.....本系统无论是精确度还是分词效率上都有待提高,另外本系统虽说采用了双向匹配的分词算法,这能够消解部分的歧义,但是并没有真正的提出歧义的消除算法,因此接下来的工作展望如下尽可能的收集各种专业词典,从而提高本系统词汇量,从根本上进步提高分词精确度进步学习各种消除歧义的算法,尽可能的提出自己的消除歧义算法,并对本系统进行实现,提高分词的精确度中文分词只是中文信息处理的基础,在完善系统后,本文作者打算学习新的知识,从而将中文分词学以致用,间接推动中文分词的发展。致谢在这里衷心地感谢孟永刚老师及同组的同学在毕业设计过程中给予我的帮助和支持。孟老师给我提出了许多合理性的建议,在孟老师的帮助下,我解决了个个自己难以解决的问题。这对我能够顺利的完成本次设计是至关档进行预处理,识别出明显的非中文字符,例如英文,数字等,从而消除了部分歧义的产生。具体的流程是对输入的文本进行预处理,在进行分词前,先进行字符检查,检查是否是有效字符,比如是否是中文,英文字符等,包括全角和半角等......”。
5、“.....如果是不同的字符的话则在两者之间加入空格,例如对于“你的编号是,!”是结束选择词典并加载选择带切分文档开始打开系统是否添加字典文本预处理,断句预处理输出结果最大正向匹配算法最大逆向匹配算法双向匹配算法输出分词结果保存分词结果否词典加载模块保存模块预处理模块中文分词模块图中文分词系统经过预处理后应该变成“你的编号是,”。在进行预处理过程中,“你的编号是”这几个字符同属于中文字符,故不进行处理,而与“是”分属于不同的的字符,则在两者之间由中文分词系统自动添加上空格,从而减少了歧义的产生。中文分词模块在经过预处理后得到的应该是连续的单个中文字组成的中文词串,在这部分用双向匹配来进行中文分词,这是整个中文分词的核心,也是设计的关键部分。对于中文分词系统来说,采取什么样的分词算法,分词算法的效率如何是评价个系统好坏的决定因素。本系统在吸收了最大正向匹配和最大正向匹配的基础上,采用了双向匹配的分词策略......”。
6、“.....然后根据分词的结果来进行判断采取用何种分词结果。在这个模块,本系统用户可以在看到最大正向匹配和最大逆向匹配的分词结果不同时的地方,从而对分词以后进行消除歧义打下了良好的基础。分词结果保存模块本功能模块的主要功能是允许用户将分词结果以文本形式保存起来,此模块的功能相对简单,不涉及什么算法,只是为用户提供了保存结果的个接口,在该模块用户可以自己定义要保存的文件的名称和保存路径。.中文分词结果的实现本系统的实现环境是,它是公司出品的开源的语言运行环境,开发语言是,是纯面向对象的语言,是门很优秀的编程语言。首先在内新建工程,命名为,来管理整个工程项目。接下来我们将实现词典库的设计,在项目中添加个新类,用它来全面封装词典数据库中的数据和相关词典库存储的操作。根据上文阐述的词典机制,来逐步实现词典类。在类中有个属性是词典的名称,对于中文分词系统来说,我们不能加载任何词典,这不可能也不现实,我们只是加载经过用户自己同意加载的词典,这类词典都有特殊的名称,这就是类内的属性。在上文中提到......”。
7、“.....每个子字典的长度是相同的,因此对于个完整的中文分词系统来说,我们只有个具体的大的词典的数据库,在数据库里面存在着很多的子词典,这就要求我们提过了两个方面的要求首先,我们需要个用来盛放子字典的容器,我们用链表来实现其次,根据面向对象的思想,我们需要抽象出个类来表示子字典,因此我们在工程中再添加个新的类,名称为,根据上文中提到的词典机制,我们的分别有长度,内容等属性。无论是还是当中与词典的相关操作查询插入等与链表的查询删除插入等致,本文不在赘述,有感兴趣的读者可查阅与链表相关的资料。在词典简历完成后我们就可以很好的实现最大正向匹配和最大逆向匹配,在此基础上实现双向匹配。我们新建个类命名为,用来封装中文分词系统中出现的分词算法,在.中我们提到本中文分词系统有预处理模块,因此我们又创建了字符检查类,用来进行完成预处理模块所要求的功能,然后为了完成接下来我们的核心算法,我们又创建了实现了工具类和来对所要进行的字符串进行搜索和排序。通过以上的工作......”。
8、“.....该函数接受个参数,即要分词的源文件,返回结果是个分好词的链表。具体代码实现如下新建个链表用来存储分词结果.获得字典数据库内单词长度的个数,即字典数据库内有几个子字典.获得分词的单词长度.如果没有子字典,则返回空如果子字典的最大长度大于要分词的长度,则取剩余的要分词的字符串为最大的长度用二分法查找与当前最大匹配长度相同的子字典!.,.取得要分词的字符串.如果找到该字符串则退出如果找不到则最大长度减.取得匹配成功后的字符串.将匹配成功的字符串添加到返回逆向最大匹配的函数名称是,该函数接受个参数,即要分词的源文件,返回结果是个分好词的链表。具体代码实现如下新建两个链表,个用来存储中间的保存结果,对于基于词典的分词算法,给定文档,其长度为,给定词典,字典的词条数目为,在词典中查找字串的复杂度为,在本文使用的是二分查找来在词典内查找给的的词语,则查找单个词语的时间复杂度是并且使用双向匹配算法分词需要进行次的词典查找,故其时间复杂度为,设计个好的分词词典机制就是要降低和的大小......”。
9、“.....因此与整词二分法的时间相比,小了很多,故用本算法实现的系统理论上应比基于整词二分词典机制的快。在空间上整词二分法的空植面积已达公顷,数十家专营芦荟的公司销售额达多亿美元,家庭种植芦荟已非常普及。韩国年开始种 植芦荟,现种植面积已达公化妆品的芦荟原料中相当 部分都是由库拉索芦荟加工而成的。美国芦荟及芦荟制品有 多种,市场销售额已达到亿美元美国的永久公司等十几家大公 司每年销售芦荟凝胶浓缩液达多吨,有多种芦荟产品上市。 家庭医生多用良药天然美容师的美称。 年,美国食品药品管理局就确认库拉索芦荟可 作为食品用途。库拉索芦荟中所含的丰富胶汁,对皮肤的保健和美容 作用具有十分显著的效果,目前用于美容和大 产业。芦荟是具有医药护肤保健化妆美容食用和观赏为 体的多功能植物,随着科学的发展,人们对芦荟所含成份药 理作用治疗范围应用价值有了更进步的了解,认识更加充 分,给予芦荟以国外芦荟产业发展状况 芦荟在国内外都是个热门的种植品种......”。
110.ppt
毕业设计开题报告.doc
陈凡-论文.doc
陈凡-中期检查.doc
外文翻译.doc
外文资料.doc
装配图.dwg
(CAD图纸)