自档进行预处理,识别出明显的非中文字符,例如英文,数字等,从而消除了部分歧义的产生。具体的流程是对输入的文本进行预处理,在进行分词前,先进行字符检查,检查是否是有效字符,比如是否是中文,英文字符等,包括全角和半角等,如果判断的字符与上个字符是同类字符的话则进行下个判断,如果是不同的字符的话则在两者之间加入空格,例如对于你的编号是是结束选择词典并加载选择带切分文档开始打开系统是否添加字典文本预处理,断句预处理输出结果最大正向匹配算法最大逆向匹配算法双向匹配算法输出分词结果保存分词结果否词典加载模块保存模块预处理模块中文分词模块图中文分词系统经过预处理后应该变成你的编号是,。在进行预处理过程中,你的编号是这几个字符同属于中文字符,故不进行处理,而与是分属于不同的的字符,则在两者之间由中文分词系统自动添加上空格,从而减少了歧义的产生。中文分词模块在经过预处理后得到的应该是连续的单个中文字组成的中文词串,在这部分用双向匹配来进行中文分词,这是整个中文分词的核心,也是设计的关键部分。对于中文分词系统来说,采取什么样的分词算法,分词算法的效率如何是评价个系统好坏的决定因素。本系统在吸收了最大正向匹配和最大正向匹配的基础上,采用了双向匹配的分词策略,该算法的具体思想上是首先分别用最大正向匹配和最大逆向匹配进行分词,然后根据分词的结果来进行判断采取用何种分词结果。在这个模块,本系统用户可以在看到最大正向匹配和最大逆向匹配的分词结果不同时的地方,从而对分词以后进行消除歧义打下了良好的基础。分词结果保存模块本功能模块的主要功能是允许用户将分词结果以文本形式保存起来,此模块的功能相对简单,不涉及什么算法,只是为用户提供了保存结果的个接口,在该模块用户可以自己定义要保存的文件的名称和保存路径。中文分词结果的实现本系统的实现环境是,它是公司出品的开源的语言运行环境,开发语言是,是纯面向对象的语言,是门很优秀的编程语言。首先在内新建工程,命名为,来管理整个工程项目。接下来我们将实现词典库的设计,在项目中添加个新类,用它来全面封装词典数据库中的数据和相关词典库存储的操作。根据上文阐述的词典机制,来逐步实现词典类。在类中有个属性是词典的名称,对于中文分词系统来说,我们不能加载任何词典,这不可能也不现实,我们只是加载经过用户自己同意加载的词典,这类词典都有特殊的名称,这就是类内的属性。在上文中提到,我们将词典分为不同的子字典,每个子字典的长度是相同的,因此对于个完整的中文分词系统来说,我们只有个具体的大的词典的数据库,在数据库里面存在着很多的子词典,这就要求我们提过了两个方面的要求首先,我们需要个用来盛放子字典的容器,我们用链表来实现其次,根据面向对象的思想,我们需要抽象出个类来表示子字典,因此我们在工程中再添加个新的类,名称为,根据上文中提到的词典机制,我们的分别有长度,内容等属性。无论是还是当中与词典的相关操作查询插入等与链表的查询删除插入等致,本文不在赘述,有感兴趣的读者可查阅与链表相关的资料。在词典简历完成后我们就可以很好的实现最大正向匹配和最大逆向匹配,在此基础上实现双向匹配。我们新建个类命名为,用来封装中文分词系统中出现的分词算法,在中我们提到本中文分词系统有预处理模块,因此我们又创建了字符检查类,用来进行完成预处理模块所要求的功能,然后为了完成接下来我们的核心算法,我们又创建了实现了工具类和来对所要进行的字符串进行搜索和排序。通过以上的工作,接下来实现核心算法正向最大匹配的函数名称是,该函数接受个参数,即要分词的源文件,返回结果是个分好词的链表。具体代码实现如下新建个链表用来存储分词结果获得字典数据库内单词长度的个数,即字典数据库内有几个子字典获得分词的单词长度如果没有子字典,则返回空如果子字典的最大长度大于要分词的长度,则取剩余的要分词的字符串为最大的长度用二分法查找与当前最大匹配长度相同的子字典,,取得要分词的字符串如果找到该字符串则退出如果找不到则最大长度减取得匹配成功后的字符串将匹配成功的字符串添加到返回逆向最大匹配的函数名称是,该函数接受个参数,即要分词的源文件,返回结果是个分好词的链表。具体代码实现如下新建两个链表,个用来存储中间的保存结果,对于基于词典的分词算法,给定文档,其长度为,给定词典,字典的词条数目为,在词典中查找字串的复杂度为,在本文使用的是二分查找来在词典内查找给的的词语,则查找单个词语的时间复杂度是并且使用双向匹配算法分词需要进行次的词典查找,故其时间复杂度为,设计个好的分词词典机制就是要降低和的大小,因为本文是将字数相同的词语放在起组织,因此与整词二分法的时间相比,小了很多,故用本算法实现的系统理论上应比基于整词二分词典机制的快。在空间上整词二分法的空间复杂度是,而基于子字典的空间复杂度也是,其中指的是词典的单词数目,指的是我们在组织子字典的时候产生的额外存储指针的开销,因此理论上基于子字典的词典机制所用空间会比基于整词二分的词典机制较大些。下面本文将本系统和经典的基于整词二分法词典机制进行了对比。并且都使用本文中采用的最大双向匹配算法分别对段文本进行了切分,比较其分词速度。两个分词程序系统都使用了实现,运行环境致,保证了实验的公平性。对两个分词词典机制,我们任取段文本大小字节左右进行切分,测定其分词速度和词典的空间。实验进行了多次,取平均值。实验结果如表所示。表方案三的测试结果词典机制词典空间字节所用时间单位整词二分子词典本文词典由上表可以表明,两种词典机制的词典空间大小为本文词典整词二分的词典本文词典比整词二分词典的空间大了大概左右,对于现代计算机来说,的内存空间对系统运行可以忽略不计。而时间上本分词系统的词典机制比整词二分法时间快了很多。这与我们理论上的判断结果致。通过上文的三个测试方案,单纯的最大正向匹配和最大逆向匹配并不能很好的解决歧义的问题,在我们使用双向匹配的分词算法后,我们能够很好的吸取最大正向匹配和最大逆向匹配的优点,对于歧义的解决有了定的提高,对于本中文分词系统,用户可以己选寒菌接下来进行脱水后最终处置,脱水装置采用板框压滤机,污泥最终压成泥饼外运。五水解酸化池工艺具体设计计算设计说明在本例中,由于水解酸化的后续处理时,因此,没有污泥回流,水解酸化池中的微生物采取附着生长,这样就不需要污泥回流来补充污泥。采用上升流进水。设计参数设计流量,进水进水停留时间般为,本例中由于含量高,故取表面水力负荷,取排泥时间大于排泥管直径。有效容积计算其中是指设计流量,是停留时间。有效水深计算是表面水力负荷,般在,取。水解酸化池面积计算池个每个池子格数,则每个酸化池面积为,,又因在到之间,故可取,满足要求。贮泥斗尺寸计算泥斗高度每格酸化池设两个贮泥斗,则可设梯形的上边长为,排泥管道为,故下边长可取,因为污泥采用附着生长,污泥量少故泥斗高度取米即可。填料高度本例中选用立体塑性填料,在酸化池中填料高可取,由于进水浓度比较高,故填料高取。水解酸化池总高其中为超高取为缓冲高度取排泥设施采用机械排泥方式进行排泥,排泥管采用的管道。配水方式采用列管式布水设施。适当设计的进水分配系统对于个运转良好的水解系统是至关重要的。水解池进水系统有多种形式,进水系统兼有配水和水力搅拌的功能,为了保证这两个功能的实现,需要满足如下原则确保各单位面积的进水量基本相同,以防止短路等现象发生尽可能满足水力搅拌的需要,保证进水有机物与污泥迅速混合很容易观察到进水管的堵塞状况分枝式配水方式在分枝式配水系统中配水均匀性与水头损失是对矛盾。考察组采用大阻力配水系统,即孔口直径较小,孔口流速较大,这时配水均匀程度很好,但水头损失较大第二组将孔口适当扩大,这时配水均匀性没有很大改变,水头损失较小,处理效率不受影响。为了配水均匀般采用对称布置,各支管出水口向下距池底约,位于所服务面积的中心。总管取配水方式出水设计六设计总结参考文献引言随着工业的发展,世纪后期,我国许多城市出现了供水不足和水质污染的双重问题。任意种类的工业都会对环境造成污染,每种工业废水都各具特性,如果不对工业产生的污水加以处理处置,我们的环境将不堪重负。造纸业是传统的用水大户,也是造成水污染的重要污染源之。随着经济的发展,企业日益面临水资源短缺原料匮乏的问题,而另方面,水污染也越来越严重。目前,我国造纸工业废水排放量及排放量均居各类工业排放量的首位,造纸工业对水环境的污染为严重,它不但是我国造纸工业污染防治的首要问题,也是我国工业废水进行达标处理的首要问题。从国家造纸工业发展趋势看,国家预计到年全国纸及纸板产量为万万吨,到年全国纸及纸板产量为万万吨,因此国内外纸业人士普便认为,中国是全世界纸类消费最具活力和潜力的市场,制浆造纸前景十分广阔。制浆造纸对国民经济的发展起到了很大的作用,但从环保的角度看,据环保部门统计年制浆造纸工业废水排放总量为亿吨,占整个工业废水排放量的。其中达标排放占亿吨,达标率为。从废水中污染物的排放量看,化学需氧量排放量为万吨,占全国工自档进行预处理,识别出明显的非中文字符,例如英文,数字等,从而消除了部分歧义的产生。具体的流程是对输入的文本进行预处理,在进行分词前,先进行字符检查,检查是否是有效字符,比如是否是中文,英文字符等,包括全角和半角等,如果判断的字符与上个字符是同类字符的话则进行下个判断,如果是不同的字符的话则在两者之间加入空格,例如对于你的编号是是结束选择词典并加载选择带切分文档开始打开系统是否添加字典文本预处理,断句预处理输出结果最大正向匹配算法最大逆向匹配算法双向匹配算法输出分词结果保存分词结果否词典加载模块保存模块预处理模块中文分词模块图中文分词系统经过预处理后应该变成你的编号是,。在进行预处理过程中,你的编号是这几个字符同属于中文字符,故不进行处理,而与是分属于不同的的字符,则在两者之间由中文分词系统自动添加上空格,从而减少了歧义的产生。中文分词模块在经过预处理后得到的应该是连续的单个中文字组成的中文词串,在这部分用双向匹配来进行中文分词,这是整个中文分词的核心,也是设计的关键部分。对于中文分词系统来说,采取什么样的分词算法,分词算法的效率如何是评价个系统好坏的决定因素。本系统在吸收了最大正向匹配和最大正向匹配的基础上,采用了双向匹配的分词策略,该算法的具体思想上是首先分别用最大正向匹配和最大逆向匹配进行分词,然后根据分词的结果来进行判断采取用何种分词结果。在这个模块,本系统用户可以在看到最大正向匹配和最大逆向匹配的分词结果不同时的地方,从而对分词以后进行消除歧义打下了良好的基础。分词结果保存模块本功能模块的主要功能是允许用户将分词结果以文本形式保存起来,此模块的功能相对简单,不涉及什么算法,只是为用户提供了保存结果的个接口,在该模块用户可以自己定义要保存的文件的名称和保存路径。中文分词结果的实现本系统的实现环境是,它是公司出品的开源的语言运行环境,开发语言是,是纯面向对象的语言,是门很优秀的编程语言。首先在内新建工程,命名为,来管理整个工程项目。接下来我们将实现词典库的设计,在项目中添加个新类,用它来全面封装词典数据库中的数据和相关词典库存储的操作。根据上文阐述的词典机制,来逐步实现词典类。在类中有个属性是词典的名称,对于中文分词系统来说,我们不能加载任何词典,这不可能也不现实,我们只是加载经过用户自己同意加载的词典,这类词典都有特殊的名称,这就是类内的属性。在上文中提到,我们将词典分为不同的子字典,每个子字典的长度是相同的,因此对于个完整的中文分词系统来说,我们只有个具体的大的词典的数据库,在数据库里面存在着很多的子词典,这就要求我们提过了两个方面的要求首先,我们需要个用来盛放子字典的容器,我们用链表来实现其次,根据面向对象的思想,我们需要抽象出个类来表示子字典,因此我们在工程中再添加个新的类,名称为,根据上文中提到的词典机制,我们的分别有长度,内容等属性。无论是还是当中与词典的相关操作查询插入等与链表的查询删除插入等致,本文不在赘述,有感兴趣的读者可查阅与链
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
第 1 页 / 共 75 页
第 2 页 / 共 75 页
第 3 页 / 共 75 页
第 4 页 / 共 75 页
第 5 页 / 共 75 页
第 6 页 / 共 75 页
第 7 页 / 共 75 页
第 8 页 / 共 75 页
第 9 页 / 共 75 页
第 10 页 / 共 75 页
第 11 页 / 共 75 页
第 12 页 / 共 75 页
第 13 页 / 共 75 页
第 14 页 / 共 75 页
第 15 页 / 共 75 页
预览结束,还剩
60 页未读
阅读全文需用电脑访问
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。
1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。
2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。
3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。
4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。
5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。