自档进行预处理,识别出明显的非中文字符,例如英文,数字等,从而消除了部分歧义的产生。具体的流程是对输入的文本进行预处理,在进行分词前,先进行字符检查,检查是否是有效字符,比如是否是中文,英文字符等,包括全角和半角等,如果判断的字符与上个字符是同类字符的话则进行下个判断,如果是不同的字符的话则在两者之间加入空格,例如对于你的编号是是结束选择词典并加载选择带切分文档开始打开系统是否添加字典文本预处理,断句预处理输出结果最大正向匹配算法最大逆向匹配算法双向匹配算法输出分词结果保存分词结果否词典加载模块保存模块预处理模块中文分词模块图中文分词系统经过预处理后应该变成你的编号是,。在进行预处理过程中,你的编号是这几个字符同属于中文字符,故不进行处理,而与是分属于不同的的字符,则在两者之间由中文分词系统自动添加上空格,从而减少了歧义的产生。中文分词模块在经过预处理后得到的应该是连续的单个中文字组成的中文词串,在这部分用双向匹配来进行中文分词,这是整个中文分词的核心,也是设计的关键部分。对于中文分词系统来说,采取什么样的分词算法,分词算法的效率如何是评价个系统好坏的决定因素。本系统在吸收了最大正向匹配和最大正向匹配的基础上,采用了双向匹配的分词策略,该算法的具体思想上是首先分别用最大正向匹配和最大逆向匹配进行分词,然后根据分词的结果来进行判断采取用何种分词结果。在这个模块,本系统用户可以在看到最大正向匹配和最大逆向匹配的分词结果不同时的地方,从而对分词以后进行消除歧义打下了良好的基础。分词结果保存模块本功能模块的主要功能是允许用户将分词结果以文本形式保存起来,此模块的功能相对简单,不涉及什么算法,只是为用户提供了保存结果的个接口,在该模块用户可以自己定义要保存的文件的名称和保存路径。中文分词结果的实现本系统的实现环境是,它是公司出品的开源的语言运行环境,开发语言是,是纯面向对象的语言,是门很优秀的编程语言。首先在内新建工程,命名为,来管理整个工程项目。接下来我们将实现词典库的设计,在项目中添加个新类,用它来全面封装词典数据库中的数据和相关词典库存储的操作。根据上文阐述的词典机制,来逐步实现词典类。在类中有个属性是词典的名称,对于中文分词系统来说,我们不能加载任何词典,这不可能也不现实,我们只是加载经过用户自己同意加载的词典,这类词典都有特殊的名称,这就是类内的属性。在上文中提到,我们将词典分为不同的子字典,每个子字典的长度是相同的,因此对于个完整的中文分词系统来说,我们只有个具体的大的词典的数据库,在数据库里面存在着很多的子词典,这就要求我们提过了两个方面的要求首先,我们需要个用来盛放子字典的容器,我们用链表来实现其次,根据面向对象的思想,我们需要抽象出个类来表示子字典,因此我们在工程中再添加个新的类,名称为,根据上文中提到的词典机制,我们的分别有长度,内容等属性。无论是还是当中与词典的相关操作查询插入等与链表的查询删除插入等致,本文不在赘述,有感兴趣的读者可查阅与链表相关的资料。在词典简历完成后我们就可以很好的实现最大正向匹配和最大逆向匹配,在此基础上实现双向匹配。我们新建个类命名为,用来封装中文分词系统中出现的分词算法,在中我们提到本中文分词系统有预处理模块,因此我们又创建了字符检查类,用来进行完成预处理模块所要求的功能,然后为了完成接下来我们的核心算法,我们又创建了实现了工具类和来对所要进行的字符串进行搜索和排序。通过以上的工作,接下来实现核心算法正向最大匹配的函数名称是,该函数接受个参数,即要分词的源文件,返回结果是个分好词的链表。具体代码实现如下新建个链表用来存储分词结果获得字典数据库内单词长度的个数,即字典数据库内有几个子字典获得分词的单词长度如果没有子字典,则返回空如果子字典的最大长度大于要分词的长度,则取剩余的要分词的字符串为最大的长度用二分法查找与当前最大匹配长度相同的子字典,,取得要分词的字符串如果找到该字符串则退出如果找不到则最大长度减取得匹配成功后的字符串将匹配成功的字符串添加到返回逆向最大匹配的函数名称是,该函数接受个参数,即要分词的源文件,返回结果是个分好词的链表。具体代码实现如下新建两个链表,个用来存储中间的保存结果,对于基于词典的分词算法,给定文档,其长度为,给定词典,字典的词条数目为,在词典中查找字串的复杂度为,在本文使用的是二分查找来在词典内查找给的的词语,则查找单个词语的时间复杂度是并且使用双向匹配算法分词需要进行次的词典查找,故其时间复杂度为,设计个好的分词词典机制就是要降低和的大小,因为本文是将字数相同的词语放在起组织,因此与整词二分法的时间相比,小了很多,故用本算法实现的系统理论上应比基于整词二分词典机制的快。在空间上整词二分法的空间复杂度是,而基于子字典的空间复杂度也是,其中指的是词典的单词数目,指的是我们在组织子字典的时候产生的额外存储指针的开销,因此理论上基于子字典的词典机制所用空间会比基于整词二分的词典机制较大些。下面本文将本系统和经典的基于整词二分法词典机制进行了对比。并且都使用本文中采用的最大双向匹配算法分别对段文本进行了切分,比较其分词速度。两个分词程序系统都使用了实现,运行环境致,保证了实验的公平性。对两个分词词典机制,我们任取段文本大小字节左右进行切分,测定其分词速度和词典的空间。实验进行了多次,取平均值。实验结果如表所示。表方案三的测试结果词典机制词典空间字节所用时间单位整词二分子词典本文词典由上表可以表明,两种词典机制的词典空间大小为本文词典整词二分的词典本文词典比整词二分词典的空间大了大概左右,对于现代计算机来说,的内存空间对系统运行可以忽略不计。而时间上本分词系统的词典机制比整词二分法时间快了很多。这与我们理论上的判断结果致。通过上文的三个测试方案,单纯的最大正向匹配和最大逆向匹配并不能很好的解决歧义的问题,在我们使用双向匹配的分词算法后,我们能够很好的吸取最大正向匹配和最大逆向匹配的优点,对于歧义的解决有了定的提高,对于本中文分词系统,用户可以己选的不到位,没有做专款专用,这样会导致项目进行不连贯,技改工程的衔接工作受到影响,从而影响整个项目的最终效益莲花味精股份有限公司为响应国家节能减排的号召实施水循环利用项目,此项目是个长期的环保节能项目,项目对社会和生态具有很大效益,同时对企业本身也带来很好的经济效益。为了更好的发展环保节能项目,提高项目的经济效益,我们要密切关注国家优惠政策,紧密结合自身情况,在提高企业效益的同时推广环保项目的实施。关注国家环保优惠政策和措施经济发展与资源环境的矛盾日趋尖锐,环境问题是目前在困绕经济快速发展的首要问题,在这个大环境下企业要实施环保项目无疑是受国家认可和肯定的,因此企业要时刻关注关注国家环保优惠政策和措施,为自己的节能减排项目寻找最强有力的政策保证和经济支持,确保项目的顺利进行。企业自身的制度健全和完善在有个好的外在条件的同时,企业是否能发展顺利,还得靠自身的奋斗和努力。企业的成功离不开完善的企业制度和严谨的企业管理,要想水循环项目取得较好的经济效益,莲花味精股份有限公司必须进步的健全和完善自身的企业制度。首先,切实做好专项资金落实工作,做到专款专用,以提高公司节能减排效果,改善区域环境状况其次,做好技改工程与现有工程的衔接工作,尽量减少对现有工程正常运行的影响最后,加强管理,建立健全企业环保管理机构,确保污水处理设施稳定正常运行。加快先进适用技术研发推广和设施改造企业要快速发展速度离不开技术的改革和创新,关于如何加快先进适用技术研发推广和设施改造建议如下第,采用先进高效节水技术,在达到合理并最大限度降低单位产品水耗的前提下,应优选基础投资及运行费少运行管理简便的先进成熟工艺。第二,根据有关标准规范,合理的选择工艺技术及设备,因地制宜减少工程投资和占地。第三,采用先进的节能技术和设备,降低节水技改工程的能耗及运行成本。第四,总体布置简捷便利,设备选择稳定可靠,便于操作管理。第五,适当采用自动控制技术,提高运行管理效率。转换思路视角变废为宝大力发展循环经济是目前国内节能减排的重大创举。按照循环经济理念,构建跨产业生态链,推进行业间废物循环,促进企业能源消费与资源化利用,控制和减少污染物排放,提高资源利用效率。转换思路视角,围绕变废为宝这思路,通过资源高效循环利用,积极开展替代技术减量技术再利用技术资源化技术系统化技术等关键技术研究,突破制约循环经济发展的技术瓶颈。从污染预防和资源综合利用角度,对实施清洁生产立法,如美国的污染预防法德国的循环经济法。并且要开展开展行业的自律,实施清洁生产的自愿协议计划。以技术改造和区域循环助推节能减排,实现环境友好与企业的可持续发展。提高项目社会效益的相关建议个项目的成功和发展离不开学习和借鉴成功企业的先进经验和教训。中国是个拥有巨大人口的发展中国家,为了追求经济的快速发展,环保节能项目起步较晚,这就要求我们加快发展步伐,通过学习和借鉴国外相关企业的先进经验和教训,不断完善和发展自身,结合实际情况做到学以致用,在贯彻科学发展观自档进行预处理,识别出明显的非中文字符,例如英文,数字等,从而消除了部分歧义的产生。具体的流程是对输入的文本进行预处理,在进行分词前,先进行字符检查,检查是否是有效字符,比如是否是中文,英文字符等,包括全角和半角等,如果判断的字符与上个字符是同类字符的话则进行下个判断,如果是不同的字符的话则在两者之间加入空格,例如对于你的编号是是结束选择词典并加载选择带切分文档开始打开系统是否添加字典文本预处理,断句预处理输出结果最大正向匹配算法最大逆向匹配算法双向匹配算法输出分词结果保存分词结果否词典加载模块保存模块预处理模块中文分词模块图中文分词系统经过预处理后应该变成你的编号是,。在进行预处理过程中,你的编号是这几个字符同属于中文字符,故不进行处理,而与是分属于不同的的字符,则在两者之间由中文分词系统自动添加上空格,从而减少了歧义的产生。中文分词模块在经过预处理后得到的应该是连续的单个中文字组成的中文词串,在这部分用双向匹配来进行中文分词,这是整个中文分词的核心,也是设计的关键部分。对于中文分词系统来说,采取什么样的分词算法,分词算法的效率如何是评价个系统好坏的决定因素。本系统在吸收了最大正向匹配和最大正向匹配的基础上,采用了双向匹配的分词策略,该算法的具体思想上是首先分别用最大正向匹配和最大逆向匹配进行分词,然后根据分词的结果来进行判断采取用何种分词结果。在这个模块,本系统用户可以在看到最大正向匹配和最大逆向匹配的分词结果不同时的地方,从而对分词以后进行消除歧义打下了良好的基础。分词结果保存模块本功能模块的主要功能是允许用户将分词结果以文本形式保存起来,此模块的功能相对简单,不涉及什么算法,只是为用户提供了保存结果的个接口,在该模块用户可以自己定义要保存的文件的名称和保存路径。中文分词结果的实现本系统的实现环境是,它是公司出品的开源的语言运行环境,开发语言是,是纯面向对象的语言,是门很优秀的编程语言。首先在内新建工程,命名为,来管理整个工程项目。接下来我们将实现词典库的设计,在项目中添加个新类,用它来全面封装词典数据库中的数据和相关词典库存储的操作。根据上文阐述的词典机制,来逐步实现词典类。在类中有个属性是词典的名称,对于中文分词系统来说,我们不能加载任何词典,这不可能也不现实,我们只是加载经过用户自己同意加载的词典,这类词典都有特殊的名称,这就是类内的属性。在上文中提到,我们将词典分为不同的子字典,每个子字典的长度是相同的,因此对于个完整的中文分词系统来说,我们只有个具体的大的词典的数据库,在数据库里面存在着很多的子词典,这就要求我们提过了两个方面的要求首先,我们需要个用来盛放子字典的容器,我们用链表来实现其次,根据面向对象的思想,我们需要抽象出个类来表示子字典,因此我们在工程中再添加个新的类,名称为,根据上文中提到的词典机制,我们的分别有长度,内容等属性。无论是还是当中与词典的相关操作查询插入等与链表的查询删除插入等致,本文不在赘述,有感兴趣的读者可查阅与链
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
第 1 页 / 共 90 页
第 2 页 / 共 90 页
第 3 页 / 共 90 页
第 4 页 / 共 90 页
第 5 页 / 共 90 页
第 6 页 / 共 90 页
第 7 页 / 共 90 页
第 8 页 / 共 90 页
第 9 页 / 共 90 页
第 10 页 / 共 90 页
第 11 页 / 共 90 页
第 12 页 / 共 90 页
第 13 页 / 共 90 页
第 14 页 / 共 90 页
第 15 页 / 共 90 页
预览结束,还剩
75 页未读
阅读全文需用电脑访问
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。
1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。
2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。
3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。
4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。
5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。