自档进行预处理,识别出明显的非中文字符,例如英文,数字等,从而消除了部分歧义的产生。具体的流程是对输入的文本进行预处理,在进行分词前,先进行字符检查,检查是否是有效字符,比如是否是中文,英文字符等,包括全角和半角等,如果判断的字符与上个字符是同类字符的话则进行下个判断,如果是不同的字符的话则在两者之间加入空格,例如对于你的编号是是结束选择词典并加载选择带切分文档开始打开系统是否添加字典文本预处理,断句预处理输出结果最大正向匹配算法最大逆向匹配算法双向匹配算法输出分词结果保存分词结果否词典加载模块保存模块预处理模块中文分词模块图中文分词系统经过预处理后应该变成你的编号是,。在进行预处理过程中,你的编号是这几个字符同属于中文字符,故不进行处理,而与是分属于不同的的字符,则在两者之间由中文分词系统自动添加上空格,从而减少了歧义的产生。中文分词模块在经过预处理后得到的应该是连续的单个中文字组成的中文词串,在这部分用双向匹配来进行中文分词,这是整个中文分词的核心,也是设计的关键部分。对于中文分词系统来说,采取什么样的分词算法,分词算法的效率如何是评价个系统好坏的决定因素。本系统在吸收了最大正向匹配和最大正向匹配的基础上,采用了双向匹配的分词策略,该算法的具体思想上是首先分别用最大正向匹配和最大逆向匹配进行分词,然后根据分词的结果来进行判断采取用何种分词结果。在这个模块,本系统用户可以在看到最大正向匹配和最大逆向匹配的分词结果不同时的地方,从而对分词以后进行消除歧义打下了良好的基础。分词结果保存模块本功能模块的主要功能是允许用户将分词结果以文本形式保存起来,此模块的功能相对简单,不涉及什么算法,只是为用户提供了保存结果的个接口,在该模块用户可以自己定义要保存的文件的名称和保存路径。中文分词结果的实现本系统的实现环境是,它是公司出品的开源的语言运行环境,开发语言是,是纯面向对象的语言,是门很优秀的编程语言。首先在内新建工程,命名为,来管理整个工程项目。接下来我们将实现词典库的设计,在项目中添加个新类,用它来全面封装词典数据库中的数据和相关词典库存储的操作。根据上文阐述的词典机制,来逐步实现词典类。在类中有个属性是词典的名称,对于中文分词系统来说,我们不能加载任何词典,这不可能也不现实,我们只是加载经过用户自己同意加载的词典,这类词典都有特殊的名称,这就是类内的属性。在上文中提到,我们将词典分为不同的子字典,每个子字典的长度是相同的,因此对于个完整的中文分词系统来说,我们只有个具体的大的词典的数据库,在数据库里面存在着很多的子词典,这就要求我们提过了两个方面的要求首先,我们需要个用来盛放子字典的容器,我们用链表来实现其次,根据面向对象的思想,我们需要抽象出个类来表示子字典,因此我们在工程中再添加个新的类,名称为,根据上文中提到的词典机制,我们的分别有长度,内容等属性。无论是还是当中与词典的相关操作查询插入等与链表的查询删除插入等致,本文不在赘述,有感兴趣的读者可查阅与链表相关的资料。在词典简历完成后我们就可以很好的实现最大正向匹配和最大逆向匹配,在此基础上实现双向匹配。我们新建个类命名为,用来封装中文分词系统中出现的分词算法,在中我们提到本中文分词系统有预处理模块,因此我们又创建了字符检查类,用来进行完成预处理模块所要求的功能,然后为了完成接下来我们的核心算法,我们又创建了实现了工具类和来对所要进行的字符串进行搜索和排序。通过以上的工作,接下来实现核心算法正向最大匹配的函数名称是,该函数接受个参数,即要分词的源文件,返回结果是个分好词的链表。具体代码实现如下新建个链表用来存储分词结果获得字典数据库内单词长度的个数,即字典数据库内有几个子字典获得分词的单词长度如果没有子字典,则返回空如果子字典的最大长度大于要分词的长度,则取剩余的要分词的字符串为最大的长度用二分法查找与当前最大匹配长度相同的子字典,,取得要分词的字符串如果找到该字符串则退出如果找不到则最大长度减取得匹配成功后的字符串将匹配成功的字符串添加到返回逆向最大匹配的函数名称是,该函数接受个参数,即要分词的源文件,返回结果是个分好词的链表。具体代码实现如下新建两个链表,个用来存储中间的保存结果,对于基于词典的分词算法,给定文档,其长度为,给定词典,字典的词条数目为,在词典中查找字串的复杂度为,在本文使用的是二分查找来在词典内查找给的的词语,则查找单个词语的时间复杂度是并且使用双向匹配算法分词需要进行次的词典查找,故其时间复杂度为,设计个好的分词词典机制就是要降低和的大小,因为本文是将字数相同的词语放在起组织,因此与整词二分法的时间相比,小了很多,故用本算法实现的系统理论上应比基于整词二分词典机制的快。在空间上整词二分法的空间复杂度是,而基于子字典的空间复杂度也是,其中指的是词典的单词数目,指的是我们在组织子字典的时候产生的额外存储指针的开销,因此理论上基于子字典的词典机制所用空间会比基于整词二分的词典机制较大些。下面本文将本系统和经典的基于整词二分法词典机制进行了对比。并且都使用本文中采用的最大双向匹配算法分别对段文本进行了切分,比较其分词速度。两个分词程序系统都使用了实现,运行环境致,保证了实验的公平性。对两个分词词典机制,我们任取段文本大小字节左右进行切分,测定其分词速度和词典的空间。实验进行了多次,取平均值。实验结果如表所示。表方案三的测试结果词典机制词典空间字节所用时间单位整词二分子词典本文词典由上表可以表明,两种词典机制的词典空间大小为本文词典整词二分的词典本文词典比整词二分词典的空间大了大概左右,对于现代计算机来说,的内存空间对系统运行可以忽略不计。而时间上本分词系统的词典机制比整词二分法时间快了很多。这与我们理论上的判断结果致。通过上文的三个测试方案,单纯的最大正向匹配和最大逆向匹配并不能很好的解决歧义的问题,在我们使用双向匹配的分词算法后,我们能够很好的吸取最大正向匹配和最大逆向匹配的优点,对于歧义的解决有了定的提高,对于本中文分词系统,用户可以己选预测功能。在这种意义上,只能称它为加电的账本。三数据保密性安全性差很多时候,财务上的数据,是企业的绝对秘密,在很大程度上关系着企业的自下而上与发展,但几乎所有的软件系统都在为完善会计功能和适应财务制度大伤脑筋,却没有几家软件认真研究过数据的保密问题。所谓的加密,也无非是岗位可包括会计主管出纳会计核算稽核会计档案管理等工作岗位电算化会计岗位包括直接管理操作维修计算机及会计软件系统等工作岗位。机构调整必须同组织控制相结合,以实现职权分离,有效地限制和及时发现或违法行为。如规定系统开发人员和维护人员不能兼任系统操作员和管理人员等。用户部门指产生原始数据的部门或人员如出纳,在这两者之间进行职责分工的目的,是尽可能保持不相容职能如业务授权执行保管和记录的分离,以及在电算化部门内部的职责分离。通过进行内部职责分工,以补救不相容职能集中化的不足。四加强系统安全与网络的安全控制,严格系统操作环境管理加强系统安全控制主要应从防止未经授权的人员擅自动用系统各种资源保护程序和数据的安全,减少因外界因素导致计算机故障等方面入手。主要的控制措施包括订立内部操作制度,禁止非电脑操作人员操作财务专用电脑设置操作权限限制操作人员身份的密码控制,规定交接班手续和登记运行日志数据存储和处理相隔离,严格控制系统软件的安装与修改,对系统软件进行定期的预防性检查,系统被破坏时,要求系统软件具备紧急响应强制备份快速重构和快速恢复的功能机房的工作环境保护。网络安全指标包括数据保密访问控制身份识别等。针对这些方面,可采用些安全技术,主要包括数据备份及机器的使用规范,软盘专用及防病毒感染。数据加密技术,访问控制技术,认证技术等。网络传输介质接入口的安全性也是应该引起注意的问题,尽量使用光纤传输,接入口应保密。通过上述技术可基本确保财务信息在内部网络及外部网络传输中的安全性。五加强内部审计内部审计既是公司企业内部控制系统的重要组成部分,也是强化内部会计监督的制度安排。对会计资料定期进行审计,审查电算化会计账务处理是否正确,是否遵照会计法及有关法律法规的规定,审核费用签字是否符合有关内控制度,凭证附件是否规范完整等审查电子数据与书面资料的致性,如查看账册内容,做到账表相符,对不妥或浅谈电算化会计信息系统的内部控制的账表处理应及时调整监督数据保存方式的安全合法性,防止发生非法修改历史数据的现象对系统运行各环节进行审查,防止存在漏洞。六实施人才培训制度,提高会计人员素质要提高会计人员计算实施机业务素质,必须大力加强人才培训的力度。企业应高度重视电算化人才的开发与培养,积极组织会计人员学习会计电算化知识,掌握计算机先进技术,培养或聘用批精通技术熟练应用电算化程序的高级技术人才,推动企业电算化事业由核算对软件本身的加密,防止盗版。另处在进入系统时加上些诸如用户口令声音监测指纹辨认等检测手段和用户权限设置等限制手段,不能真正起到数据的保密作用。安全性上,更是难如人意,系统旦瘫痪,或者受病毒侵袭,或者突然断电,很难自档进行预处理,识别出明显的非中文字符,例如英文,数字等,从而消除了部分歧义的产生。具体的流程是对输入的文本进行预处理,在进行分词前,先进行字符检查,检查是否是有效字符,比如是否是中文,英文字符等,包括全角和半角等,如果判断的字符与上个字符是同类字符的话则进行下个判断,如果是不同的字符的话则在两者之间加入空格,例如对于你的编号是是结束选择词典并加载选择带切分文档开始打开系统是否添加字典文本预处理,断句预处理输出结果最大正向匹配算法最大逆向匹配算法双向匹配算法输出分词结果保存分词结果否词典加载模块保存模块预处理模块中文分词模块图中文分词系统经过预处理后应该变成你的编号是,。在进行预处理过程中,你的编号是这几个字符同属于中文字符,故不进行处理,而与是分属于不同的的字符,则在两者之间由中文分词系统自动添加上空格,从而减少了歧义的产生。中文分词模块在经过预处理后得到的应该是连续的单个中文字组成的中文词串,在这部分用双向匹配来进行中文分词,这是整个中文分词的核心,也是设计的关键部分。对于中文分词系统来说,采取什么样的分词算法,分词算法的效率如何是评价个系统好坏的决定因素。本系统在吸收了最大正向匹配和最大正向匹配的基础上,采用了双向匹配的分词策略,该算法的具体思想上是首先分别用最大正向匹配和最大逆向匹配进行分词,然后根据分词的结果来进行判断采取用何种分词结果。在这个模块,本系统用户可以在看到最大正向匹配和最大逆向匹配的分词结果不同时的地方,从而对分词以后进行消除歧义打下了良好的基础。分词结果保存模块本功能模块的主要功能是允许用户将分词结果以文本形式保存起来,此模块的功能相对简单,不涉及什么算法,只是为用户提供了保存结果的个接口,在该模块用户可以自己定义要保存的文件的名称和保存路径。中文分词结果的实现本系统的实现环境是,它是公司出品的开源的语言运行环境,开发语言是,是纯面向对象的语言,是门很优秀的编程语言。首先在内新建工程,命名为,来管理整个工程项目。接下来我们将实现词典库的设计,在项目中添加个新类,用它来全面封装词典数据库中的数据和相关词典库存储的操作。根据上文阐述的词典机制,来逐步实现词典类。在类中有个属性是词典的名称,对于中文分词系统来说,我们不能加载任何词典,这不可能也不现实,我们只是加载经过用户自己同意加载的词典,这类词典都有特殊的名称,这就是类内的属性。在上文中提到,我们将词典分为不同的子字典,每个子字典的长度是相同的,因此对于个完整的中文分词系统来说,我们只有个具体的大的词典的数据库,在数据库里面存在着很多的子词典,这就要求我们提过了两个方面的要求首先,我们需要个用来盛放子字典的容器,我们用链表来实现其次,根据面向对象的思想,我们需要抽象出个类来表示子字典,因此我们在工程中再添加个新的类,名称为,根据上文中提到的词典机制,我们的分别有长度,内容等属性。无论是还是当中与词典的相关操作查询插入等与链表的查询删除插入等致,本文不在赘述,有感兴趣的读者可查阅与链
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
第 1 页 / 共 98 页
第 2 页 / 共 98 页
第 3 页 / 共 98 页
第 4 页 / 共 98 页
第 5 页 / 共 98 页
第 6 页 / 共 98 页
第 7 页 / 共 98 页
第 8 页 / 共 98 页
第 9 页 / 共 98 页
第 10 页 / 共 98 页
第 11 页 / 共 98 页
第 12 页 / 共 98 页
第 13 页 / 共 98 页
第 14 页 / 共 98 页
第 15 页 / 共 98 页
预览结束,还剩
83 页未读
阅读全文需用电脑访问
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。
1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。
2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。
3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。
4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。
5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。