本集,已标记样本集,种分类算法输出协同学习后得到的带标注样本迭代随机抽取样本,分成份,得到个训练集,分别用于同种学习算法训练出分类器。对于任意个由算法训练出的分类器维护其对立训练集,将满足且的样本加入到中,遍历后,得到更新后的,对于每个,若,则对利用新的训练集重新训练,得到新的分类器对于每个,若不满足,继续迭代终止条件个分类器都不再更新将个训练器的训练集合并后得到图算法过程基于协同训练算法的半监督学习本文基于传统的协同训练算法思想,选择人工标注的语料库作为初始样本集,采用协同训练中的算法,在大量未标注的样本集上进行半监督学习。本文所采用的基于协同训练算法的半监督学习步骤如下图所示。实验中已标记样本集为节中人工标注的数据集,未标注的样本集选择全宋词数据库中大量未标注的宋词生语料,分类算法选择目前常用的支持向量机的算法。通过上述协同训练的方法,训练得到大量准确且已标注的训练样本集。实验与结果分析实验数据本文以上节基于协同学习得到的大规模带标注的样本集作为实验数据,将其按的比例分为训练集与测试集两部分,分别训练得到风格分类器。整理得到季节和昼夜两个分类器所需的训练集与测试集数据如下表所示。表风格分类器实验数据介绍类别豪放婉约训练集测试集实验结果分析对于分类器的评价指标有准确率,亦称查对率和查全率,亦称召回率。分类器在类别上的准确率定义如下准确率式同样的,分类器在类别上的查全率定义如下查全率式其中表示测试文档集中本来属于类别而且被分类器分到类别的文档数,表示测试文档集中本来不属于类别而且被分类器分到类别苏劲松周昌乐李翼鸿基于统计抽词和格律的全宋词切分语料库建立中文信息学报,罗凤珠李元萍中国古代诗词格律自动检索与教学系统中文信息学报,苏劲松全宋词语料库建设及其风格与情感分析的计算方法研究厦门大学费越汉语语义的多层次集成研究及春联艺术系统设计中国科学院自动化研究所郑亚斌曹嘉伟刘知远等基于最大匹配和马尔科夫模型的对联系统第四届全国学生计算语言学研讨会会议论文集张开旭,孙茂松统计与规则相结合的古文对联应对模型中文信息学报何晶周明蒋龙基于统计的汉语格律诗生成研究中文信息学报刘岩斌俞士汶孙钦善古诗研究的计算机支持环境的实现中文信息学报易勇计算机辅助诗词创作中的风格辨析及联语应对研究重庆大学胡俊峰基于词汇语义分析的唐宋诗计算机辅助深层研究北京大学周昌乐游维丁晓君种宋词自动生成的遗传算法及其机器实现软件学报叶志刚在文本分类器中的应用哈尔滨工程大学王晓云算法分析与研究渝西学院学报朱杰基于评价对象及其情感特征的中文文本倾向性分类研究上海交通大学的文档数,表示测试文档集中本来属于类别而且被分类器分到其他类别的文档数。整个实验过程分为训练阶段和测试阶段,训练阶段我们将季节与昼夜两个分类实验中的训练集整理,利用分类算法构造出季节分类器和昼夜分类器,并对两个分类器分别进行封闭测试和开放测试,结果如下表所示。表风格分类器测试结果类别封闭测试开放测试准确率查全率准确率查全率豪放婉约平均指标豪放婉约平均指标封闭测试准确率封闭测试查全率开放测试准确率开放测试查全率图风格分类器测试结果从上述结果看,季节分类器在开放测试和封闭测试中,准确率与查全率都比较理想,开放测试结果的准确率与查全率都在以上。对风格分类器的测试结果表明分类器可以较好地完成了对宋词的分类要求,达到了预期的效果第章总结与展望古典诗词作为中华民族文化艺术宝库中的瑰宝,对它的研究具有重要而深远的意义。本文主要着眼于对宋词风格的判定,采用专门针对古文的分词工具以及结合相关研究基础,人工加工了小规模带标注的语料,并利用协同训练,在全宋词大规模不带标注的语料上进行半监督学习,分别建立的对宋词风格豪放与婉约判定的分类器。本文构建的实验系统采用全过程计算机自动执行方法,用户只需要输入宋词,确认后,从分词开始到最后输出场景划分结果每步都由计算机自动完成,无需人工参与。系统测试结果表明,该系统可以较合理地完成宋词风格的判定过程,且全过程运行速度快,基本达到了预期的效果。今后待于进步开展的主要研究工作有以下方面当前的研究用于训练模型的语料库较少,分类的方法也仅仅局限于支持向量机。在后继的研究中,方面要适当地扩大训练语料库,方面也可以尝试利用多种分类方法综合地应用于宋词的风格分类,从而提高分类的准确性。关于宋词熟语料库和相关知识库的建立有待于进步完善,目前对于宋词的分类,主要基于分词的结果在风格豪放与婉约方面展开,对于诗歌的主题方面的研究较少,为了使系统具有更强的实用性,有必要编撰相关宋词语义词典。参考文献周昌乐心脑计算清华大学出版社穗志方俞士汶罗凤珠宋代名家诗自动注音研究及系统实现中文信息学报俞士汶胡俊峰唐宋诗之词汇自动分析及应用台湾中研院第届汉学会议,在周昌乐教授带领下开始中国古典诗词计算化的研究工作,主要开展汉语隐喻分析与理解研究诗词计算分析与创作研究以及诗歌机器翻译系统的开发等,并取得了不少科研成果,其中,周昌乐教授年在软件学报第期发表的种宋词自动生成的遗传算法及其机器实现文,在国内学术界具有比较大的影响,并引起了网民的广泛关注。本文的工作和主要内容中国古典诗歌有着极高的文学造诣,在汉语言文化的成长演变与传播中占有着极重要的地位。诗歌作为种用高度凝结的语言表达丰富含义的特殊文体,是人类智慧在语言乃至思维层面的个闪光点。本文结合了计算诗学领域相关研究成果对宋词的风格划分进行研究。主要研究内容涉及宋词特征的选取协同训练的研究宋词的风格判定。我们的最终目标是希望通过本文的研究,构建个较完善的计算模型和系统,实现基于的宋词风格划分。第章基于的古诗场景时间判定概述,支持向量机是在统计学习理论基础之上发展起来的种全新的机器学习算法。它适合大样本分类,特别是文本分类。基于统计学习理论的结构风险最小化原则,将原始数据集合压缩到支持向量集合,然后用子集学习得到新的知识,同时给出了支持向量决定的规则。将最大化分类间隔的思想和基于核的方法结合在起,表现出很好的泛化能力。由于方法有统计学习理论作为其坚实的数学基础,并且可以很好地克服维数灾难和过拟合等传统算法不可避免的问题,所以受到越来越多的研究人员的关注。基于的宋词风格判定文本分类的历史可以追溯到实际年代,直到年代结合互联网应用后得到了广泛的研究和应用。随着信息技术的不断发展,文本信息量的急剧增加,人们开始研究基于机器学习的文本分类方法。通过机器学习,文本分类不再需要过多人工参与,其准确性和稳定性也具有明显的优势。基于机器学习的文本分类系统主要包括文本预处理文本特征的表示分类器训练分类器分类和分类评估,大致流程如下图所示。图基于机器学习的文本分类系统框图本文结合了相关文献及语料库的分析,将宋词的风格判定看作是两个文本分类问题,提取每单句中的相关句法语义信息为特征,在相关宋词词典的基础上人工加工的小规模带标注的训练语料,采用半监督学习方法中的协同训练法,在大规模的不带标注的全诗词语料库上进行半监督学习,训练得到风格判定的分类器,并对分类器的性能进行了测试和分析。训练样本的获取文本预处理文本重要程度各不相同,有些区分类别的能力较强,有的则很弱。因此需要对特征进行加权,对于区分类别能力较大的特征项赋予较大的权重。常用的特征加权方法有很多,本文采用现今信息检索与文本挖掘领域最为常用的词频逆向文件频率。这种方法考虑了特征项在文档中的重要程度和整个文档集中的区分能力。特征项在文档中的权重计算见式。式其中表示特征项在文档中的词频,表示特征项在所有文档中的逆向文件频率。表示在中出现的次数,的值越大,越大表示所有文档的总数,表示出现过的文档数量,特征项在文档集中出现的越频繁,对于的越低。在本文的研究中,表示古诗的单句。由此可知权重倾向选择在特定文档里出现频率高,在整个文档集出现频率较低的特征项。利用这方法,能够排除些常用词所带来的影响。训练集的标注与构建考虑到宋词中的风格般分为豪放和婉约两类,所以在训练集的标注的过程中也分为以上两类。本文选择全宋词语料库中的部分古诗的单句,在宋词鉴赏辞典及相关诗词网站的基础上对其人工加工得到小规模带标注的文本训练语料。人工标注类别时由于语料库的数据较多,逐句人工判定标注的方法费时费力。因此,本文研究过程中,利用相关诗词网站中所提供的豪放与婉约分类下的宋词,将语料库中的宋词进行风格标注。通过上述方法,我们得到小规模带标注的语料,并在其基础上根据上述文本预处理表示模型和特征选取以及权重计算等方法,最终获得宋词风格判定初始的训练集。分类器的构建本设计的训练采用的是目前比较流行的工具,并利用协同训练方法,在大规模的不带标注的全宋词语料库上进行半监督学习,分别训练得到风格判定的分类器。协同训练算法概述协同训练算法是半监督学习算法的种,它由和在年提出。协同训练隐含利用聚类假设和流行假设,使用两个或多个分类器,挑选标注未标注样本进行相互标注学习,从而不断更新训练样本集和学习模型。之后又有很多研究者对协同训练进行了研究和分析,取得了很大进展,使协同训练成为半监督学习中非常重要的方面和成果。和对标准的协同训练算法提出了三个基本假设属性集可以被划分为两个集合每个属性集的子集都足以训练个分类器在给定类标记情况下,两个属性集是相互独立的。其中每个属性集构成个视图,满足上述假设的视图称为充分冗余的视图。但是这的前提条件比较苛刻,真实的数据中,满足充分预处理作为文本分类的第个环节,有
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
第 1 页 / 共 15 页
第 2 页 / 共 15 页
第 3 页 / 共 15 页
第 4 页 / 共 15 页
第 5 页 / 共 15 页
第 6 页 / 共 15 页
第 7 页 / 共 15 页
第 8 页 / 共 15 页
第 9 页 / 共 15 页
第 10 页 / 共 15 页
第 11 页 / 共 15 页
第 12 页 / 共 15 页
第 13 页 / 共 15 页
第 14 页 / 共 15 页
第 15 页 / 共 15 页
预览结束,喜欢就下载吧!
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。
1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。
2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。
3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。
4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。
5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。