1、“.....特征项在文档中权重计算见式。式其中表示特征项在文档中词频,表示特征项在所有文档中逆向文件频率。表示在中出现次数,值越大,越大表示所有文档总数,表示出现过文档数量,特征项在文档集中出现越频繁,对于越低。在本文研究中,表示古诗单句。由此可知权重倾向选择在特定文档里出现频率高,在整个文档集出现频率较低特征项。利用这方法,能够排除些常用词所带来影响。究内容涉及宋词特征选取协同训练研究宋词风格判定。我们最终目标是希望通过本文研究,构建个较完善计算模型和系统,实现基于宋词风格划分。第章基于古诗场景时间判定概述,支持向量机是在统计学习理论基础之上发展起来种全新机器学习算法。它适合大样本分类,特别是文本分类。基于统计学习理论结构风险最小化原则,将原始数据集合压缩到支持向量集合,然后用子集学习得到新知识,同时给出了支持向量决定规则......”。
2、“.....表现出很好泛化能力。由于方法有统计学习理论作为其坚实数学基础,并且可以很好地克服维数灾难和过拟合等传统算法不可避免问题,所以受到越来越多研究人员关注。基于宋词风格判定文本分类历史可以追溯到实际年代,直到年代结合互联网应用后得到了广泛研究和应用。随着信息技术不断发展,文本信息量急剧增加,人们开始研究基于机器学习文本分类方法。通过机器学习,文本分类不再需要过多人工参与,其准确性和稳定性也具有明显优势。基于机器学习文本分类系统主要包括文本预处理文本特征表示分类器训练分类器分类和分类评估,大致流程如下图所示。图基于机器学习文本分类系统框图本文结合了相关文献及语料库分析,将宋词风格判定看作是两个文本分类问题,提取每单句中相关句法语义信息为特征,在相关宋词词典基础上人工加工小规模带标注训练语料,采用半监督学习方法中协同训练法,在大规模不带标注全诗词语料库上进行半监督学习......”。
3、“.....并对分类器性能进行了测试和分析。训练样本获取文本预处理文本预处理作为文本分类第个环节,有着十分重要作用。对于文本预处理,主要目在于减少文本噪声,改善文本质量,同时对文本进行适当语义处理,为后续工作做好铺垫。本文中文本预处理过程主要是对古诗进行分词。这里所使用分词工具是史晓东教授开发专门针对古诗词训练分词标注工具。用此分词工具,本文对全宋词语料库中万多首宋词进行分词标注。文本预处理训练文本测试文本特征选取特征权值计算特征权值计算分类器训练分类器分类评估人工分类结果分类器评判结果训练过程文本测试过程文本表示模型自然语言形式文本结构非常复杂,并不适合计算机处理。因而在分类前有必要将文本化成个数学模型,该模型要能够尽量反映出文本内容,同时还要有对不同文本区分能力。由此引入了文本表示模型概念,即以定文本特征组合来表示文本,将非结构化文本表示为结构化模型......”。
4、“.....其中向量空间模型是当前应用最为广泛文本表示模型,因此本文采取文本表示模型为向量空间模型。向量空间模型最初由等人在世纪年代提出,并在著名系统中得到应用。其主要思想是将每篇文档映射到组规范正交化特征向量张成向量空间中个点,其形式化表示为文本,,其中表示文档第个特征,标识该特征权重,反映特征项对表示文档重要程度,简记为,。当所有文本都映射到向量空间中,文本间相似程度可转为向量间距离度量,常用方法为计算向量间夹角余弦式。,式特征选取本文在建模过程中,选择词作为文本特征项。所谓特征选取,其实就是个维数压缩过程。如果将语料库中所有出现词都作为特征,会使形成空间向量维数过于复杂,而且对于不相关特征引入,有可能会影响之后训练效果。因此,在前期特征提取中,本文只选用了含义具体名词以及反映时间信息时间词作为训练集特征,从而大大减少了特征空间维数......”。
5、“.....我们已经获取了最能表示文本特征项集合,但是这些特征项对于文本重要程度各不相同,有些区分类别能力较强,有则很弱。因此需要对特征进行加权,对于区分类别能力较大特征项赋予较大权重。常用特征加权方法有很多,本文采用现今信息检索与文本挖掘领域最为常用词频逆向文件频率。这种方法考虑了特征项在文档中重要程度和整个文档集中区分能力。特征项在文档中权重计算见式。式其中表示特征项在文档中词频,表示特征项在所有文档中逆向文件频率。表示在中出现次数,值越大,越大表示所有文档总数,表示出现过文档数量,特征项在文档集中出现越频繁,对于越低。在本文研究中,表示古诗单句。由此可知权重倾向选择在特定文档里出现频率高,在整个文档集出现频率较低特征项。利用这方法,能够排除些常用词所带来影响。率开放测试查全率图风格分类器测试结果从上述结果看,季节分类器在开放测试和封闭测试中......”。
6、“.....开放测试结果准确率与查全率都在以上。对风格分类器测试结果表明分类器可以较好地完成了对宋词分类要求,达到了预期效果第章总结与展望古典诗词作为中华民族文化艺术宝库中瑰宝,对它研究具有重要而深远意义。本文主要着眼于对宋词风格判定,采用专门针对古文分词工具以及结合相关研究基础,人工加工了小规模带标注语料,并利用协同训练,在全宋词大规模不带标注语料上进行半监督学习,分别建立对宋词风格豪放与婉约判定分类器。本文构建实验系统采用全过程计算机自动执行方法,用户只需要输入宋词,确认后,从分词开始到最后输出场景划分结果每步都由计算机自动完成,无需人工参与。系统测试结果表明,该系统可以较合理地完成宋词风格判定过程,且全过程运行速度快,基本达到了预期效果。今后待于进步开展主要研究工作有以下方面当前研究用于训练模型语料库较少,分类方法也仅仅局限于支持向量机。在后继研究中......”。
7、“.....方面也可以尝试利用多种分类方法综合地应用于宋词风格分类,从而提高分类准确性。关于宋词熟语料库和相关知识库建立有待于进步完善,目前对于宋词分类,主要基于分词结果在风格豪放与婉约方面展开,对于诗歌主题方面研究较少,为了使系统具有更强实用性,有必要编撰相关宋词语义词典。参考文献周昌乐心脑计算清华大学出版社穗志方俞士汶罗凤珠宋代名家诗自动注音研究及系统实现中文信息学报俞士汶胡俊峰唐宋诗之词汇自动分析及应用台湾中研院第届汉学会议苏劲松周昌乐李翼鸿基于统计抽词和格律全宋词切分语料库建立中文信息学报,罗凤珠李元萍中国古代诗词格律自动检索与教学系统中文信息学报,苏劲松全宋词语料库建设及其风格与情感分析计算方法研究厦门大学费越汉语语义多层次集成研究及春联艺术系统设计中国科学院自动化研究所郑亚斌曹嘉伟刘知远等基于最大匹配和马尔科夫模型对联系统第四届全国学生计算语言学研讨会会议论文集张开旭......”。
8、“.....究内容涉及宋词特征选取协同训练研究宋词风格判定。我们最终目标是希望通过本文研究,构建个较完善计算模型和系统,实现基于宋词风格划分。第章基于古诗场景时间判定概述,支持向量机是在统计学习理论基础之上发展起来种全新机器学习算法。它适合大样本分类,特别是文本分类。基于统计学习理论结构风险最小化原则,将原始数据集合压缩到支持向量集合......”。
9、“.....同时给出了支持向量决定规则。将最大化分类间隔思想和基于核方法结合在起,表现出很好泛化能力。由于方法有统计学习理论作为其坚实数学基础,并且可以很好地克服维数灾难和过拟合等传统算法不可避免问题,所以受到越来越多研究人员关注题目基于诗词风格分类自然语言处理结课论文姓名学院系专业年级学号年月日摘要为了提高宋词风格划分准确性,本文提出了基于和协同学习宋词风格自动判定方法,在小规模人工标注训练语料上,利用协同学习方法,在大规模未标注全宋词语料库上进行半监督学习,并训练得到风格分类器。在本文搭建模型系统上进行实验表明,本文所提出研究方法,初步解决了宋词风格划分,也为后继相关研究提供了理论依据和实验基础......”。
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。