狐假虎威语文二年级上册教育课件PPT（19页含内容）编号18036 ㊣精品文档值得下载

狐假虎威语文二年级上册教育课件PPT（19页含内容）编号18036

确率。针对上述问题，本文工作的主要目的是为了找出有效的方法，以尽量消除这种差异性。首先采用风险决策方法，将特征词的选择看作是个决策问题，从而提高算法的分类结果。此外，本文还从迁移学习的角度，探索减少或者消除这种差异性的途径。本文的主要研究内容总结如下提出基于风险决策的特征选择方法。随着人工智能的发展知识库的形成，使得根据新信息实时乃至自动修改决策策略成为可能。本文正是基于这理念，将风险决策方法应用到动态文本分类问题中，在特征选择时不再考虑特征词与文本类别的关联信息，而是直接采用效用函数去评价每个特征词对分类结果的贡献程度，选出部分贡献最大的特征词组成特征词典以达到降维的目的。本文在中文邮件数据集和中文网页数据集上检查了算法的有效性，并在英文网页数据集上检查了算法的鲁棒性。实验结果表明，基于风险决策的特征选择方法可以选取出对分类结果影响更大的特征词，使文本分类的各项指标明显提高。提出基于迁移学习的特征选择方法。迁移学习方法非常适合解决本文中所提出的问题，然而基于机器学习的迁移学习方法在本世纪初才开始被广泛关注，目前常用的迁移学习算法大体分为实例的迁移特征表示的迁移模型迁移和关联知识的迁移，但是在文本特征选择问题中仍没有个较为合适的迁移学习算法。因此本文首先对迁移学习中比较有代表性的算法进行简单介绍，其次针对文本中特征选择问题提出改进的方法，并进行了实验验证。万方数据本文的工作思路是通过实验来发现问题，对实验结果进行深度的剖析找到改进结果的方向，并尝试从不同的角度解决问题。提出的基于风险决策和迁移量的特征选择方法，可以很好地避免传统特征选择算法中出现的问题，使得文本分类中的评价指标都有定提高。本文的研究成果对支持向量机应用范围的拓展具有重要的意义。关键词中文文本分类动态数据集特征选择风险决策迁移学习万方数据，法概率索引等分类方法。文本分类国内研究现状我国在上世纪年代初期开始文本分类问题的研究。侯汉清教授在年首先对文本分类的相关实际应用问题进行了分析和研究，重点介绍了国际上采用计算机技术来进行分类表的管理文本自动分类和分类检索以及文本标志分类表等研究方向上的发展情况。国内的文本分类的进展情况同国际上类似，主要也经历了三个发展阶段可行性探讨相关辅助问题的研究基于机器学习的文本自动分类技术。其中复旦大学北京大学中科院研究所等都取得了较好的成果。国内较有代表性的文本分类研究主要有年侯汉清等人探讨计算机用于自动分类标引自动分类检索分类表的自动变质和管理方面的研究年莫少强提出了人工主题分析，系统查表，自动归类及附表调用年朱兰娟等人提出检索类主题表累计其归属度，根据贝叶斯最小损失原则归类年张炳恒等人将分类法类名分解为单元词，人工进行主题分析及单元词组配，自动确定类号年苏新宁提出主题词与类号关系表，确定权重系数，分类前控词表停用词表同年吴军等人提出以语料相关系数作为分类依据年邹涛等人建立中文文本分类系统，采用空间向量模型和基于统计的特征词提取技术年李晓黎等人以语义网络为基础构造概念推理模型，根据相关度，完成关键词到核心词的自动转移，人工确定权值年李荣陆等人提出基于最大熵模型的文本分类方法。特征选择研究现状目前对原始特征词典的降维主要有两种途径特征抽取。特征抽取主要是根据各特征词间的语义关系，将原有的空间向量模型组合或者转换成为个新的文本表示模型。常用的特征抽取方法有主成分万方数据文本分类中特征选择方法的研究分析，潜在语义索引，非负矩阵分解，等方法。特征选择。特征选择从原始特征词典，为特征词总数其中中根据特征词所含信息量的多少，选择出部分对标识文本类别信息最大的特征词组成个新的特征词典，，其中。在文本分类中，常用来计算特征词所含信息量的方法有特征词频，文本频率，互信息，信息增益，统计期望交叉熵，方法等，这些算法从不同的角度计算每个特征词在每类文本中所含有的信息量。本文的工作与创新本文旨在研究动态文本中特征选择的问题，重点针对本章第节中提出的问题，提出了两种解决办法方法传统的特征选择方法得到的特征词典往往需要考虑每个特征词与邮件类别之间相关联的信息，并且正是由于这情况导致实验中的假设与实际应用情况不符合。这样是否可以采用种新的特征选择方法，在计算每个特征词信息量的时候避免使用与邮件类别相关的信息本文提出了基于风险决策的文本特征选择方法，将特征词的选择看作是个决策问题。通过构造效用函数来评价训练集中每个特征词对分类的效用值，再采用风险决策方法计算出每个特征词的损失期望，最终选择部分损失期望小的特征词以达到降维的目的。方法造成垃圾邮件过滤精度降低的根本原因是训练集与测试集中构造的特征词典不同，在表现形式上是训练集与测试集的向量表示存在差异。这样是否可以找到种方法来消除这种差异本文采用迁移学习中的方法，试图减少这种差异，进而提高垃圾邮件过滤精度。本文的组织结构第章为引言，重点介绍了本文是如何发现文本分类中存在的问题，并针对这个问题介绍了本文研究的意义和研究的内容与创新点，同时介绍了文本分类和特征降维的研究现状，为本文的研究工作夯实基础。万方数据第章引言第二章主要介绍本文研究与实验所涉及到些基础性知识，重点包括实验中的三种对比特征选择方法，本文新提出算法中涉及到的风险决策和迁移学习的相关基础知识。第三章重点介绍基于风险决策的特征选择方法，分别针对静态文本数据集和动态文本数据集提出了种新的特征选择方法，并在邮件过滤，中英文网页过滤等多个文本语料上验证新算法。第四章主要介绍了本文在迁移学习基础上所做的些实验，重点介绍了实验设计的思路以及其中发现的问题。第五章是对本文所有研究工作的个总结，对工作的成果和不足进行分析，对下步的研究方向进行展望。万方数据文本分类中特征选择方法的研究万方数据第二章背景知识第二章背景知识本章重点介绍文章实验和算法设计时涉及到的相关知识，其中传统特征选择理论已基本成熟并且在本文中作为研究的理论基础，因此这里只对选择作为对比实验的三种特征选择方法进行介绍。本章将重点介绍决策理论和迁移学习的相关知识。特征选择特征降维方法在论文节进行了简要的介绍，主要分为特征抽取和特征选择两种方法，本文所设计的实验和改进方法都属于基于统计学习的特征选择方法，本节重点介绍最为常见实验结果较好的三种特征选择方法互信息信息增益统计。互信息互信息，是用来衡量文本类别对特征词的依赖程度，两者间的依赖程度越大，值就越大，就认为这样的词具有更好的类标识作用，其计算公式如下，其中表示特征词，表示文本类别，为特征词在类别为的文档中出现的次数，为特征词出现在除类外其他类别文档中出现的次数，为类别的文档中没有出现特征词的次数，为总文本数。通过对上式分析可以发现，对于特征词，其先验概率越小且后验概率越大时，其特征词的信息量就越大，这样其计算公式可以简化为，其中表示特征词的概率，表示特征词在类下的条件概率，表示第类的概率。但杨等人研究发现，有利于低频特征项的选取，这是个不利因素。信息增益信息增益，是信息论中的基础理论，它通过统计每个特征词在篇文本中出现或不出现的次数来预测文本的类别，其计算公式如下万方数据文本分类中特征选择方法的研究其中为类文本在训练集中出现的概率，为特征词在当前文本类中出现的概率，为特征词没有在当前文本类中出现的概率，为特征词在当前文本类别的文本中出现的概率，为特征词在当前文本类别的文本中没有出现的概率，为文本类别数。为整个系统的熵，即系统的不确定性，为知道特征词出现不出现后系统的熵，它们之间的差就是确定出现特征词后系统不确定性的减少程度，即特征词的信息增益值，在使用信息增益方法时，信息增益值越大的特征词对分类贡献的作用也就越大。统计很多时候，特征项在类别判别中的作用不但存在正面作用，而且还存在反面作用。根据这原理，提出了统计方法来计算特征词和类的相关性，将特征词与其它文本类别间的关系也考虑到算法设计中，其计算公式如下，其中为特征词在类文本中出现的次数，为特征词在除类外其它类别文本中出现的次数，为类文本中没有出现特征词的次数，为除类外其它类别文本中没有出现特征词的次数，为训练集中的文本数。如果和不相关，则为，般选取出具有较大值的特征词。决策理论和方法随着计算机的广泛普及和计算机技术的迅猛发展，人们更多的采用计算机来进行数据的采集检索以及处理。通过采用计算机技术，越来越多的程序化问题可以直接采用决策理论中的方法来直接进行求解。同时，人工智能的发展知识库的形成，使得根据新信息及时乃至自动修改决策策略成为可能。本节主要对决策论的定义要素和方法风险决策等后续实验涉及到的基础知识进行简要的介绍。万方数据届硕士学位论文文本分类中特征选择方法研究作者姓名赵世琛指导教师王文剑教授学科专业系统工程研究方向机器学习培养单位计算机与信息技术学院学习年限年月至年月二〇四年六月万方数据山西大学届硕士学位论文文本分类中特征选择方法研究作者姓名赵世琛指导教师王文剑教授学科专业系统工程研究方向机器学习培养单位计算机与信息技术学院学习年限年月至年月二〇四年六月万方数据，万方数据承诺书承诺书本人郑重声明所呈交的学位论文，是在导师指导下独立完成的，学位论文的知识产权属于山西大学。如果今后以其他单位名义发表与在读期间学位论文相关的内容，将承担法律责任。除文中已经注明引用的文献资料外，本学位论文不包括任何其他个人或集体已经发表或撰写过的成果。作者签名年月日万方数据学位论文使用授权声明学位论文使用授权声明本人完全了解山西大学有关保留使用学位论文的规定，即学校有权保留并向国家有关机关或机构送交论文的复印件和电子文档，允许论文被查阅和借阅，可以采用影印缩印或扫描等手段保存汇编学位论文。同意山西大学可以用不同方式在不同媒体上发表传播论文的全部或部分内容。保密的学位论文在解密后遵守此协议。作者签名导师签名年月日万方数据目录中文摘要第章引言研究的背景和意义问题的证明研究的意义国内外研究现状文本分类国外研究现状文本分类国内研究现状特征选择研究现状本文的工作与创新本文的组织结构第二章背景知识特征选择互信息信息增益统计决策理论和方法决策论的定义要素和表示方法