1、“.....在各种方根形式中又以的立方根形式效果最好提高了,从到。增加了反映关键词在不同领域之间分布差异性的变量以后,分类效果比原来有很明显的提高提高了,从到。最适合分类的关键词数目。从测度值随关键词数目的变化来看个关键词以下,测度的值上升很快。这说明在该高频区段反映领域特征的词在不断地增多之间测度稍有上升,这说明此区段仍存在些权重较高的词,但这些词的权重较前区段已不是很高,数量比前区段也少了不少。,之间测度上升更少,伴随着微小的波动。之间测度微有下降。这说明从这个区段开始随着关键词数量的增大,正面词汇包含在关键词表中有助于分类的词的增加已开始小于负面词汇包含在关键词表中有害于分类效果的增加。所以关键词的数量般定在左右比较合适,如果要求更高的正确率和召回率,可以将关键词的数目定在,但不宜再多。实验和的比较前面介绍的时候......”。
2、“.....而不是的形式,主要是因为后者的采用会在权重公式中引入较大的倚重,为了证实这个结论,我们设计了下面的实验。实验内容对比和的分类效果。实验平台点积分类器实验语料训练语料是中科院自动化所合作为欧盟项目建立的万字的汉语语料,分六个领域体育娱乐和游戏财经新闻个人交流消费信息测试语料是个从网上随意收集的文本共个汉字,分属于这六个领域,各领域文本数分别为消费信息领域文化和娱乐领域财经领域新闻领域个人交流领域体育和游戏领域,这部分语料作为开放的测试语料。实验步骤清除下载文本中的垃圾文字,并对实验文本分词和词性标注。从每个领域抽取个词,组成个总关键词表,词性词频和信息都应当包含在该词表中。用该关键词表结合点积分类器对测试语料分类。分别取,对比在不同取值情况下算法和算法的分类效果......”。
3、“.....但这时的分类准确率比较低,而在分类准确率比较高的和时,的分类效果都要好于,同时在我们最终的改进权重算法中取值为,所以对应的取应当是优于。实验算法和算法的对比我们设计了两个实验来验证对算法的改进效果。它们的训练语料相同测试语料也相同,但采用的分类器有所不同,个是点积分类器,另个是余铉分类器。实验内容对比算法和算法的分类效果。实验平台点积分类器和余铉分类器实验语料训练语料从网上下载的个文本,分个领域领域名称领域文本数娱乐财经健康新闻个人交流社会体育表实验训练语料的分布测试语料也是从网上下载的个文本,领域划分同上领域名称领域文本数娱乐财经健康新闻个人交流社会体育表实验测试语料的分布实验步骤清除下载文本中的垃圾文字,并对实验文本分词和词性标注。从实验语料中抽取出个总词表......”。
4、“.....从总词表中按照领域词频排序选择关键词数目分别为和的两种分类词表,同时去除各领域词频之和小于的词。在点积分类器下,使用关键词表,权重算法对测试语料分类。在点积分类器下,使用关键词表,权重算法对测试语料分类。与的结果对比。见表在点积分类器下,使用关键词表,权重算法对测试语料分类。在点积分类器下,使用关键词表,权重算法对测试语料分类。与的结果对比。见表在余铉分类器下,使用关键词表,权重算法对测试语料分类。在余铉分类器下,使用关键词表,权重算法对测试语料分类。与的结果对比。见表在余铉分类器下,使用关键词表,权重算法对测试语料分类。在余铉分类器下,使用关键词表,权重算法对测试语料分类。与的结果对比。见表实验结果与结论表点积分类器,关键词的分类结果表点积分类器,关键词分类算法算法表余铉分类器,关键词分类表余铉分类器......”。
5、“.....用的次方代替分类效果都有很大的提高。无论余铉分类器和点积分类器下,的引入都使分类效果都有很大的提高。的最佳取值余铉分类器在的情况下效果最好点积分类器在的情况下最好,但是和的效果非常接近,考虑到计算复杂性我们也可以取。最终权重算法优于权重算法,平均值提高了左右。点积分类器无有无有无有有无无有无有无有有无个关键词下从提高到,提高了个关键词下从提高到,提高了余铉分类器个关键词下从提高到,提高了个关键词下从提高到,提高了实验不同特征选取方法的对比前面提到了几种不同的特征选取方法,以及我们提出的选取方法。为了充分对比它们的分类效果,我们结合余铉分类器,选取不同数目的关键词建立了分类关键词表,对测试语料进行了分类。实验内容比较不同选词策略和对于分类结果的影响。实验平台余铉分类器......”。
6、“.....并对实验文本分词和词性标注。从实验语料中抽取出个总词表,包括词形词性每个领域的词频。将总词表按照排序,从高到低选择词分别组成不同的分类关键词表。使用上面建立的分类关键词表,结合余铉分类器权重算法,对测试语料进行分类,得到选词策略下,值随关键词数目的变化曲线。相同方式下依次作出等选词策略下,值随关键词数目的变化曲线。实验结果和结论不同选词策略下,值随关键词数目的变化曲线如下图所示,的效果比较差,表现在两个方面关键词数目比较少的时候,两者的值非常小。甚至在关键词数目等于的时候他们的值分别只有和。主要原因是和比较大的词般出现的频率比较低,所以再对新文本分类的时候能提供给新文本的信息量比较小。最佳分类效果的峰值出现的比较晚......”。
7、“.....如的峰值出现在个关键词,的峰值出现在个关键词,其他几种方法的最佳分类效果都出现在个关键词左右。在关键词数目比较多的时候还出现明显的分类效果下降的趋势。,几种方法相比峰值基本上都出现在关键词之间。相比较的效果稍差,起点最低,峰值也只和相当,但是在同样数目的关键词下效果又要稍差于。和的分类效果各有千秋,前者的峰值比较高,图不同特征抽取方法分类效果对比图关键词数后者的起点比较高。分类效果最好的是,起点最高,峰值最大,稳定性最好,同等数目关键词下分类效果几乎都是最好,峰值时的关键词数目也于其他上面三种相当。原因除了外其他五种方法基本上要么考虑该词的类别属性,要么考虑其整体属性,要么考虑其信息论属性,要么考虑其概率属性,只有真正的考虑了词的所有这四种属性,既反映类别属性,又反映其概率属性既反映其整体属性,又反映其信息论属性......”。
8、“.....语料库和词典建设项目是国际合作项目的部分,收集的语料主要来源于网上资源,最终我们收集了万字的通用语料,并进行了分词和词性标注。时间上所有的语料都在年以后。词典包括三部份通用词表共个词,包括词形词性词频注音信息,专有名词共个词,包括人名地名机构名,专用词表共个词,包括词形词性注音领域信息。最终所有的词以个总的词表的形式给出。该资源具有以下特点规模大万字时间新都在年以后。词典信息比较全包括词形词性词频注音甚至领域信息。词典规模大三部份共计个词词表形式国际化最终的词表以国际上常用的数据交换格式文件给出。词表生成后,本论文对各领域的用词特点进行了统计和比较......”。
9、“.....本文后半部分对基于大规模真实语料的文本分类算法进行了探讨和研究,主要从两个方面特征权重算法和特征抽取。比较了常见的几种特征权重算法在分类器上的表现,分析了算法的缺点赋予词频太多的倚重没有考虑领域间分布不均衡性对词整体特性的影响。进步提出了权重算法和权重算法。并在分类器上分别将这两种算法与和算法进行了对比,结果显示从到分类的值提高了,从到分类的准确率提高了,充分证明的改进算法的有效性。基于改进后的权重算法和分类器,本文对常用的特征抽取方法在不同关键词数目下进行了充分的对比,同时对它们的优缺点进行了探讨,提出了特征抽取算法,实验结果表明,特征抽取算法几乎在所有关键词数目下的分类效果都要好于其他所有的算法,说明了这种算法的有效性。参考文献......”。
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。